Unüberwachte Systeme kosten eine „unsichtbare Steuer“

In jedem Unternehmen werden Budgets gemanagt, Fortschritte nachverfolgt und Produkterfolge angestrebt. Doch tagtäglich gehen dem Engineering unbemerkt und in aller Stille Mittel verloren. Das nenne ich eine „unsichtbare Steuer“. Eine Steuer, die nicht von einer Behörde erhoben wird, sondern in die sehr digitalen Systeme fließt, die von Unternehmen geschaffen und betrieben werden – und dort vor allem in diejenigen Komponenten, die nicht sichtbar oder nicht leicht nachvollziehbar sind: unüberwachte Systeme, also Systeme ohne Observability.

In einem solchen System fehlt es an reichhaltigen, verwertbaren Daten wie detaillierte Logs, granulare Metriken und umfassende Traces. Ohne diese grundlegende Telemetrie haben Engineers bei Problemen das Nachsehen und sehen sich gezwungen, auf gut Glück nach der Ursache zu forschen oder manuell temporäres Logging hinzuzufügen. Genau diese blinden Flecken verursachen die unsichtbare Steuer, hier werden Effizienz und Rentabilität untergraben.

Man muss zwischen herkömmlichen Monitoring und moderner Observability unterscheiden. Durch Monitoring finden Sie heraus, ob etwas nicht stimmt (z. B. „Server down.“). Observability hingegen hilft Ihnen zu verstehen, warum etwas nicht stimmt (z. B. „Welcher API-Aufruf hat das verursacht?“), und bietet die Diagnosetools zur Ursachenfindung durch kontinuierliche Erfassung und Analyse von Logs, Metriken und Traces. Für die Unternehmensstrategie ist Observability ein Muss – keine schnöde betriebliche Ausgabe, sondern eine strategische Investition, die Ressourcen für Innovationen freisetzt.

Die versteckten Kosten mangelnder Transparenz

Zeitverschwendung im Engineering kostet viel Geld. Wenn Entwickler:innen nicht sehen können, warum ein System versagt, verbringen sie zu viel Zeit mit Rätselraten und haben weniger Zeit für Innovationsarbeit. Das ist nicht nur ineffizient, Sie verheizen damit auch Ihre wertvollste Ressource.

Das Fehlen umfassender Visibility in digitale Systeme kommt einer hohen Steuerlast gleich, die sich direkt auf Budgets und Produktziele auswirkt.

Zweckentfremdung Ihrer teuersten Ressource

Entwickler:innen verbringen etwa 50 % ihrer Zeit mit Debugging. Dieser ineffiziente Einsatz von Fachkräften kostet das durchschnittliche Unternehmen jährlich mehrere Millionen Dollar. Studien zeigen, dass Entwickler:innen nach jeder Unterbrechung schätzungsweise 23 Minuten brauchen, bis sie sich wieder auf ihre ursprüngliche Aufgabe konzentrieren können. Eine „Toolfragmentierung“, also die Notwendigkeit, diverse verschiedene Tools einzusetzen, kann Entwickler:innen täglich jeweils zusätzliche 2,5 Stunden ihrer Arbeitszeit kosten. Und je später ein Softwarefehler entdeckt wird, desto schwindelerregender wird die finanzielle Belastung: Einen Fehler erst in der Produktion zu beheben, kostet das Hundertfache dessen, was bei einer Behebung während der Designphase fällig würde. All das hält hochqualifizierte Fachkräfte von der Innovationsarbeit ab, denn sie sind zu oft mit Notfällen beschäftigt.

Die eskalierenden Kosten von Bugfixes. Je später ein Fehler gefunden wird, desto teurer wird seine Behebung. Mangelnde Observability lässt Bugs länger leben und vervielfacht ihre finanziellen Folgen exponentiell. Die Behebung eines Fehlers, der erst in der Produktion gefunden wurde, kostet das 100-Fache eines Fehlers, der bereits in der Designphase entdeckt wurde, und das 6,6-Fache eines beim Testen gefundenen Fehlers.

Der hohe Preis von Downtime

Der schwindelerregende Preis von Downtime. Jede Minute Downtime nagt am Umsatz, schadet der Markenreputation und frustriert die Kundschaft. Unüberwachte Systeme ziehen einer langsamere Incident Response (MTTR) nach sich, was die Kosten eines Ausfalls weiter in die Höhe treibt.

Fallen Produktionssysteme aus, zählt jede Minute, denn die Folgen sind erheblich, sowohl finanziell als auch für den Ruf eines Unternehmens. Unüberwachte Systeme verlängern die mittlere Zeit bis zur Behebung (MTTR) dramatisch, was wiederum dafür sorgt, dass sich Benutzer:innen abwenden, der Umsatz leidet und der Ruf der Marke Schaden nimmt.

Die durchschnittlichen Kosten für Downtime sind auf etwa 9.000 $ pro Minute gestiegen. Bei größeren Unternehmen kann sich das sogar auf mehr als 16.000 $ pro Minute oder 1 Mio. $ pro Stunde beziffern.

Beispiele für schwerwiegende Ausfälle:

Delta (Juli 2024): Ein fehlerhaftes CrowdStrike-Software-Update kostete die Fluggesellschaft rund 350 Millionen $.
Amazon Prime Day (2018): Technische Probleme aufgrund des hohen Datenverkehrs hinderten viele Kund:innen daran, Einkäufe abzuschließen, was Amazon bis zu 1,2 Millionen $ pro Minute an Umsatzeinbußen kostete.
T-Mobile (2020): Ein 12-stündiger landesweiter Ausfall, der Millionen von Menschen betraf, wurde auf Geräteausfälle, Netzwerkfehlkonfigurationen und einen latenten Softwarefehler zurückgeführt. Nachdem der Ausfall zu mehr als 20.000 fehlgeschlagenen Notrufen unter der Notrufnummer 911 geführt hatte, erklärte sich T-Mobile zur Beilegung einer Untersuchung in den USA bereit, 19,5 Mio. $ zu zahlen.

Fehlgeleitete Investitionen und verpasste Opportunitys

Minderwertige Daten führen zu schlechten Entscheidungen. Geschäftliche Entscheidungen sind immer nur so gut wie die Daten, auf die sie sich stützen. Unüberwachte Systeme produzieren minderwertige Daten, was zu fehlgeleiteten Strategien und verpassten Opportunitys in Millionenhöhe führt.

Führungskräfte sind für strategische Entscheidungen auf zuverlässige Daten angewiesen. Bei unüberwachten Systemen müssen sie jedoch quasi blind entscheiden, denn sie sind nicht in der Lage, die Performance von Features oder die von Benutzer:innen erlebte Latenz wirklich nachzuvollziehen. Sie riskieren also, unwissentlich in das Falsche zu investieren und auf eigentlich Vorhersehbares nicht vorbereitet zu sein.

Eine schlechte Datenqualität oder fehlende Daten sind ein allgegenwärtiges und kostspieliges Problem. Gartner schätzt die Kosten für Unternehmen auf durchschnittlich 12,9 Mio. $ pro Jahr, andere Schätzungen gehen von jährlich 15 Mio. $ aus. Die Gesamtfolgen für die US-Wirtschaft belaufen sich auf etwa 3,1 Billionen $ pro Jahr. Die „1x10x100-Regel“ veranschaulicht die eskalierenden Kosten: Die Behebung eines Datenqualitätsproblems an der Quelle kostet einen bestimmten Betrag (1x), aber wenn es die Endbenutzer- oder Entscheidungsphase erreicht, können die Kosten aufgrund erheblicher geschäftlicher Konsequenzen auf das 100-Fache steigen.

Wer zu spät kommt, verpasst Innovationen

Jedes Mal, wenn ein Engineering-Team reaktiv mit dem Debuggen vermeidbarer Probleme beschäftigt ist, kann es sich nicht der Entwicklung der „nächsten großen Sache“ oder der Innovationsarbeit widmen.

Die oft aus unüberwachten Systemen und Notlösungen resultierenden technischen Schulden verbrauchen einen unverhältnismäßigen Anteil der IT-Budgets. Laut einer Studie von McKinsey werden in einer IT-Abteilung ungefähr 40 % des Budgets ausschließlich auf die Begleichung technischer Schulden aufgewendet. Nicht nur das, auch von IT-Budgets, die für die Entwicklung neuer Produkte vorgesehen sind, werden 10–20 % zu technischen Schulden umgeleitet. Fast 70 % der Unternehmen sehen die technische Verschuldung als Bremsklotz für ihre Innovationsfähigkeit. Diese Umleitung von Ressourcen von der Innovation zur Wartung ist strategisch gesehen ein Riesenproblem.

Mehrwert durch Observability

Die gute Nachricht: Unternehmen können sich von der Last dieser unsichtbaren Steuer befreien und stattdessen durch strategische Investitionen in Observability eine Antriebskraft für Geschwindigkeit, Innovation und nachhaltiges Wachstum schaffen.

Schnellere Lieferung, geringere Kosten

Die Investition in Observability zahlt sich direkt im schnelleren Debugging aus, wodurch Entwicklungszeit für Roadmap-Prioritäten frei wird und die Produktlieferung beschleunigt wird. Ein weiterer Vorteil ist eine schnellere Incident Response, da die mittlere Zeit bis zur Behebung (MTTR) drastisch gesenkt wird und negative Folgen für Benutzer:innen und Unternehmen minimiert werden. Unternehmen, die auf einheitliche Telemetriedaten zugreifen können, verzeichnen eine kürzere MTTD (mittlere Zeit bis zur Erkennung) sowie MTTR und sind damit seltener von geschäftskritischen Ausfällen betroffen. Beeindruckende 64 % der Unternehmen, die Observability-Tools einsetzen, berichten von MTTR-Verbesserungen von 25 % oder mehr.

Neue Relic Features für beschleunigte Lieferung und Kostensenkung:

Response Intelligence: Die KI-gestützte „Issues“-Seite bietet Live-Einblicke, konsolidiert Incident-Details, zeigt unter „What's impacted?“, was jeweils betroffen ist, verknüpft frühere Postmortems und führt unter „Potential causes“ potenzielle Ursachen auf, die durch Kausalanalyse ermittelt werden. All das trägt dazu bei, die MTTR zu verkürzen.
Transaction 360: Gruppiert und korreliert automatisch relevante Services, Telemetrie, Alerts und Change Tracker für jede Transaktion in einer zentralen Kontextansicht, wodurch die Ursachenanalyse beschleunigt und eine proaktive Problemerkennung ermöglicht wird.

Mehr Wachstum dank Daten

Observability hilft Ihnen, Produktentscheidungen auf echte Daten anstatt nur auf subjektive Annahmen zu stützen. Sie erhalten genaue Einblicke in die Nutzung von Features, die Performance für verschiedene Benutzergruppen und die tatsächlichen Auswirkungen von A/B-Tests. Zusätzlich können Ressourcen effizienter zugewiesen werden, denn Sie haben Einsicht in die Servicelast und sehen, welche Ressourcen nicht ausgelastet sind. Eine kostspielige Überbereitstellung wird so vermieden.

New Relic Features für datengestütztes Wachstum und Ressourcenoptimierung

Cloudkosten-Intelligence: Bietet umfassende Echtzeit-Visibility in die Ressourcenkosten für Amazon Web Services und Kubernetes und zeigt Kostentrends sowie Kostentreiber, damit Sie fundierte Entscheidungen treffen und Ihre Ausgaben optimieren können.
Infrastruktur-Monitoring: Bietet Echtzeit-Einblicke in die Ressourcennutzung (CPU, Netzwerk, Speicher) in der Cloud und vor Ort, unterstützt eine effektive Kapazitätsplanung und verhindert eine kostspielige Überbereitstellung.

Verbesserte Benutzerfreundlichkeit hält Entwickler:innen bei der Stange

Entwickler:innen verbringen oft viel Zeit mit stumpfsinnigen Routinearbeiten, anstatt sich Anspruchsvollerem zu widmen. Das nervt und kann zu Burnout führen. Qualitativ schlechte Software und unüberwachte Systeme sind für eine geringere Entwicklungsproduktivität und unzufriedenes Personal mitverantwortlich. Observability adressiert diese Probleme durch gestrafftes Debuggen und klare Einblicke und sorgt so für ein positiveres und produktiveres Arbeitsumfeld, besseren Output, gute Arbeitsmoral und geringere Mitarbeiterfluktuation.

New Relic Features für größere Benutzerfreundlichkeit und Produktivität:

Servicearchitektur-Intelligence: Konsolidiert Kenntnisse digitaler Landschaften in Katalogen, Scorecards, Teams und Maps und verbessert auf diese Weise direkt die Entwicklungsproduktivität – denn Wissenssilos werden aufgebrochen, die Zusammenarbeit wird beschleunigt und ein klares Architekturverständnis ermöglicht.
APM: Vereinfacht durch No-Code-Instrumentierung das Performance-Monitoring für Kubernetes-Workloads und bietet durch intelligentes Span Sampling sofortige Visibility und Echtzeit-Debugging.

Investieren Sie in Geschwindigkeit statt unsichtbare Steuern

Die „unsichtbare Steuer“, die Ihnen unüberwachte Systeme auferlegen, belastet das Engineering-Budget und die allgemeine Unternehmens-Health erheblich. Die versteckten Kosten haben viele Gesichter: verschwendete Engineering-Zeit, kostspielige Downtime durch langsame Incident Response, fehlgeleitete, weil auf minderwertige Daten gestützte Produktentscheidungen, verpasste Opportunitys aufgrund verzögerter Innovationen und ein höheres Risiko echter Katastrophen.

Um sich ein für alle Mal von der unsichtbaren Steuer zu befreien und stattdessen in Geschwindigkeit zu investieren, müssen Product Leader einiges tun:

Aktive Partnerschaft mit Engineering: Sprechen Sie miteinander über Observability, heben Sie ihren positiven Einfluss auf den Produkterfolg hervor.
Setzen Sie sich für die Investition ein: Machen Sie den Beteiligten Observability als strategische Investition schmackhaft und betonen Sie greifbare Vorteile wie eingesparte Debugging-Zeit und geringere Ausfallkosten.
Priorisieren Sie Observability in der Planung: Vermitteln Sie, dass Instrumentierung eine grundlegende Voraussetzung für neue Features sein muss, und erkundigen Sie sich, wie das Performance-Monitoring und das Troubleshooting bei Problemen aussehen sollen.
Lenken Sie den Blick strategisch auf kritische Pfade: Priorisieren Sie Observability für kritische Geschäftsbereiche wie die wichtigsten Benutzerabläufe, umsatzgenerierende Services sowie problemanfällige Systeme.
Messen Sie die Vorteile: Legen Sie messbare Erfolgskennzahlen fest, z. B. Verbesserungen bei der MTTR oder beim Zeitaufwand für Bugfixes. So können Stakeholder den ROI leichter nachvollziehen und es wird einfacher, weitere Investitionen zu rechtfertigen.

Unternehmen, die diese Empfehlungen umsetzen und eine umfassende Observability-Plattform wie New Relic nutzen, können betriebliche Herausforderungen in strategische Vorteile umwandeln. Die unsichtbare Steuer kann auf null gesetzt werden, und mit den enormen dadurch freigesetzten Ressourcen können Sie Innovationen vorantreiben, die Produktlieferung beschleunigen und sich auf dem digitalen Markt einen echten Wettbewerbsvorteil sichern.

Spence Taylor

Spence Taylor (er/ihm) ist ein Lead Developer Relations Engineer bei New Relic und lebt in Los Angeles. Bevor er Software-Entwickler wurde, diente er in der US Navy und arbeitete als Koch in Gourmet-Restaurants. Er interessiert sich für Daten, gutes Essen und Weltreisen.

Die in diesem Blog geäußerten Ansichten sind die des Autors und spiegeln nicht unbedingt die Ansichten von New Relic wider. Alle vom Autor angebotenen Lösungen sind umgebungsspezifisch und nicht Teil der kommerziellen Lösungen oder des Supports von New Relic. Bitte besuchen Sie uns exklusiv im Explorers Hub (discuss.newrelic.com) für Fragen und Unterstützung zu diesem Blogbeitrag. Dieser Blog kann Links zu Inhalten auf Websites Dritter enthalten. Durch die Bereitstellung solcher Links übernimmt, garantiert, genehmigt oder billigt New Relic die auf diesen Websites verfügbaren Informationen, Ansichten oder Produkte nicht.

780+ Integrationen für Ihren Einstieg ins Stack-Monitoring. Kostenlos.

Alle Integrationen

In this article