Ein Plattform-Update von Crowdstrike am 19. Juli 2024 hatte schwerwiegende Folgen: Unzählige Windows-Rechner in aller Welt fielen aus. Mit einem Schlag wurde uns allen klar, wie sehr wir von digitalen Systemen abhängig sind. Fluggesellschaften, Notrufzentralen, Krankenhäuser, Banken und viele andere Einrichtungen, deren Funktionieren wir als selbstverständlich ansehen, waren plötzlich offline. Unternehmen hatten große Mühe, das volle Ausmaß der Auswirkungen zu erfassen und nachzuvollziehen, welche Abhängigkeiten innerhalb ihrer betroffenen Systeme vorlagen. Dies war nicht der erste Ausfall mit weitreichenden Folgen und es wird mit Sicherheit nicht der letzte gewesen sein.
Observability: Das unverzichtbare Tool bei einem Systemausfall
Wenn Systeme ausfallen, glänzt Observability, denn mit ihr erhalten Engineers Echtzeit-Einblicke in die Health und Performance des Systems. Observability-Tools wie New Relic zeigen die Abhängigkeiten innerhalb der IT-Umgebung klar auf und streichen heraus, wo Ausfälle vorkommen und wie sich diese auf andere Komponenten auswirken.
Während des Crowdstrike-Ausfalls erhielten unsere Kunden, die ihre gesamte Infrastruktur aktiv überwachten, sofort Benachrichtigungen über den Ausfall ihrer eigenen Systeme sowie über Ausfälle bei Drittanbietern, von deren Technologie sie abhängig waren. Im Ernstfall gibt es einige sinnvolle Maßnahmen, die Ihnen helfen, den normalen Betrieb schnell wiederherzustellen und die Ausfallsicherheit Ihrer IT-Infrastruktur zu steigern:
- Setzen Sie auf überwachte Windows-Systemprotokolle, Entity-Synthese und Beziehungszuordnung: Durch Monitoring der Windows-Systemprotokolle sowie Entity-Synthese und Beziehungszuordnung können Sie genau erfassen, welche Server betroffen sind.
- Ermitteln Sie die Eigentumsverhältnisse: Sobald Sie wissen, welche Systeme betroffen sind, sollten Sie herausfinden, wer dafür verantwortlich ist, und Betroffene über Abhilfemaßnahmen informieren.
- Kontinuierliches Monitoring: Setzen Sie das Monitoring nach der Problembehebung und der Systemvalidierung fort, um sicherzustellen, dass alles wieder stabil läuft und der normale Betrieb wiederhergestellt wurde.
Hier sehen Sie eine Abfrage in New Relic Query Language (NRQL), die zeigt, auf welchen Windows-Hosts Falcon läuft, sodass Sie schnell feststellen können, ob die von Ihnen genutzte Version der Windows Plattform betroffen ist.
Mit diesem Maß an Transparenz auf Abruf können Sie das volle Ausmaß des Problems erkennen, Ressourcen priorisieren und schnell zum regulären Betrieb zurückkehren.
Zukunftsprognose: Immer komplexere Ausfälle
In den 1980er und frühen 1990er Jahren traten die schwerwiegendsten Ausfälle bei Telekommunikationsunternehmen auf. Sie legten nicht nur die Kommunikation, sondern auch den Zugang zu Notruf- und Callcenter-Diensten lahm. In den späten 1990er und frühen 2000er Jahren drehte sich im Internet dann alles um den elektronischen Handel. Die damaligen Ausfälle wirkten sich meist nur auf das Online-Shopping aus. Das war nervig, aber nicht allzu bedenklich.
Im Gegensatz dazu sind heute mehr als 5 Milliarden Menschen – fast zwei Drittel der Weltbevölkerung – im Alltag auf das Internet angewiesen. Ob Sie einen Kaffee oder einen Rideshare-Service bestellen – ohne Software geht meist nichts.
Den Teams bei Crowdstrike gebührt hohes Lob für die hervorragende Arbeit, die sie bei der Bewältigung des Vorfalls geleistet haben. An ihrer erstklassigen Reaktion merkte man, dass diese Leute es gewohnt sind, in zeitkritischen Situationen unter maximalem Druck zu arbeiten. Als Unternehmen, das Millionen von Agents in kritischen Workloads einsetzt, wissen wir nur allzu genau, welcher Aufwand erforderlich ist, um einen reibungslosen Ablauf zu gewährleisten.
Im Laufe der Zeit wird dies noch viel wichtiger und erheblich komplexer werden, und zwar aus zwei Gründen:
- Fortschreitende Digitalisierung: In vielen Ländern ist die Digitalisierung der Wirtschaft noch lange nicht abgeschlossen. So hat in Indien auch heute noch mehr als 50 % der Bevölkerung keinen Zugang zum Internet. In einigen afrikanischen Ländern sind es sogar bis zu 80 %.
- Fortschreitende Integration der KI: Die KI wird immer mehr in den Alltag eingebunden, was uns sowohl am Arbeitsplatz als auch privat zunehmend abhängig von Software macht. Die Digitalisierung ist allgegenwärtig: 45 % des Fernsehkonsums erfolgt per Streaming, mehr als 4 Mrd. Menschen nutzen Online-Shopping, mehr als 70 % aller Werbung wird online geschaltet usw.
Allgegenwärtiges Monitoring ergibt nicht immer Einblicke
Unsere heutige Welt beruht auf Software und ist untrennbar mit ihr verflochten. Daher ist der Schutz unserer digitalen Nutzungserlebnisse von entscheidender Bedeutung.
Auch wenn Unternehmen überzeugt sind, dass sie alles mit Monitoring im Blick haben, kann ihnen in Ermangelung der richtigen Tools dennoch eine Menge entgehen. Observability-Tools wie New Relic können ausschlaggebend für die Zuverlässigkeit digitaler Unternehmen sein und sind wie eine Art Superkraft, mit der Sie alles sehen, was in Ihrer digitalen Welt vor sich geht.
Unsere Plattform erfasst sämtliche Telemetriedaten von Metriken über Events, Logs und Traces bis hin zu Sicherheitsschwachstellen und mehr, sodass Sie klar den schnellsten, direktesten Weg zur Problembehebung sehen. Dabei haben Sie einen umfassenden Überblick aller Entities und Abhängigkeiten zur Hand, an dem Sie die Interaktion zwischen Technologien wie Servern, Prozessen und Anwendungen über Rechenzentren und Multi-Cloud-Umgebungen hinweg im Detail ablesen können.
In Zeiten kritischer Ausfälle ist auf Observability Verlass. Dabei geht es nicht nur darum, Fehler zu beheben, sondern vor allem darum, ein tieferes Verständnis Ihrer Systeme zu erlangen. Dieser schwerwiegende Ausfall und zukünftig zu erwartende Störungen sind unerfreulich und nicht planbar. Aber mit Observability können Sie schnell und präzise reagieren und haben so die beste Möglichkeit sicherzustellen, dass Ihr Betrieb in kürzester Zeit und mit optimaler Performance wiederhergestellt ist.
Die in diesem Blog geäußerten Ansichten sind die des Autors und spiegeln nicht unbedingt die Ansichten von New Relic wider. Alle vom Autor angebotenen Lösungen sind umgebungsspezifisch und nicht Teil der kommerziellen Lösungen oder des Supports von New Relic. Bitte besuchen Sie uns exklusiv im Explorers Hub (discuss.newrelic.com) für Fragen und Unterstützung zu diesem Blogbeitrag. Dieser Blog kann Links zu Inhalten auf Websites Dritter enthalten. Durch die Bereitstellung solcher Links übernimmt, garantiert, genehmigt oder billigt New Relic die auf diesen Websites verfügbaren Informationen, Ansichten oder Produkte nicht.