KI und Observability: Verbesserung von System-Monitoring und -Performance

Nutzung von KI zur Verbesserung der Observability und Gewährleistung der Systemzuverlässigkeit in modernen IT-Umgebungen

Veröffentlicht 12. Sep 2024 9 Minuten Lesedauer

Angesichts der zunehmenden Komplexität moderner IT-Umgebungen ist die Aufrechterhaltung der System-Performance und -zuverlässigkeit eine größere Herausforderung als je zuvor. Obwohl herkömmliche Monitoring-Tools in einfacheren Kontexten effektiv sind, reichen sie oft nicht aus, um die tiefen Einblicke zu liefern, die für die Verwaltung der heutigen verteilten und KI-gestützten Systeme erforderlich sind. Hier kommt Observability ins Spiel – sie bietet einen umfassenderen Ansatz zum Verständnis des Systemverhaltens und zur Verbesserung seiner Performance.

Im Kern geht es bei Observability darum, aus den von Anwendungen und Infrastruktur generierten Telemetriedaten (Metriken, Events, Logs und Traces – MELT) umsetzbare Einblicke zu gewinnen. Mit zunehmendem Datenvolumen und größerer Komplexität wird eine manuelle Analyse allerdings unpraktisch. Die KI selbst erweist sich als Schlüsselfaktor, der die Art und Weise verändert, wie Unternehmen mit der Observability umgehen, indem sie das System-Monitoring verbessert, potenzielle Probleme vorhersagt und die Performance optimiert. Intelligente Observability ermöglicht Ihnen in der nächsten Entwicklungsstufe mit KI im Mittelpunkt , Ihre komplexe IT-Umgebung zu verstehen und proaktiv zu verwalten.

Observability in KI-gestützten Systemen verstehen

Durch Observability erhalten Sie einen detaillierten Überblick über den Zustand und die Performance Ihres Systems. Dabei werden Telemetriedaten (z. B. MELT) erfasst und analysiert, um nicht nur zu verstehen, was in einem System passiert, sondern auch, warum es passiert. Diese tiefere Ebene der Einblicke ist von entscheidender Bedeutung für die Identifizierung und Lösung von Problemen in Echtzeit und stellt sicher, dass die Systeme unter verschiedenen Bedingungen optimal funktionieren.

KI-gestützte Systeme führen zu zusätzlicher Komplexität hinsichtlich Observability. Diese Systeme umfassen häufig komplexe Datenpipelines, Modelltrainings- und Rückschlussprozesse sowie eine dynamische Skalierung auf Grundlage von Echtzeitdaten. Observability muss in diesem Zusammenhang über herkömmliche MELT-Daten hinausgehen und die spezifischen Verhaltensweisen und Performance-Eigenschaften von KI-Komponenten berücksichtigen. Um beispielsweise die Performance eines Modells für maschinelles Lernen (ML) in der Produktion zu überwachen, müssen Metriken wie Rückschlusslatenz, Modellgenauigkeit und Ressourcennutzung während eines Rückschlusses verfolgt werden. Logs enthalten beispielsweise Details zu Dateneingaben, Modellversionierung und eventuell während des Rückschlussprozesses aufgetretenen Ausnahmen. Traces können von entscheidender Bedeutung sein, um zu verstehen, wie Daten durch verschiedene Vorbereitungsschritte laufen, bevor sie das Modell erreichen, und wie nachgelagerte Dienste den Output des Modells nutzen. Allerdings müssen die Teams auch auf potenzielle Probleme achten, etwa auf Modell-Drift – bei der die Genauigkeit eines Modells aufgrund sich ändernder Eingabedaten mit der Zeit nachlässt – sowie auf die Performance der Datenpipelines, die diese Modelle speisen. Durch das kontinuierliche Monitoring der Modellgenauigkeit und der Effizienz dieser Pipelines wird sichergestellt, dass KI-Systeme zuverlässig und leistungsfähig bleiben, sodass Teams bei auftretenden Problemen proaktiv Maßnahmen ergreifen können.

Tools wie New Relic spielen bei der Bewältigung dieser Herausforderungen eine Schlüsselrolle, indem sie erweiterte Observability-Features bereitstellen, die dabei helfen, Probleme wie Modell-Drift und Ineffizienzen in der Datenpipeline zu erkennen und darauf zu reagieren. Das folgende Bild zeigt die Modell-Drift und Data Drift des ML-Modells in New Relic.

Intelligente Observability: Wie KI Observability revolutioniert

Während wir uns durch eine Ära bewegen, die von KI-Fortschritten dominiert wird, ist es klar, dass KI nicht nur eine treibende Kraft hinter neuen Anwendungen und Systemen ist, sondern auch ein transformatives Element in der Art und Weise, wie wir diese Systeme überwachen und verwalten. Die Komplexität moderner IT-Umgebungen, insbesondere jener mit KI-Integration, übersteigt die Möglichkeiten herkömmlicher Observability-Verfahren. Hier wird die KI selbst zur Lösung und revolutioniert die Art und Weise, wie Observability in der heutigen Technologielandschaft angegangen, implementiert und genutzt wird. Durch die Einbindung von KI in die Observability-Plattform selbst wird diese intelligent genug, um mit der ständig wachsenden digitalen Komplexität Schritt zu halten.

Automatisierte Anomalie-Erkennung

KI verbessert die Fähigkeit zur Erkennung von Anomalien erheblich, indem sie große Mengen an Telemetriedaten automatisch analysiert und Abweichungen vom normalen Verhalten identifiziert. In herkömmlichen Systemen kann die Anomalie-Erkennung das Verfolgen von Metriken wie der CPU-Auslastung und das Auslösen von Alerts bei Überschreiten vordefinierter Schwellenwerte umfassen. KI geht noch einen Schritt weiter, indem sie lernt, was in einer dynamischen Umgebung „normal“ ist, und nuancierte Probleme erkennt, die bei statischen Schwellenwerten möglicherweise übersehen werden. Zum Beispiel kann KI in der Cloud-Infrastruktur einen ungewöhnlichen Anstieg des Ressourcenverbrauchs erkennen, der auf ein potenzielles Skalierungsproblem oder eine Sicherheitsverletzung hinweisen könnte, auch wenn er die Schwellenwert nicht überschreitet. Ebenso kann KI das Benutzerverhalten in einer Webanwendung überwachen und subtile Änderungen erkennen, die auf eine Verschlechterung der UX hinweisen könnten, bevor diese spürbar werden. Dieser automatisierte Ansatz reduziert die mittlere Zeit bis zur Erkennung (MTTD) erheblich, ermöglicht schnellere Antwortzeiten und minimiert Systemausfallzeiten.

Prädiktive Analyse für präventives Monitoring

KI hilft nicht nur bei der Erkennung aktueller Probleme; sie spielt auch eine entscheidende Rolle bei der Prävention zukünftiger Probleme. Mithilfe von ML kann prädiktive Analyse Trends in Telemetriedaten analysieren, um potenzielle Systemausfälle oder Performance-Bottlenecks vorherzusagen, bevor sie auftreten. In einer typischen Serverumgebung kann KI beispielsweise anhand aktueller Nutzungstrends eine potenzielle Erschöpfung des Festplattenspeicherplatzes vorhersagen, sodass sich die Teams um das Problem kümmern können, bevor es zu Downtime kommt. In KI-gestützten Systemen kann die prädiktive Analyse anhand von Änderungen in Datenmustern vorhersagen, wann ein ML-Modell neu trainiert werden muss, oder eine Netzwerküberlastung während der Spitzennutzungszeiten vorhersagen. Durch die Antizipation dieser Probleme können Teams vorbeugende Maßnahmen ergreifen, etwa Ressourcen skalieren oder Konfigurationen anpassen, um eine kontinuierliche System-Performance und -zuverlässigkeit sicherzustellen.

Fehlerursachenanalyse

Wenn Probleme auftreten, kann die Ermittlung ihrer Grundursache ein komplexer und zeitaufwändiger Prozess sein, insbesondere in verteilten Systemen mit vielen voneinander abhängigen Komponenten. Stellen Sie sich eine E-Commerce-Anwendung vor, bei der es während einer Verkaufsaktion zu Performance-Einbußen kommt. Bei verschiedenen Diensten werden mehrere Alerts ausgelöst: Die Webanwendung weist eine erhöhte Latenz auf, die Datenbank meldet lange Abfragezeiten und das Zahlungsgateway loggt zahlreiche Timeouts. In herkömmlichen Umgebungen würden Engineers zur Problemidentifizierung manuell die Logs, Metriken und Traces der einzelnen Dienste untersuchen, was zeitaufwändig und fehleranfällig sein kann.

Intelligente Observability-Tools verbessern diesen Prozess durch den Einsatz KI-gestützter Datenkorrelationstechniken, die Daten aus mehreren Quellen automatisch analysieren und korrelieren und so dabei helfen, die wahrscheinlichsten Grundursachen aufzudecken. Zum Beispiel kann der jüngste Anstieg der Latenz mit einem kürzlich erfolgten Deployment zusammenhängen, durch das sich die Datenbankabfragemuster geändert haben, was zu erhöhter Belastung und Zeitüberschreitungen geführt hat. Durch die automatische Verknüpfung verwandter Alerts und die Identifizierung signifikanter Änderungen im Systemverhalten können die Observability-Tools die mittlere Lösungszeit (MTTR) verkürzen, indem sie die Grundursache schnell identifizieren – unabhängig davon, ob diese mit der Infrastruktur, der Anwendungslogik oder externen Abhängigkeiten zusammenhängt.

Alerting und Alert-Rauschen

In komplexen IT-Umgebungen kann ein einzelnes Problem mehrere Alerts bei verschiedenen Komponenten auslösen, was zu einer „Alert-Schwemme“ führt, bei der kritische Signale in einer Flut von Benachrichtigungen untergehen. Stellen Sie sich ein Szenario in einer Microservices-basierten Anwendung während einer saisonalen Bedarfsspitze vor. Bei verschiedenen Diensten werden mehrere Alerts ausgelöst: abnormale CPU-Auslastung, hoher Speicherbedarf und erhöhte Fehlerzahlen in der Datenbank. Für sich genommen könnte jeder dieser Alerts auf ein anderes potenzielles Problem hinweisen. Wenn sie jedoch gleichzeitig auftreten, sind sie häufig Symptome eines einzelnen zugrunde liegenden Problems, beispielsweise eines Datenbank-Bottlenecks aufgrund eines plötzlichen Anstiegs der Anfragen.

Durch den Einsatz von Alert-Korrelationstechniken können diese einzelnen Alerts zu einem einzigen Incident zusammengefasst werden, der das umfassendere Problem widerspiegelt, anstatt jedes Symptom als isoliertes Problem zu behandeln. Moderne Observability-Praktiken können diesen Prozess noch verbessern, indem sie Alerts automatisch auf der Grundlage von Mustern in den Daten korrelieren, beispielsweise gemeinsam genutzte Infrastruktur, zeitliche Abläufe oder ähnliche Fehlermeldungen. Dieser Ansatz verringert nicht nur das Alert-Rauschen, sondern bietet auch eine stimmigere Ansicht der Vorgänge im System und verkürzt so die MTTR.

Das folgende Bild zeigt durch Monitoring erfasste Ausfälle an mehreren Orten, in New Relic korreliert:

Nutzung der Features von New Relic AI für erweiterte Observability

Da KI die Observability weiterhin verändert, hat New Relic mehrere erweiterte KI-gestützte Toolsets in die Plattform integriert, um Unternehmen dabei zu helfen, ihre komplexen Systeme besser zu managen und zu überwachen.

New Relic AI Monitoring

New Relic AI Monitoring ist speziell für KI-Anwendungen konzipiert, die Large Language Models (LLMs) und ähnliche Modelle verwenden. Dieses Tool bietet umfassende Observability über den gesamten KI-Stack hinweg – von der Infrastruktur und Datenverarbeitung bis hin zu den Modellen selbst. Engineers können wichtige Metriken wie Antwortzeiten, Tokennutzung und Fehlerquoten für LLMs überwachen und so sicherstellen, dass diese Modelle optimal funktionieren. Mithilfe von AI Monitoring können Engineers beispielsweise die Effizienz der Anfragenbearbeitung durch ihre LLMs verfolgen, Performance-Bottlenecks identifizieren und die Kostenauswirkungen der Verwendung dieser Modelle unter Kontrolle behalten.

Das folgende Bild zeigt die vollständige Trace-Ansicht einer KI-Chatbot-Transaktion in New Relic.

New Relic AI

New Relic AI ist der erste GenAI-Assistent für Observability und soll Observability zugänglicher und effizienter machen. Eines seiner herausragenden Features ist die Möglichkeit, alltägliche Sprachabfragen in New Relic Query Language (NRQL) zu konvertieren. Auf diese Weise können Benutzer:innen Einblicke aus ihren Daten gewinnen, ohne komplexe Abfragen schreiben zu müssen, wodurch es viel einfacher wird, sich umsetzbare Einblicke zu verschaffen. Beispielsweise könnte jemand die KI auffordern: „Zeig die durchschnittliche Antwortzeit der letzten 24 Stunden an“, und das System würde dies automatisch in die entsprechende NRQL-Abfrage übersetzen und die Ergebnisse innerhalb von Sekunden liefern. Darüber hinaus bietet das Tool schnelle Erklärungen zu Fehlern, automatisiert Synthetic Tests zur Simulation von Benutzerinteraktionen und gibt kontextspezifische Empfehlungen zur Performance-Optimierung. Sie können beispielsweise New Relic AI fragen: „Was ist gerade los?“ und Sie erhalten dann eine Übersicht über die Probleme sowie umsetzbare Erklärungen, um das Troubleshooting zu beschleunigen. Darüber hinaus kann die KI bei der Erstellung von Synthetic Tests helfen und so sicherstellen, dass Ihr Monitoring dem tatsächlichen Benutzerverhalten entspricht. Diese Features ermöglichen es Teams, Probleme schneller zu lösen und ihre Systeme proaktiv zu verwalten.

Das Video zeigt, wie Sie mit New Relic AI in alltäglicher Sprache Erkenntnisse aus riesigen Mengen an Telemetriedaten gewinnen können.

Maschinelles Lernen (MLOps)

MLOps in New Relic konzentriert sich auf das Lebenszyklusmanagement benutzerdefinierter maschineller Lernmodelle in der Produktion. Es bietet Monitoring- und Diagnosetools, mit deren Hilfe die Modell-Performance verfolgt, Data Drift erkannt und zudem sichergestellt wird, dass die Modelle wie erwartet unter realen Bedingungen funktionieren. Darüber hinaus haben Datenteams die Möglichkeit, direkt mit DevOps zusammenzuarbeiten, wodurch ein kontinuierlicher Prozess aus Entwicklung, Testen und Monitoring entsteht.

Künstliche Intelligenz für den IT-Betrieb (AIOps)

AIOps-Tools nutzen ML, um Alerts zu verwalten und deren Anzahl zu reduzieren, indem sie verwandte Incidents automatisch korrelieren, damit sich die Teams auf die kritischsten Probleme konzentrieren können. Diese Tools verbessern das Incident-Management, indem sie Alerts priorisieren, die am wahrscheinlichsten auf schwerwiegende Probleme hinweisen. So können die Teams effektiver reagieren und Downtime reduzieren. In Umgebungen mit großen Mengen an Telemetriedaten trägt AIOps dazu bei, das Alert-Rauschen zu durchdringen und sicherzustellen, dass Engineers die Grundursachen von Incidents schnell identifizieren und beheben können.

Diese KI-gestützten Features von New Relic sind ein integraler Bestandteil moderner Observability und ermöglichen es Unternehmen, die Komplexität heutiger IT-Umgebungen effektiv zu verwalten. Durch die Integration dieser Tools können Teams ihre Systeme besser überwachen, diagnostizieren und optimieren und so sicherstellen, dass sie auch nach Skalierung robust und zuverlässig bleiben.

Fazit

KI spielt aufgrund ihrer ständigen Weiterentwicklung eine immer wichtigere Rolle bei der Umgestaltung von Observability-Praktiken. Herkömmliche Monitoring-Methoden reichen nicht mehr aus, um die Komplexität moderner IT-Umgebungen zu verwalten, insbesondere solcher, die sich auf verteilte Systeme und KI-Anwendungen stützen. Gleichzeitig lässt sich KI dazu nutzen, tiefere Erkenntnisse aus Ihren Telemetriedaten zu gewinnen.

Die intelligente Observability-Suite von New Relic mit KI-gestützten Tools, darunter AIOps, New Relic AI und AI Monitoring, ermöglicht es Unternehmen, Hochleistungssysteme aufrechtzuerhalten und gleichzeitig die Komplexitäten von KI und moderner Infrastruktur effizient zu verwalten. Durch Integration dieser erweiterten Toolsets können Teams sicherstellen, dass ihre Systeme zuverlässig, skalierbar und leistungsoptimiert funktionieren.

Nächste Schritte

Verwenden Sie intelligente Observability noch nicht? Registrieren Sie sich kostenlos bei New Relic und entdecken Sie, wie Sie mit modernen Observability-Tools die Zuverlässigkeit und Effizienz Ihrer Systeme gewährleisten können.

Erfahren Sie, wie Sie KI-Anwendungen, insbesondere solche mit LLMs, mit AI Monitoring überwachen und optimieren.
Entdecken Sie, wie New Relic AI mithilfe generativer KI bei der Fehlerbehebung und Verwaltung von Observability-Daten hilft.

Mehreen Tahir, Software-Entwicklerin

Mehreen Tahir ist Software-Entwicklerin und technische Redakteurin bei New Relic.

Die in diesem Blog geäußerten Ansichten sind die des Autors und spiegeln nicht unbedingt die Ansichten von New Relic wider. Alle vom Autor angebotenen Lösungen sind umgebungsspezifisch und nicht Teil der kommerziellen Lösungen oder des Supports von New Relic. Bitte besuchen Sie uns exklusiv im Explorers Hub (discuss.newrelic.com) für Fragen und Unterstützung zu diesem Blogbeitrag. Dieser Blog kann Links zu Inhalten auf Websites Dritter enthalten. Durch die Bereitstellung solcher Links übernimmt, garantiert, genehmigt oder billigt New Relic die auf diesen Websites verfügbaren Informationen, Ansichten oder Produkte nicht.

780+ Integrationen für Ihren Einstieg ins Stack-Monitoring. Kostenlos.

Alle Integrationen