Das Akronym AIOps steht für „Artificial Intelligence in IT Operations“. Der Begriff wurde 2016 vom Marktforschungsunternehmen Gartner als Reaktion auf die sich abzeichnende Verzahnung von KI und IT geprägt. Mit AIOps werden KI-basierte Tools in Observability-Plattformen integriert, um bessere Einblicke in Prozesse zu erhalten, diese effizienter zu gestalten und die IT-Kosten zu senken. Wenn Ihre eigenen Daten zum Trainieren von IT-spezifischen ML-Modellen genutzt werden, können Sie eine bessere Performance, schnellere Anomalie-Erkennung und Problembehebung sowie eine effektivere Automatisierung erzielen.
AIOps für alle
Durch Umsetzung von AIOps in einer Observability-Plattform können Sie die Problembehebung und die Implementierung von Lösungen in einer umfassenden Flotte von On-Prem- und cloudbasierten Infrastrukturen beschleunigen. Angesichts der zunehmenden Verbreitung vielfältiger IT-Systeme ist AIOps für einen effizienteren IT-Betrieb wesentlich. Deshalb wird Applied Intelligence von New Relic als integriertes Feature für alle Komplettlizenzen und in jedem New Relic Observability-Abo bereitgestellt. Das ist AIOps für alle.
Die natürliche Entwicklung der Observability
AIOps stellt in der Entwicklung von IT und Observability den nächsten logischen Schritt dar. KI ist heutzutage bereits nahtlos in unseren Alltag integriert – und oft sehr subtil, zum Beispiel bei Smart-Home-Geräten. KI-Anwendungen sind inzwischen so weit fortgeschritten, dass sie komplexe Muster erkennen können, z. B. bei der Gesichtserkennung auf Fotos oder der Erkennung von Anomalien in medizinischen Bildgebungs- und Herstellungsprozessen.
Algorithmen fürs maschinelle Lernen, die mit vielfältigen Datasets trainiert werden, können heute hervorragend Muster erkennen und Lösungen automatisieren – weit schneller, als es ein Mensch könnte.
Warum ist AIOps wichtig?
Angesichts zunehmend komplexerer Produktionssysteme benötigen Softwareteams schnellere und effektivere Methoden zur Behebung von Incidents. AIOps liefert die nötige Automatisierung und Intelligence, um bestehende Incident-Management-Workflows zu ergänzen und Teams zu einer schnelleren Problemerkennung und -behebung zu verhelfen. Moderne AIOps-Lösungen zeichnen sich durch müheloses Onboarding und intuitive Nutzung aus. Deshalb sind sie für Teams, die sich zunehmend komplexen betrieblichen Anforderungen gegenüber sehen, so einfach zu handhaben und so wertvoll.
Die wichtigsten Vorteile von AIOps
„Weniger ist mehr“: Das ist in der IT seit langem ein Mantra und macht AIOps zu einem wichtigen Bestandteil einer Observability-Plattform. AIOps bietet eine Reihe wesentlicher Vorteile, sodass die Systeme bei höherer Verfügbarkeit besser laufen, die Kosten sinken und die Engineers sich auf innovative Initiativen konzentrieren können, anstatt sich mit dem Troubleshooting herumzuschlagen.
Performance verbessern: Mit trainierten Modellen für prädiktive Analyse lassen sich Performance-Probleme mit AIOps schneller finden und beheben, was die Systemeffizienz erhöht.
Downtime reduzieren: Prädiktive Analyse kann Probleme schon im Vorfeld aufzeigen und hilft bei der Entwicklung automatisierter Lösungen, die einen reibungslosen Betrieb der Systeme gewährleisten.
Ursachenanalyse beschleunigen: Applied Intelligence untersucht Ihre Telemetriedaten sowie weitere, isolierte Daten, um Fehlerursachen in Echtzeit zu finden.
Ergebnisse präzise vorhersagen: Machine-Learning-Modelle, die mit Ihren Daten und zusätzlich mit weiteren, allgemeineren IT-Metadaten und -Informationen trainiert werden, können schnelle Analysen durchführen und Ergebnisse genauer vorhersagen.
Zusammenarbeit verbessern: Durch die Ausweitung von Trainings- und Analysedaten über die Telemetrie hinaus werden wichtige Erkenntnisse aus anderen Abteilungen (z. B. Kundendienst, Analyse und Vertrieb) gewonnen, sodass IT-Abteilungen effektiver arbeiten und schneller datengestützte Entscheidungen treffen können.
IT-Ausgaben senken: AIOps beschleunigt die automatisierte Problembehebung und Lösungsimplementierung und trägt so dazu bei, die Kosten für spezialisierte Einsatzbereiche (z. B. Netzwerküberwachung, Sicherheitshardware und ältere IT-Infrastrukturtools), für Software sowie den Zeitaufwand bei manuellen Aufgaben zu senken.
Innovation beschleunigen: Mit intelligenterer Automatisierung im IT-Betrieb können Engineers ihren Fokus auf wichtigere Innovationen und Initiativen lenken, mit denen sie Bedrohungen zuvorkommen oder Abläufe effizienter gestalten können.
Welche Probleme lassen sich mit AIOps lösen?
Im Zuge der Modernisierung und Einführung cloudnativer Technologien werden IT-Umgebungen immer komplexer. In Folge steigt der Monitoring-Bedarf an: für eine rasch wachsende Anzahl an Microservices mit mehr und häufigeren Softwareänderungen, für die von fragmentierten Tools generierten großen Mengen an Betriebsdaten, für zusätzliche Dashboards und noch mehr Alerts. IT-Fachleute stehen somit unter zunehmendem Druck, Incidents schnell zu ermitteln und zu beheben – oder noch besser, sie von vornherein zu verhindern. Dieses rasante Tempo, zusammen mit einer großen Palette verteilter Systeme und Services, kann die Stresslevel in IT-Teams deutlich erhöhen.
Mit zunehmendem Datenvolumen steigt auch der Zeitaufwand für Diagnose und Behebung von Problemen. Viele IT-Teams verbringen ihre Zeit damit, überall Brände zu löschen und Probleme zu beheben, anstatt Strategien zur proaktiven Vermeidung von Ausfällen oder Performance-Problemen zu implementieren.
Hinzu kommt, dass eine wahre Alert-Schwemme sowie unzählige „unbekannte Unbekannte“ das Herausfischen wirklich kritischer Signale aus Massen von weniger Relevantem erheblich erschweren. Schnelles Auffinden der zugrunde liegenden Ursache eines Incidents – und promptes Reagieren – ist notwendig, sorgt aber für weitere Komplexität. Jede Minute, die DevOps-, SRE- und NOC-Teams damit verbringen, Daten zu analysieren, Anomalien zu erkennen oder Probleme manuell zu diagnostizieren, schadet den Service-Level Objectives (SLOs), dem guten Ruf des Unternehmens und der Gesamtrentabilität.
Mit AIOps können Sie diese Herausforderungen meistern, indem Sie KI-gestützte Methoden verwenden, die anhand Ihrer eigenen Daten trainiert werden, um Probleme proaktiv zu erkennen, Ursachen zu identifizieren und Lösungen zu empfehlen oder zu automatisieren. IT-Teams wiederum können sich dann Innovationen widmen, anstatt im Unternehmen von einem Notfall zum nächsten zu eilen.
Wie funktioniert AIOps?
AIOps verfolgt einen strukturierten vierstufigen Ansatz, der zur Effizienzsteigerung KI in Technologien integriert. Diese Stufen laufen in einer festen Reihenfolge ab und tragen dazu bei, eine effektive AIOps-Bereitstellung zu gewährleisten, die auf Ihre Infrastruktur, Apps und SLOs abgestimmt ist.
Die vier Hauptstufen von AIOps
Die vier Stufen von AIOps sind Datenerfassung und -kuratierung, das Training von Modellen mit Ihren Daten, die Entwicklung automatisierter Lösungen, die auf die Vorhersagen der Modelle reagieren, sowie das Deployment zur Anomalieerkennung.
- Datenerfassung: Die Komplexität moderner IT-Systeme sowie die SLOs in einem Unternehmen erfordern die Ermittlung und Erfassung relevanter Daten, um AIOps erfolgreich bereitzustellen. Zu wenige – und die falschen – Daten führen zu ineffektiven und ungenauen Modellen. Das Kuratieren der richtigen Daten mit der Hilfe von Data Scientists und funktionsübergreifenden Teams trägt zum Aufbau einer effektiveren AIOps-Lösung bei. AIOps integriert isolierte Daten aus der gesamten Infrastruktur. Dazu gehören beispielsweise historische Systemdaten und -Events, Logs, Netzwerkdaten und Vorgänge in Echtzeit.
- Modelltraining: Welche Funktionen wünschen Sie sich für Ihre AIOps Intelligence? Die Ziele Ihrer AIOps-Lösung und die Qualität Ihrer Daten bestimmen, wie Modelle ausgewählt und trainiert werden. Zu den wichtigsten Faktoren gehören proaktive Skalierbarkeit, Sicherheit, Performance und Speicheroptimierung. Da sich IT-Umgebungen ständig weiterentwickeln, sollten Modelle so konzipiert werden, dass sie sich im Laufe der Zeit selbst neu trainieren, um genau und effektiv zu bleiben.
- Automatisierung: Gut trainierte AIOps-Modelle funktionieren am besten, wenn sie mit automatisierten Tools und Anwendungen kombiniert werden, die in Echtzeit auf relevante Einblicke reagieren können. Dank dieser Tools kann AIOps sofort auf prädiktive Analysen und Modellergebnisse reagieren – und das bedeutet weniger manueller Aufwand. Die Tools können aus vorhandenen Observability-Toolsets erstellt oder als speziell auf bestimmte Anforderungen zugeschnittene Anwendungen entwickelt werden.
- Anomalie-Erkennung: Sofort nach dem Modell-Deployment sorgen Echtzeit-Analysen für schnellere Anomalieerkennung und -handhabung. Daten aus früheren Ergebnissen können ebenfalls in die Feedbackschleifen integriert werden, um das Modelltraining zu unterstützen und dessen Genauigkeit und Effektivität fortlaufend zu verbessern.
Use Cases für AIOps
DevOps-, SRE- und On-Call-Teams nutzen AIOps in der Regel für folgende Use Cases:
1. Präventive Problemermittlung
Erstes Gebot bei der Problembehebung: potenzielle Probleme in Ihrer Software zu identifizieren, bevor sie das Kundenerlebnis beeinträchtigen. Mit den AIOps-Tools werden Anomalien in Ihrer Umgebung automatisch erkannt und Benachrichtigungen an Ihre Monitoring-Lösung sowie die anderen Tools ausgelöst, mit denen Ihre Teams ohnehin arbeiten, wie z. B. Slack.
2. Weniger Alert-Rauschen, mehr Kontext
AIOps-Tools erleichtern Teams die Priorisierung und Bearbeitung kritischer Probleme, da sie zugehörige Alerts, Events und Incidents korrelieren und mit Kontext aus historischen Daten oder anderen Tools in Ihrem Stack anreichern. Die ausgefeiltesten Tools bedienen sich sowohl menschlicher als auch maschinengenerierter Entscheidungen (d. h. zeitbasiertes Clustering, Ähnlichkeitsalgorithmen und andere ML-Modelle), um verrauschte oder niedrig priorisierte Alerts zu unterdrücken und sinnvolle Muster zu identifizieren.
AIOps-Tools liefern zudem wertvollen Kontext, indem sie Incidents anhand der vier goldenen SRE-Signale – Latenz, Traffic, Fehler und Sättigung – klassifizieren, damit Sie leichter die Grundursache eines Problems diagnostizieren und dessen Behebung planen können.
3. Schnellere Weiterleitung von Alerts an die richtigen Leute
AIOps-Tools können das automatische Routing von Incident-Daten an die Personen oder Teams übernehmen, die für die Behebung am besten qualifiziert sind. Insbesondere für dezentrale, verteilte Teams reduziert dies die Weiterleitung irrelevanter Alerts an die falschen Personen und verkürzt den Zeitaufwand für das Routing kritischer Incident-Daten an die richtigen Personen.
AIOps-Tools werten mithilfe von ML-Modellen Daten aus Ihren Incident-Management- und Monitoring-Tools aus und schlagen dann eine Person oder ein Team vor, die/das in der Vergangenheit bereits ein ähnliches Problem gesehen hat oder mit den vom Ausfall betroffenen Komponenten besonders vertraut ist und deshalb das Problem schneller lösen kann.
4. Automatische Incident-Behebung
Der letzte und wichtigste Schritt bei der Handhabung von Incidents ist die Behebung des Problems. AIOps-Tools straffen diesen Prozess, indem sie die Workflows und Maßnahmen automatisieren, die zur Behebung eines Incidents notwendig sind. Das verkürzt die mittlere Zeit bis zur Behebung enorm.
Teams sind stets bestrebt, die Zeit, die von der Erkennung und Diagnose eines Problems bis zu seiner Behebung verstreicht, zu verkürzen. AIOps kommt entsprechend eine immer größere Bedeutung zu.
Wahl der passenden AIOps-Plattform
Durch Einsatz von ausgefeilter IT Intelligence zur Automatisierung und Optimierung von Abläufen erhöht AIOps den Wert Ihrer Observability-Plattform. Eine umfangreiche Palette an Observability-Tools, Dashboards und Automatisierungen, die auf die individuellen Anforderungen Ihres Unternehmens zugeschnitten sind, bildet eine solide Grundlage. Je mehr Sie KI-gestützte Automatisierung in bestehenden IT-Ops-Systemen einsetzen, desto größeren Nutzen bringt Ihnen AIOps.
Mit der passenden AIOps-Lösung zur Unterstützung Ihrer Initiativen können Sie die richtigen Daten für ein effektiveres IT-Betriebsmanagement einflechten. AIOps-Lösungen können domänenunabhängig oder domänenspezifisch sein. Eine domänenunabhängige AIOps-Lösung sammelt Daten aus Ihrem gesamten Unternehmen, um eine breite Palette von IT-Vorgängen abzudecken. Domänenspezifische Lösungen wiederum berücksichtigen einen enger gefassten Datensatz und sind auf die Umgebungen und Probleme innerhalb eines bestimmten Bereichs abgestimmt.
New Relic AI ist eine AIOps-Lösung, mit der vielbeschäftigte DevOps- und SRE-Teams Probleme effizienter identifizieren, diagnostizieren und beheben können. Durch die Minimierung zeitaufwändiger Routinearbeiten und die Befreiung von Teams aus dem reaktiven „Katastrophenmodus“ versetzt New Relic AI Ihr Team in die Lage, sich auf die kreative und anspruchsvolle Erstellung und Pflege großartiger Software zu konzentrieren.
Im Gegensatz zu herkömmlichen Incident-Management-Tools oder domänenzentrierten AIOps-Plattformen ist New Relic AI domänenunabhängig und nutzt rohe Monitoring-Daten, um seine maschinellen Lernmodelle zu unterstützen. Das ermöglicht eine nahtlose Integration in verschiedene Umgebungen und Tools und liefert einen kontextreichen, intelligenten Workflow für die Incident Response.
Durch die tiefgreifende Integration von New Relic AI in die Incident-Management-Tools, mit denen Sie ohnehin bereits arbeiten, wird Intelligence in Ihre bestehenden Prozesse gebracht und sorgt für eine schnellere Problemerkennung und weniger Hintergrundrauschen. Aber ohne dass Sie Ihren DevOps-Workflow komplett umkrempeln müssen.
Nächste Schritte
Ihr Team sucht nach einer benutzerfreundlichen AIOps-Lösung, um Incidents schneller zu erkennen, zu diagnostizieren und zu beheben? Informieren Sie sich über New Relic AI. Ein Praxisbeispiel für den Erfolg unserer Lösung finden Sie in unserer Kundenstory zu ZenHub.
Die in diesem Blog geäußerten Ansichten sind die des Autors und spiegeln nicht unbedingt die Ansichten von New Relic wider. Alle vom Autor angebotenen Lösungen sind umgebungsspezifisch und nicht Teil der kommerziellen Lösungen oder des Supports von New Relic. Bitte besuchen Sie uns exklusiv im Explorers Hub (discuss.newrelic.com) für Fragen und Unterstützung zu diesem Blogbeitrag. Dieser Blog kann Links zu Inhalten auf Websites Dritter enthalten. Durch die Bereitstellung solcher Links übernimmt, garantiert, genehmigt oder billigt New Relic die auf diesen Websites verfügbaren Informationen, Ansichten oder Produkte nicht.