Was ist Observability Readiness?

Bei der Observability Readiness geht es um das proaktive Monitoring von Key Performance Indicators (KPIs), die für Ihre Geschäftsziele von entscheidender Bedeutung sind. Zum Erreichen der Geschäftsziele müssen sich Abdeckung und Vollständigkeit im Application Monitoring die Waage halten. Unternehmen, die diese Faktoren optimal unter einen Hut bringen, sind eher in der Lage, Prozessabläufe entsprechend dem Endbenutzererlebnis und der Nachfrage zu justieren und zu optimieren, was zu einer Steigerung des Return on Investment (ROI) führt. Die New Relic Plattform unterstützt Unternehmen perfekt und nahtlos dabei, ihre Ziele zu erreichen.

Warum gerade jetzt?

  • Das Kundenerlebnis ist wesentlich, wenn Sie in einem hart umkämpften Markt herausstechen möchten.
  • Agile Entwicklung erfordert zahlreiche – eventuell sogar Hunderte – Releases in kurzer Zeit.
  • Aufgrund der Abstraktion, Integration und Komplexität der Anwendungsmodernisierung.

Observability Readiness sollte Teil Ihres Release-Zyklus oder Sprints sein, denn sie … 

  • … erleichtert dem Anwendungsteam die Orientierung an dynamischen Geschäftszielen. 
  • … hilft dem DevOps- und Support-Team, den Schweregrad und die Priorität eines Problems zu erkennen. 
  • … ermöglicht Teams im Unternehmen eine effektive Zusammenarbeit, um ihre Ziele zu erreichen.

Im Gegensatz dazu ist Peak Readiness – eine Untergruppe der Observability Readiness – wichtig für die vertikale oder horizontale Skalierung Ihrer Ressourcen.

Vorteile der kontinuierlichen Observability 

Für jedes Quartal hat Ihr Unternehmen Ziele, die sich wiederum am Gesamtjahresziel orientieren. Observability muss mit diesen Zielen im Einklang stehen und zum Erreichen der Ziele beitragen. Zum Beispiel:

  • Betriebskosten senken: Clouddienste und Infrastruktur verursachen fortlaufende Ausgaben. Systemupgrades, -deployments und -änderungen sollten überwacht werden, um eine optimale Ressourcennutzung sicherzustellen. 
  • Kundenzufriedenheit: Stärken Sie die Kundenbindung, indem Sie sich darüber informieren, wie Ihre Kund:innen mit Ihrer Anwendung interagieren und welche Bottlenecks auftreten.  
  • Mitarbeiterproduktivität: Stellen Sie sicher, dass Ihr Team mit dem Observability-Tool sowie der Abdeckung, Vollständigkeit und eventuellen blinden Flecken hinsichtlich Observability vertraut ist. 
  • ROI: Listen Sie die wichtigsten Business-KPIs auf; diese sollten dann mit der Anwendungs-Performance korreliert werden. Dies hilft dem Anwendungsteam, sich auf die kritischen Problembereiche zu konzentrieren.
  • Service-Level: Behalten Sie Dienste im Blick, die über einen bestimmten Zeitraum nicht wie erwartet funktionieren und sich auf die Mitarbeiterproduktivität und die Business-KPIs auswirken.

Observability Readiness mit New Relic

Sehen wir uns die Schritte im Lifecycle der Observability Readiness an. 

1

Geschäftsziele

Wo liegt der Schwerpunkt für das laufende Jahr oder Quartal? Geht es darum, Uptime zu verbessern, Downtime zu reduzieren, mehr Transparenz zu gewinnen oder neue Initiativen wie Cloudmigration, Toolkonsolidierung, OpenTelemetry usw. einzuführen?

2

Observability-Architektur 

Sicherzustellen, dass die Observability-Architektur mit den Geschäftszielen übereinstimmt, ist ein entscheidender Schritt. New Relic gibt Ihnen Freiheit bei Ihren Geschäftszielen und Architekturentscheidungen. Die New Relic Plattform verfügt über eine breite Palette von Features und Integrationen, ist Open-Source-freundlich und unterstützt Custom-Apps, um Ihre spezifischen Geschäftsanforderungen zu erfüllen.

3

Monitoring von Entities

Überwachen Sie Ihre Anwendungen mit New Relic. So können Sie sich aktuelle Informationen über Ihren gesamten aktuellen Bestand sowie Transparenz hinsichtlich Observability-Abdeckung und -Vollständigkeit verschaffen.

4

Identifizieren von Lücken                          

Es ist nicht immer möglich, alle Ihre Anwendungen, Dienste, Infrastruktur usw. zu überwachen. Das Geschäft muss aber trotzdem laufen. Dies bedeutet, dass bei kritischen Anwendungen keine blinden Flecken auftreten oder Telemetriedaten und Geschäftsdatenpunkte fehlen sollten. Dies ist eine Gelegenheit, kreativ zu werden und Lösungen zu finden. Auf diesen Punkt gehen wir später im Blogbeitrag noch ein.

5

Implementierung und Akzeptanz

New Relic lässt sich in Ihre Abläufe für Continuous Integration und Continuous Deployment (CI/CD) integrieren und erleichtert die Implementierung. Manche Kunden haben Vorlagen mithilfe von Terraform-Ressourcen, CloudFormation, Konventionen usw. in New Relic erstellt. Dies ebnet der Akzeptanz den Weg. Das New Relic Team und Ihr Ökosystempartner arbeiten mit Ihnen zusammen, um diesen Abschnitt reibungslos zu gestalten.

6

Messen der Ergebnisse

New Relic Funktionen wie User Journey, Service-Level-Management (SLM) und Alert Quality Management (AQM) helfen Ihnen, Ergebnisse anhand Ihrer festgelegten Ziele zu messen.

7

Wiederholen

Observability sollte kontinuierlich mit Ihren Anwendungs- und Geschäftsanforderungen wachsen.

Identifizieren von Lücken: Das Wichtigste!

Wie finden wir die Lücke, die für Sie am wichtigsten ist? 

Denken Sie daran: „Der Teufel steckt im Detail.“ Die Identifizierung kritischer Anwendungen, Dienste und mehr ist unkompliziert und ein guter Ausgangspunkt. 

Wie gehen wir als Nächstes vor?

  • Sprechen Sie mit verschiedenen Beteiligten bzw. potenziellen Personas, z. B. Entwickler:innen, Benutzer:innen und Kund:innen
  • Sammeln Sie Feedback
  • Beschaffen Sie sich Berichte über die in den letzten n Monaten erstellten Tickets
  • Führen Sie Audits bestehender Anwendungen durch
  • Und so weiter

Die oben genannten Punkte sind nachweisbar wesentlich. Wie können wir effizienter werden und eventuelle Lücken oder Mängel finden? Haben Sie schon einmal von Chaos Engineering, Game Day oder DiRT gehört?

Als anerkannte Testmethode in der Softwareentwicklung handelt es sich beim Chaos Engineering um „das Experimentieren mit einem System, um die Resilienz für unzuverlässige Bedingungen in der Produktion zu erstellen und zu validieren.“ (englischsprachiger Wikipedia-Artikel)

Führen Sie Chaos-Engineering-Sitzungen durch 

Finden Sie die Mängel beim Troubleshooting mithilfe dieser Sitzungen. Chaos Engineering ist vielseitig wie ein Schweizer Taschenmesser, denn es hilft Ihnen beim:

  • Verbreiten und Etablieren der New Relic Plattform: Die an diesen Sitzungen beteiligten Teammitglieder lernen voneinander. Es sollte eine stressfreie Umgebung sein, in der die Teammitglieder ihre Erkenntnisse überprüfen und teilen können. Sie verstehen, was von ihnen erwartet wird, an wen sie sich wenden können und wie genau das Incident Management abläuft. 
  • Aufdecken eventueller blinder Flecken: Blinde Flecken führen zu einer höheren mittleren Lösungszeit (MTTR) und erfordern auch spezielles Fachwissen bei der Fehlerbehebung. 
  • Optimieren von Telemetriedaten: Die Kommunikation zwischen Teams, Geschäftsbereichen und Personas ist von entscheidender Bedeutung. Die Chaos-Sitzung bietet die Möglichkeit zu prüfen, ob wir über alle erforderlichen Daten und Informationspunkte verfügen. Beispielsweise könnte die Geschäftsführung fragen, warum die Verkäufe in der letzten Stunde zurückgegangen sind, und das kann auf eine geänderte Werbeaktion, den Ausfall eines Anbieterdienstes, eine verminderte Performance oder einen anderen Grund zurückzuführen sein, der nichts mit der Anwendung selbst zu tun hat. 
  • Analysieren der Performance-Auswirkungen: In einer Chaos-Engineering-Sitzung können Sie die Abdeckung und Vollständigkeit der Observability bewerten und verstehen. Ohne angemessene Abdeckung ist es schwierig, Entscheidungen zu einem Problem, zur Priorität und zum Schweregrad zu treffen. 
  • Handhaben von Bottlenecks: Wenn wir Anfang der 2000er Jahre ein Problem hatten, führten wir es im Allgemeinen auf die Datenbank oder das Netzwerk zurück und begannen mit den Schuldzuweisungen. Heute verfügen wir über Abstraktion vom Feinsten, sei es die Cloud, Microservices oder die Infrastruktur. Anwendungen weisen jetzt viel mehr interne und externe Abhängigkeiten auf.

Wir können Chaos Engineering mit Tools wie Gremlin, Chaos Monkey und Chaos Mesh durchführen – oder manuell.

Chaos-Engineering-Sitzungen helfen Ihnen herauszufinden, was erforderlich ist, um turbulenten Bedingungen in der Produktion standzuhalten. Sobald Sie das erkannt haben, kann Ihnen die New Relic Plattform Infos zu eventuellen Abdeckungslücken, Empfehlungen und fehlenden Entities liefern – sofort und ohne aufwendiges Eingreifen.

Die New Relic Plattform: Die Lücke schließen

Die von Ihnen identifizierte Lücke variiert und kann ein breites Spektrum umfassen. Mit der New Relic Plattform können Sie schnell und organisch die Toolsets implementieren, die Sie für die Observability Readiness benötigen. Unabhängig von Ihrem bevorzugten Troubleshooting-Ansatz (ob zunächst anhand von Logs oder Metriken) können Sie verschiedene New Relic Funktionen nutzen, zum Beispiel:

  • Logs in Context: Logs in Context bieten eine konsolidierte Ansicht Ihrer Logs im Kontext anderer Telemetriedatenpunkte. So sparen Sie sich ständige Toolwechsel und das Durchforsten Hunderter von Logzeilen und kommen schneller zu einer Ursachenanalyse.
  • Distributed Traces: Traces liefern eine gründliche Analyse der User Journey, sodass Sie Performance-Schwächen unabhängig davon identifizieren können, ob mehrere Dienste beteiligt sind.
  • Änderungs-/Deployment-Tracker: Mit dem Änderungs-/Deployment-Tracker können Sie Probleme engmaschig überwachen und beheben, die während und nach einer der wichtigsten Phasen des Software-Dev-Lifecycle auftreten: der Deployment- oder Go-Live-Phase. 
  • Vulnerability Management: Vulnerability Management hilft Ihnen, Schwachstellen in Ihrem gesamten Netzwerk zu identifizieren und zu beheben, sodass Sie das Risiko eines Angriffs verringern können.
  • OpenTelemetry: OpenTelemetry ist ein offener Standard zum Erfassen und Exportieren von Telemetriedaten, sodass Sie New Relic zur Datenerfassung aus jeder Anwendung oder Infrastruktur verwenden können.
  • Service-Level-Management: Mit SLA/SLM können Sie Service Level Agreements (SLAs) und Service Level Objectives (SLOs) festlegen und verfolgen. Dies hilft Ihnen dabei, Ihre Geschäftsziele zu erreichen.
  • Workloads: Workloads bieten Einblicke in die Performance Ihrer Services. Dies kann einem Team helfen, sich auf das Wesentliche zu konzentrieren und alles am Laufen zu halten. 

Implementieren Sie die Best Practices fürs Monitoring, die für Ihre spezielle Umgebung relevant sind. Dadurch werden Abdeckung und Vollständigkeit von Observability dort gewährleistet, wo sie am wichtigsten sind – und das wiederum hilft Ihnen bei der Kostenkontrolle.

Fazit

Observability Readiness ist für jedes Unternehmen, das einen proaktiven Ansatz zum Monitoring und Verbessern seiner Anwendungen und Infrastruktur verfolgen möchte, von entscheidender Bedeutung. Indem Unternehmen die Empfehlungen zur Observability Readiness befolgen und den Funktionsumfang von New Relic maximal ausschöpfen, können sie sicherstellen, dass ihr System auf alle Herausforderungen vorbereitet und an den Unternehmenszielen ausgerichtet ist. Warten Sie nicht auf saisonale Bedarfsspitzen oder ein kritisches Event, sondern beginnen Sie noch heute mit der Arbeit an Ihrer Observability Readiness.