Engineers müssen Hunderte von Anwendungen unterstützen und gleichzeitig neue Features und Funktionen bereitstellen, sind aber häufig damit ausgelastet, Softwareprobleme zu identifizieren und zu beheben. Laut unseren Kund:innen zählen die Verwaltung verteilter Systeme und Abhängigkeiten sowie die Sicherstellung eines positiven Benutzererlebnisses und einer optimalen Software-Performance zu den größten Herausforderungen. Lesen Sie, wie und warum unsere Kund:innen New Relic und Observability einsetzen, um ihr Application Performance Monitoring (APM) zu verbessern:

Verwaltung verteilter Systeme, Tools und Abhängigkeiten

Vor der Umstellung auf New Relic verfügte der Sport-Streaminganbieter DAZN über ein Tool für clientseitige App-Telemetrie und eines für Logs, zusätzlich zu CloudWatch-Dashboards und Hunderten von Amazon Web Services (AWS)-Konten. Die Teams konnten ihre Services überwachen und bei Problemen Alarm schlagen, aber sie arbeiteten isoliert. Laut Pete Tanton, Principal Site Reliability Engineer bei DAZN, kann ein Alert, der für ein Team unbedeutend ist, bei einem anderen Team zu einem massiven Incident führen. Wenn Incidents auftraten, erwies es sich als schwierig, Daten zu korrelieren, da die Teams zwischen verschiedenen Dashboards hin- und herspringen mussten. Aus administrativer Sicht war der Aufwand für die Verwaltung von Benutzer:innen und Passwörtern – DAZN hatte ein hochqualifiziertes SRE-Team, das sich um JML für drei oder vier verschiedene Tools kümmerte – nicht mehr tragbar. Nachdem alle diese Aufgaben zu New Relic migriert wurde, konnte DAZN sämtliche CloudWatch-Metriken und clientseitigen Telemetriedaten in einem Dashboard sehen und abfragen. Die Dashboards von New Relic beziehen Daten von überall her, auch aus externen Quellen, und sind mühelos anpassbar.

Der Buchmacher William Hill verfügte ebenfalls über eine Reihe verschiedener Monitoring-Tools, darunter eines für die Infrastruktur und eines für APM. „Es war das reinste Chaos“, erinnert sich Stephen Wild, Engineering Manager für Observability und Automatisierung bei William Hill. Die Lösungen konnten die Datenmenge, die von 18.000 verschiedenen Punkten kam, nicht bewältigen, ganz zu schweigen von den zusätzlichen Containern, die über die Cloud liefen. Die Teams mussten dadurch häufig Überstunden und Nachtschichten einlegen. Seit der Nutzung von New Relic hat sich die MTTR (Mean Time to Resolve) um mehr als 80 % verbessert. Was die Zuverlässigkeit anbelangt, „liegt sie bei 100 %. Es gab bislang absolut keine Ausfallzeiten“, so Wild.

Stephen Wild, Engineering Manager für Observability und Automatisierung bei William Hill, spricht darüber, wie New Relic zu einer um 80 % besseren MTTR beigetragen hat.

Bei der Fehlerbehebung kommt es vor allem auf Geschwindigkeit an, erklärt Kristian Lee, Leiter der DevOps-Entwicklung beim Sporttechnologieunternehmen Sportradar. New Relic führt alle Informationen in einem einzigen Dashboard zusammen: Login, Application Monitoring und Infrastruktur. Sämtliche Informationen befinden sich an einem Ort, um Fehlkonfigurationen, Überbelastung und Störungen zu erkennen und schnell zu beheben, so Lee.

Umsetzbare Einblicke, bevor sich Probleme bei Kund:innen bemerkbar machen

Das innovative Agritech-Unternehmen IGS verfügt über einen technischen Stack, der auf Microservices und mehreren Umgebungen basiert, wobei viele verschiedene Systeme Logs erzeugen. IGS arbeitet mit Logs in Context, um die Ursachen von Problemen in allen Systemen schnell ausfindig zu machen. Nach Angaben von IGS war diese Möglichkeit von entscheidender Bedeutung für seine jüngsten Erfolge. Da IGS schnell feststellen kann, was wo im Code passiert ist, hat dies laut Owen Adams, Head of Platform Engineering bei IGS, die MTTR reduziert. 

Da IGS immer mehr Daten in sein System einspeist, ist es im Falle eines Problems von entscheidender Bedeutung, die Ursache des Problems rasch zu ermitteln. Mit Infrastruktur-Monitoring und APM kann IGS alle Infrastrukturdaten visualisieren. „Jetzt konzentrieren wir uns auf die Bereiche, die unseren Kund:innen oder dem Entwicklungsteam tatsächlich einen Mehrwert bieten, anstatt Mitarbeiter:innen für die Arbeit an der Monitoring Observability Platform abzustellen“, erklärt Adams.

 

Intelligent Growth Solutions (IGS) baut nährstoffreiche und schmackhafte Lebensmittel in automatisierten Anbautürmen an. Angesichts des Wachstums von IGS und der zunehmenden Datenmenge und Komplexität des Betriebs ist es für das Unternehmen wichtig, Probleme vorherzusehen, bevor sie auftreten, indem es sich ein Bild von der Softwareperformance während der Entwicklung und der Staging-Pipelines macht.

Optimierte Workflows und besseres Benutzererlebnis

Es ist durchaus üblich, dass Unternehmen verschiedene Anbieter für Real-User Monitoring (RUM), Browser-Monitoring und Distributed Tracing einsetzen, oft in Kombination mit Open-Source-Komponenten. Aber die Verwaltung mehrerer Tools und Systeme ist für die Teams mit hohem Arbeitsaufwand verbunden. Engineers verbringen viel Zeit damit, sich einen Überblick über das System zu verschaffen. Hinzu kommt der administrative Aufwand – und die damit verbundenen Kosten – für das Hinzufügen von Benutzern und die Verwaltung von Passwörtern. Bei Problemen müssen bei der Fehlersuche verschiedene Tools, Datenquellen und Messungen miteinander verglichen werden. 

New Relic steuert einen Großteil der Alert-Daten von DAZN, erklärt Tanton. Die Teams von DAZN werden mittels Applied Intelligence proaktiv über potenzielle Probleme informiert, indem diese anomales Verhalten erkennt, relevante Incidents korreliert und eine Ursachenanalyse durchführt. Dank New Relic lassen sich Services außerdem schneller bereitstellen, weil Logs, Metriken, APM, clientseitige Telemetrie und Synthetic Monitoring zentral an einem Ort zur Verfügung stehen. Somit kann sich IGS darauf konzentrieren, einen echten Mehrwert für das Geschäft seiner Kund:innen zu schaffen, statt Mitarbeiter:innen für das Monitoring abzustellen. Die Instrumentierung von New Relic war denkbar einfach. IGS fügte den APM Agent von New Relic in einen Container ein, der 90 % der Umgebung abdeckte. So war die Instrumentierung in eineinhalb Tagen abgeschlossen.

„Es ist naheliegend, dass man seine Engineers nur für Dinge mobilisieren möchte, die für Kund:innen wirklich wichtig sind, aber es kann manchmal schwer sein, das aus dieser Perspektive zu sehen. Daher war es wirklich interessant, die Art und Weise, wie wir über Observability denken, zu ändern“, sagt Pete Tanton, Principal Site Reliability Engineer bei DAZN.

Optimierung zur Kosteneinsparung

Vor der Einführung von New Relic gab IGS zwischen 20.000 und 24.000 Pfund pro Monat für Logging und Monitoring aus. Dieser Betrag wurde um mehr als die Hälfte reduziert, wodurch eine Menge Ressourcen frei werden. Wenn jetzt ein Problem auftritt, können mit New Relic viele Dinge auf einmal geändert werden. Dadurch ist IGS in der Lage, mehr Risiken einzugehen und aktuelle Produkte schneller zu erneuern, erklärt Dave Scott, Gründer und CTO bei IGS.