Verlässliche Reservierungen, zufriedene Kund:innen dank The Access Group

Skalierbarkeit steht für The Access Group ganz oben auf der Prioritätenliste. Seinen 60.000 Kund:innen in den unterschiedlichsten Branchen bietet Access diverse verschiedene Produkte, die in einer hybriden Multi-Cloud-Umgebung eingesetzt werden. Das Unternehmen hat sich zum Ziel gesetzt, sein Angebot innerhalb von fünf Jahren zu 100 % auf SaaS umzustellen und intern vollständige Einsicht in alle Geschäftsvorgänge zu erhalten. Bei Access dreht sich alles um Agilität und Wachstum – mit der Kundschaft im Fokus.

99 %
weniger überflüssige Alerts
1000 £
Einsparungen bei monatlichen AWS-Kosten
30 %
Baseline für Datenbanknutzung, zuvor 60 %

Eine Hybrid-Umgebung muss rund um die Uhr verfügbar sein 

Eine große Herausforderung war neben der Integration interner Services die stackweite Ermittlung von Problemen bei Uptime und Zuverlässigkeit. Die Software-Entwickler:innen ertranken quasi in Alerts – jeden Morgen mussten sie Dutzende von Nachrichten mit Alerts aus den verschiedenen Umgebungen durchforsten. Um Irrelevantes von tatsächlich Kritischem zu unterscheiden, mussten sie vergangene Tickets durchsuchen und den Code prüfen. Das konnte durchaus mehrere Stunden dauern. Zeit, die dann für strategische Aufgaben wie Skalierung und Feature-Auslieferung fehlte. Deshalb wollte das Unternehmen eine neue Technologie implementieren, mit der man einen zentralen Überblick über alle Systeme erhalten würde und die Vorteile eines wachsenden, dynamischen Unternehmens sinnvoll nutzen konnte.

Einsicht in alle Systeme spart Zeit und Geld

New Relic Application Performance Monitoring (APM) bildet interne und externe Systeme ab, sodass sich die Entwickler:innen für ihre Arbeit auf zuverlässige Daten stützen können. Das Incident-Management wird durch New Relic Alerts automatisiert. So können sich die Engineers der Auslieferung neuer Features und anderen strategischen Aufgaben widmen. New Relic brachte Access Verbesserungen bei Performance und Abläufen, denn es liefert Einblicke auf einer zentralen Plattform und trägt zu einer proaktiven und frühzeitigen Problembehebung bei – bevor die Kund:innen überhaupt etwas davon mitbekommen.

Früher habe ich meine gesamte Arbeitszeit damit zugebracht, dem Alert-Rauschen auf den Grund zu gehen. Wenn ich jetzt einen Alert von New Relic erhalte, sehe ich sofort, wo das Problem liegt. Sämtliche Infos sind bereits auf der Incident-Seite über den Server sichtbar. So kann ich Vorfällen in zehn Minuten auf den Grund gehen und Probleme schnell beheben.

Zeit für das Wesentliche dank Best Practices für Alerts

Die Anzahl der Warnmeldungen wurde um 99 % reduziert, Teams erhalten jetzt durchschnittlich nur noch neun Alerts pro Tag. Dank konfigurierbarer Alerts werden die wichtigsten Signale berücksichtigt, und das Team kann die Alerts anhand von Metriken, Events usw. gezielt anpassen. Auch das Stummschalten von Alerts auf Basis der jeweiligen Workflows ist möglich.

„Wir können mit den Alerts viel schneller handeln. Bei einem Vorfall werden wir nicht mehr mit Benachrichtigungen bombardiert. Das spart uns eine Menge Zeit und schont unsere Nerven, denn wir können uns direkt auf das Wesentliche konzentrieren“, erklärt Richard Bowen, Data Architect bei The Access Group.

Ist ein Prozess verlangsamt, wird er präzise ermittelt – bis hin zur Codezeile. New Relic Alerts sind mit zahlreichen Produktivitätsplattformen kompatibel, z. B. Textnachrichten und Slack, und liefern Informationen wie CPU-Auslastung und die Anzahl der laufenden Threads. Dieser Prozess läuft automatisch im Hintergrund ab, sodass die Informationen sofort verfügbar sind und leicht ausgewertet werden können. Und da keine Zeit mit mühseliger Fehlersuche verschwendet wird, kann die betroffene Codezeile sofort bearbeitet werden und schafft es in den nächsten Sprint. Da alle Alerts und Daten auf einer zentralen Plattform vereint sind und kein Hin- und Herspringen zwischen verschiedenen Tools erforderlich ist, sind Software-Engineers und Entwickler:innen in der Lage, Probleme frühzeitig zu erkennen. Das führt zu einer schnelleren und leichteren Incident Response. 

„Die Konfiguration von New Relic ist ganz einfach: Sie installieren den Agent. Sie sehen anhand der übersichtlichen Grafiken genau, wie die Services miteinander kommunizieren. Sie können sich die Metriken aus allen Serviceinteraktionen anzeigen lassen, selbst Performance-Probleme, die außerhalb Ihres Systems auftreten. Bei anderen Cloudplattformen müssen Sie viel mehr konfigurieren und haben einen viel größeren Verwaltungsaufwand.

Live-Einblicke in Infrastruktur und Datenbank

Durch die Einsicht in verteilte Systeme kann Access genau sehen, welche Transaktionen zu langsam ablaufen und das Kundenerlebnis oder andere Transaktionen beeinträchtigen. Dabei kann sogar zwischen internen und externen Prozessen unterschieden werden. Zum Beispiel dachte man im Unternehmen jahrelang, dass ein bestimmter externer Prozess 27 Sekunden dauerte. Als New Relic eingeführt wurde, stellte sich heraus, dass es sich um einen internen Prozess handelte. Der alte Code wurde innerhalb eines Tages umgeschrieben und in den nächsten Sprint aufgenommen. Gefunden wurde der Fehler übrigens von einem Software-Engineer, der erst seit einem Tag mit New Relic arbeitete.

Da das Unternehmen nun sah, welche Server ausgelastet waren, konnte es zudem die Anzahl der Rechner in seinen Clustern reduzieren und so die Cloudkosten senken. Eine Datenbank, die zuvor zu 60 % ausgelastet war, läuft jetzt zu 25–30 % – eine monatliche Einsparung von etwa 1.000 £. Die täglich genutzte Datenbank, die in Spitzenzeiten zu 60–80 % ausgelastet war, läuft jetzt mit 4 %. 

Engineering-Teams haben jetzt Zeit für Strategisches

Access ist jetzt stets einen Schritt voraus, was die Probleme der Kund:innen angeht, und kann so für eine frühzeitige Problembehebung sorgen, noch bevor sich die Probleme bei der Kundschaft oder dem Supportteam bemerkbar machen. So müssen Teams sich nicht mehr mit der ständigen Fehlersuche herumschlagen, sondern können sich ihrer eigentlichen Aufgabe widmen: der Auslieferung von Features und Innovationen. Da das Alerting die Engineers bei Access über alles Wichtige auf dem Laufenden hält, befassen sie sich mit anderen Metriken und KPIs, um mehr darüber zu erfahren, wie das Produkt eigentlich genutzt wird – z. B. wie viele Kund:innen eine Anwendung oder einen Prozess jeweils verwenden. Anhand dieser Informationen lässt sich die Produktarbeit priorisieren, denn es ist offensichtlich, welche Arbeiten für die Kundschaft besonders wichtig sind. „OpenTelemetry spielt eine wichtige Rolle, denn es ermöglicht die Erfassung von Business-Metriken und die Kundeninstrumentierung“, so Richard.