Unsere Kund:innen stehen bei plentymarkets in jeder Hinsicht an erster Stelle. E-Commerce ist eine Branche, in der ständiger Wandel und harter Wettbewerb herrscht. Verbraucher:innen erwarten, das Gesuchte in Sekundenschnelle zu finden – wenn nicht, gehen sie einfach weiter zum nächsten Shop. Deshalb ist die Website-Performance, also Verfügbarkeit, Funktion und Seitengeschwindigkeit, vor allem zu hochfrequentierten Zeiten wie Black Friday und Weihnachten der Schlüssel zum Erfolg. Damit wir unseren Kund:innen stets optimale Performance bieten können, müssen wir in der Lage sein, unsere Services in Echtzeit zu überwachen. Früher haben wir dazu mehr als zehn separate, intern verwaltete Monitoring-Lösungen benötigt. Das war ein ziemlicher zeitlicher Aufwand und die Optimierung des Nutzungserlebnisses geriet unweigerlich ins Hintertreffen. Zu allem Übel kannten sich auch nur ein paar wenige Software-Engineers wirklich mit den einzelnen Tools aus, weshalb es immer wieder zu Wartezeiten kam, wenn Probleme auftraten. 

Als Area Engineering Manager für die Cloudplattform bin ich für strategische Entscheidungen zur Verbesserung der Infrastruktur und damit des Nutzungserlebnisses verantwortlich. Aber meine eigentliche Leidenschaft ist die unternehmensweite Optimierung des Arbeitsumfelds, damit die Leute effizienter arbeiten können und letztendlich Freude an ihrem Job haben. Deshalb war ich sehr an der Einführung von Observability interessiert, denn davon versprachen wir uns besseres Monitoring.

Seit der Implementierung von New Relic bei plentymarkets haben sich für uns drei wichtige Aspekte herauskristallisiert:

1. Bessere Alerts = ruhigere Nächte

Wir bieten eine breite Palette an Funktionen für die unterschiedlichsten Use Cases und haben deshalb einen ziemlich komplexen Tech-Stack. Um alles im Blick zu behalten, mussten wir deshalb über die Jahre mehrere Monitoring-Lösungen implementieren – aber das brachte seine eigenen Probleme mit sich: Tagtäglich schickten die Tools unseren Teams Hunderte von Updates per E-Mail oder Telegram. Nicht nur war es fast unmöglich, den Überblick zu behalten, das Problem war auch, dass es sich bei 98 % der Benachrichtigungen um Fehlalarm handelte.

Eine neue Lösung musste her. Eine, die nicht nur von ein paar wenigen Spezialisten bedient werden konnte, sondern mit der verschiedene Teams ohne aufwendige Schulung Fehler ermitteln und beheben konnten. Und natürlich war das alles auch eine Kostenfrage – letztendlich schnitt New Relic in Sachen Preis und Support insgesamt am besten ab. Ein weiterer Vorteil von New Relic ist, dass wir per Single Sign-on einer größeren Anzahl von Benutzer:innen Zugang zu den jeweils benötigten Informationen geben konnten. 

Als Nächstes nahmen wir uns die Festlegung von Alert-Standards vor, damit möglichst viele Nutzer:innen anhand korrekter Informationen fundierte Entscheidungen treffen und Probleme beheben konnten. Zusätzlich erstellten wir Entscheidungsrichtlinien. Bei der Anpassung der Alerts war die Nutzerautonomie für uns das wichtigste Kriterium, denn Benachrichtigungen sind nur dann hilfreich, wenn sie für die Nutzer:innen relevant sind – und das variiert von Person zu Person. Für jedes Teammitglied maßgeschneiderte Alerts gaben den Engineers genau die Informationen, die sie brauchten, und die bisherige Alert-Schwemme konnte massiv reduziert werden. Indem wir den Kreis derer vergrößerten, die Zugang zu den Daten hatten, versetzten wir sie in die Lage, noch bessere Arbeit zu leisten.

Lukas Wöhrl, Area Engineering Manager für die Cloudplattform bei plentymarkets, erläutert, weshalb er sich für New Relic statt für eine intern verwaltete Open-Source-Lösung entschied.

2. Application Performance Monitoring

Wir ersetzten unsere intern verwaltete APM-Lösung durch New Relic Application Performance Monitoring. Zuvor hatten wir uns hauptsächlich auf das Monitoring der zugrundeliegenden Infrastruktur konzentriert. Mit New Relic konnten wir nun zusätzlich die Performance besser im Auge behalten, aber weiterhin auch die Infrastruktur überwachen. Und: Wir überwachen jetzt ein höheres Datenvolumen, und das schneller als zuvor. Im Hinblick auf die Performance ist das ein Riesenfortschritt: Da wir jetzt mehr Daten erfassen, ist die Wahrscheinlichkeit viel größer, dass wir eine Anomalie rechtzeitig erkennen – noch bevor unsere Kund:innen irgendetwas davon mitbekommen. 

New Relic ist auf dem besten Weg, bei plentymarkets zur einzigen Monitoring-Lösung zu werden. Die Datentransparenz ist für alle gleich, und die gemeinsame Fehlersuche und -behebung ist ein gern gesehener Nebeneffekt.

3. Fehlerbehebung für Kund:innen in Echtzeit

Vor der Konsolidierung unserer Tools zu New Relic waren für die Handhabung von Kundenproblemen jeweils zahlreiche Einzelschritte erforderlich. Diesen Prozess wollten wir vereinfachen: Reaktionszeiten sollten gesenkt werden, damit wir die System-Performance weiter verbessern konnten. Jetzt nutzen wir ein Custom-Dashboard mit Vorlagenvariablen zur Erfassung aller Daten wie Transaktionen, System-Performance und Folgen für die Kund:innen, und wir haben im Bedarfsfall sofort auf alles Zugriff. Dazu mussten mehrere Engineers ihre Entscheidungshoheit über bestimmte Teile des Stacks aufgeben, aber da die Daten nun nicht mehr von ein paar wenigen Personen gehütet werden, konnten wir unsere mittlere Lösungszeit verkürzen und unseren Kund:innen insgesamt einen viel besseren Service bieten.