Tagtäglich werden bei William Hill 5,1 Mio. Preisänderungen veröffentlicht, und alles wird sofort aktualisiert. Das sind 74 % mehr als bei Amazon UK an seinem bisher stärksten Handelstag. William Hill wurde 1934 im Vereinigten Königreich gegründet und ist eines der weltweit führenden Wett- und Glücksspielunternehmen sowie als Marke in der Branche sehr geschätzt.
Weniger Downtime und raschere Problembehebung
Aufgrund der ständigen Aktualisierungen und des komplexen Tech-Stacks können Probleme bei William Hill komplett ohne Vorwarnung auftauchen. „Die Wettquoten ändern sich häufig und wir müssen immer am Ball bleiben. Wenn die Leute anderswo bessere Quoten sehen, gehen sie dorthin. Das heißt, wenn wir nur eine Minute zu spät dran sind, verlieren wir Tausende von Kund:innen. Deshalb müssen wir jederzeit wissen, was in jedem Stack und in jeder Anwendung los ist“, erklärt Stephen Wild, Engineering Manager für Observability und Automatisierung bei William Hill. Es ist fast unmöglich, zukünftige Auslastungen präzise vorherzusagen.
Um zumindest eine Vorstellung davon zu bekommen, was vor sich ging, setzte William Hill eine Reihe verschiedener Monitoring-Tools für den Tech-Stack ein. Allerdings fielen diese wiederholt aus, oft auch über Nacht, was Stephens Team unruhige Nächte bescherte. „Wir wussten, dass etwas Neues her musste. Das, was wir hatten, funktionierte einfach nicht gut genug. Wir brauchten etwas, das vor allem einfach zu bedienen war. Zuverlässig, stabil, flexibel. Das waren unsere Kriterien“, so Stephen.
Quantifizierung von Downtime durch Echtzeitdaten
„Wenn wir Downtime haben, müssen wir wissen, wie viel uns das als Unternehmen kostet. Denn jede Sekunde zählt. Da mit New Relic alles in Echtzeit läuft, können wir diese Kosten jetzt ermitteln, und über eine Integration in ein Benachrichtigungssystem gelangen diese Informationen als Dashboard wieder zu New Relic, sodass alle im Unternehmen sie sehen können. Die Informationen sind sehr, sehr verlässlich, sodass wir auf dieser Basis priorisieren können, was in welcher Reihenfolge behoben werden muss“, fügt Stephen hinzu.
Um sofort zu sehen, welche finanziellen Folgen technische Ausfälle für uns haben, verknüpften wir die Anwendung Impact Listener, die Incidents mit Priorität 1 (Prio1) verfolgt, mit den New Relic Toolsets. Das Tool kann beliebigen Business-Services und Metriken zugeordnet werden und liefert in Echtzeit und von Anfang bis Ende Kontext und Einblicke in relevante Incidents. Der Hauptauslöser für den Impact-Listener-Workflow ist dabei New Relic: Die Alerts zu kritischen Incidents werden an PagerDuty gesendet; gleichzeitig korreliert Impact Listener das jeweilige Problem mit dem entgangenen Umsatz, und diese Daten werden dann live in den New Relic Dashboards angezeigt. Dank der verbesserten Korrelation von technischen Problemen und Geschäftsergebnissen konnten die Teams erhebliche Verbesserungen bei der Fehlerbehebung feststellen – zum Beispiel werden jetzt 25 % mehr Prio1-Vorfälle innerhalb von 60 Minuten behoben.
Datengestützte Nachbesprechungen
Auch für die nachträgliche Incident-Analyse nutzt William Hill Impact Listener, und zwar um Post-Mortem-Berichte für Supportteams, SREs und Entwicklungsteams zu erstellen, sodass diese sehen, wie ähnliche Incidents in Zukunft priorisiert werden sollten. Zusammen mit Echtzeit-Analysen erlaubt dies den Teams, KPIs und kontinuierliche Verbesserungen gezielt anzugehen. Die KPIs werden veröffentlicht, nachverfolgt und allen Mitarbeiter:innen über die New Relic Dashboards für jeden Geschäftsbereich zugänglich gemacht. William Hill setzt zudem Dashboards für proaktives Alerting ein, damit Trends und Bereiche mit Verbesserungsbedarf deutlich werden.
Bessere Teamarbeit dank zuverlässiger Plattform
„Was ich an New Relic besonders toll finde, ist, dass es so zuverlässig ist. Es funktioniert einfach. Und ich mag die Leute, ich mag den Support, den ich erhalte. Ohne Support ist auch das beste Fünfsterneprodukt nichts wert“, so Stephen.
„Was die Zuverlässigkeit angeht – die liegt bei 100 %. Es gab bislang absolut keine Ausfallzeiten. Und absolut keine Probleme mit dem Tool. Es ist fast zu schön, um wahr zu sein. Wir müssen uns überhaupt keine Gedanken darum machen. Die mittlere Lösungszeit hat sich auf 80 % verbessert; vorher lagen wir bei 50 bis 60 %, und das war einfach nicht gut genug. Allein die Tatsache, dass es so zuverlässig ist, erlaubt den Teams, sich auf das Wesentliche zu konzentrieren, anstatt altes Zeug mühsam am Leben zu halten“, fügt Stephen hinzu.
„Wir haben drei große Veranstaltungen, die enorme Vorbereitungen erfordern und für Observability offen gesagt ein Alptraum sind. Eines davon ist das Grand National, das bekannteste britische Pferdehindernisrennen. Das ist quasi wie fünf Samstage auf einmal. Wir waren uns sicher, dass eine einzige Monitoring-Plattform für das Grand National niemals ausreichen würde. New Relic hat uns eines Besseren belehrt. Die letzten drei Jahre mussten wir während des Grand National nie New Relic um Hilfe bitten, weil es einfach immer funktioniert hat. Es war stabil und hat alle Daten zuverlässig erfasst. Es gab keinerlei Ausfälle. Was will man mehr?“, freut sich Stephen.