William Hill publie chaque jour 5,1 millions de changement de prix, où tout est mis à jour en temps réel. Cela représente 74 % de plus qu'Amazon Royaume-Uni lors de sa journée record. Fondée au Royaume-Uni en 1934, William Hill est l'une des plus grandes entreprises de paris et de jeux au monde et l'une des marques les plus dignes de confiance du secteur.
Réduction des temps d’arrêt et amélioration de la résolution des problèmes
Étant donné la nature et la complexité en temps réel du stack technologique de William Hill, les problèmes peuvent se produire rapidement. « Les cotes changent instantanément et il est essentiel que nous soyons au bouton, confie Stephen Wild, Responsable de l'ingénierie pour l'observabilité et l'automatisation chez William Hill. Si les personnes obtiennent de meilleures cotes ailleurs, elles partent. Si nous perdons une minute, nous perdons des milliers de clients. Nous devons savoir ce qui se passe sur tous les stacks et dans toutes les applications. C'est très difficile de connaître à l'avance le niveau de trafic exact. »
Pour essayer de voir ce qui se passait, William Hill avait plusieurs outils de monitoring pour surveiller son stack technologique.Mais ils étaient toujours en panne, souvent pendant la nuit, et l'équipe de Stephen Wild était souvent réveillée par les alertes. « Nous savions qu'il fallait remplacer ce que nous avions. C'était tout simplement insuffisant, explique Stephen Wild. Nous avions besoin de quelque chose qui était surtout facile à utiliser. Quelque chose de fiable, de stable et d'élastique ».
Les données en temps réel permettent de connaître le coût des temps d’arrêt
« Lorsque nous avons des interruptions, nous avons besoin de savoir combien coûtent ces temps d’arrêt à notre entreprise. Chaque seconde compte. Et le fait que New Relic fonctionne en temps réel nous permet de calculer les coûts exacts. Nous pouvons alors intégrer un système de notification qui les transmet à New Relic dans un dashboard, afin que toute l'entreprise puisse les voir. Et c'est très très exact. Cela nous permet de prioriser ce qu'il faut résoudre d'abord et ce sur quoi nous devons travailler ensuite, » explique Stephen Wild.
Pour obtenir en temps réel toutes les informations sur l'impact des pannes techniques sur le chiffre d'affaires, l'application Impact Listener a été développée à partir des capacités de New Relic pour faire le suivi des incidents de première priorité (P1). L'outil peut être adapté en temps réel à n'importe quel service commercial et à toute métrique afin de fournir le contexte et les informations détaillées sur les incidents impactant les services tout au long du cycle de vie des incidents. New Relic est le principal déclencheur du lancement du workflow Impact Listener : les alertes en cas d'incidents critiques sont envoyées à PagerDuty. En même temps, Impact Listener corrèle le problème au chiffre d'affaires perdu et ces données sont affichées dans les dashboards New Relic en temps réel. Avec la capacité améliorée de corréler les problèmes techniques aux résultats de l’entreprise, les équipes ont vu d'importantes améliorations dans leurs efforts de dépannage — y compris une amélioration de 25 % dans la résolution des incidents P1 dans les 60 minutes.
Les rétrospectives stimulées par les données
Pour les rétrospectives d'incidents, William Hill utilise Impact Listener pour créer des rapports post mortem pour les équipes assistance opérationnelles, SRE et développement afin d'évaluer comment elles peuvent trier les incidents semblables à l'avenir. Parallèlement aux analyses en temps réel, cela permet aux équipes de commencer d'augmenter les KPI et de stimuler l'amélioration continue. Les KPI sont publiés, suivis et rendus accessibles via des dashboards New Relic à tous les employés des différents services de l'entreprise. William Hill utilise également les dashboards pour les alertes proactives qui repèrent les tendances et indiquent les améliorations nécessaires.
Une plateforme fiable permet aux équipes de donner le meilleur d'elles-mêmes
« Ce que j'aime le plus dans New Relic, c'est que c'est fiable et que ça marche, confie Stephen Wild.Le produit fait ce qui est marqué sur la boîte. J'apprécie le personnel New Relic et l'assistance qu'il nous apporte. Vous pouvez avoir un produit 5 étoiles, mais si vous n'avez pas l'assistance qu'il faut, c'est comme si vous n'aviez pas de produit du tout.
En termes de fiabilité, c'est 100 % fiable. Nos systèmes n'ont jamais de temps d'arrêt. Nous n'avons aucun problème avec la solution. C'est devenu une sorte de cliché. Nous n'avons pas à nous inquiéter. Le délai moyen de résolution est maintenant bien meilleur à 80 %. Nous étions descendus à 50‑60 %. Et ce que nous avions auparavant était intenable. C'est la grande fiabilité qui a permis aux équipes d'arriver à faire ce qu'elles font maintenant. Et elles ne sont pas simplement concentrées sur la résurrection d'un produit sans vie, continue Stephen Wild.
Nous avons trois gros événements pour lesquels nous devons nous préparer sérieusement et c'est un cauchemar pour l'observabilité. Le Grand National est pour nous l'équivalent de cinq samedi en un. Nous pensions qu'aucune plateforme de monitoring ne pourrait tenir le coup seule face au Grand National. Mais New Relic l'a fait. Lors des trois derniers Grand National, nous n'avons pas dû impliquer le personnel de New Relic, parce que tout a fonctionné parfaitement. C'était stable, ça a continué à ingérer les données. Nous n'avons pas eu de pannes. Et Stephen Wild de conclure : Que peut-on vouloir de plus ? »