La start-up Navan a grandi pour être aujourd'hui une application internationale de gestion des voyages d'affaires et des notes de frais. Elle collabore avec quelques-unes des plus grandes marques des secteurs de la technologie et du retail. Au cours de cette aventure, son équipe d'ingénieurs a accumulé toute une gamme d'outils de monitoring qui ont fini par rendre difficiles leurs ambitions de croissance. Avec New Relic, Navan a créé une vue unifiée et uniformisée de ses logiciels et données qui sert de centre commun au travail des ingénieurs.
Du monitoring axé sur les erreurs à celui basé sur les résultats
Avant de passer à New Relic, l'infrastructure et le monitoring des applications de Navan étaient un mélange d'outils qui ne cessaient d'augmenter en nombre dès que les besoins en logging ou monitoring pointaient leur nez. Avec l'évolution de Navan, il était de plus en plus difficile de comprendre et de trouver la cause profonde d'un incident unique. Il pouvait s'agir de tout et n'importe quoi, comme les temps lents pour le chargement des pages ou les menaces de sécurité. Pour rationaliser les outils et les processus, Navan s'est tourné vers New Relic.
« Lorsque j'ai rejoint Navan, nous avions une multitude d'outils de monitoring. Nous devions relever un certain nombre de défis, dont la plupart étaient dus à notre incapacité générale à comprendre la qualité et les temps de disponibilité. Nous disposions de plusieurs outils d'observabilité et ils ne nous racontaient pas vraiment l'histoire de ce qui se passait dans nos systèmes à un moment donné. Nous collections une quantité excessive de logs sur tout et il était difficile de faire le discernement entre ce qui n'allait vraiment pas et les causes des problèmes. » -Patrick Beckhelm, Directeur de l'observabilité, Navan
C'est ce qui a poussé Patrick Beckhelm à réfléchir au monitoring en termes de résultats. Est-ce que les utilisateurs de Navan peuvent réserver leur voyage plus facilement ? Les recherches opèrent-elles comme voulu ? « Cela nous a grandement aidés à comprendre ce qui devait être amélioré dans le système, déclare Patrick Beckhelm.
La consolidation dans New Relic fut un excellent point de départ pour nous. Une fois la plateforme instrumentée, nous avons pu résoudre les problèmes et passer à ce que nous considérons comme un univers post‑temps de disponibilité, dans lequel nous savons ce qui se passe vraiment et nous sommes sûr que la disponibilité est atteinte presque 100 % du temps. Nous pouvons désormais focaliser notre équipe sur les moteurs opérationnels. New Relic nous a aidés dans cette évolution. »
Une fois New Relic en place, l'équipe de Navan a adopté la culture de l'observabilité. Elle a tout d'abord placé des alertes sur les métriques de réussite telles que la capacité des utilisateurs à créer des réservations sans erreur. Puis il y a eu l'ajustement des métriques d'infrastructure existantes, et enfin les alertes basées sur les anomalies.
100 déploiements par jour
Le point de visibilité centralisé et la consolidation des outils d'observabilité sont ce que Patrick Beckhelm appelle « un lubrifiant d'ingénierie efficace. »
Cet avantage clé — disposer d'un outil d'observabilité (New Relic ) pour toutes les opérations — permet aux équipes d'avoir une approche plus orientée sur la propriété des services. Selon Patrick Beckhelm, « Nous avions alors l'observabilité au niveau des services. Cela nous a donné la confiance nécessaire pour mettre en pratique le CI/CD à l'international. Nous pouvions avancer plus rapidement, sans rien casser. »
Les services qui étaient déployés auparavant juste une fois par jour étaient désormais déployés plusieurs fois par jour. Et Patrick Beckhelm de continuer, « les équipes n'ont pas à passer à un outil pour une opération, puis à un autre pour autre chose : tout est au même endroit et peut être facilement partagé ».
Le monitoring en temps réel de tout ce qui se passe
Un des principaux objectifs de l'équipe d'observabilité de Navan consistait à définir des indicateurs de performances clés (KPI) pour l'observabilité : il s'agit de la proportion des incidents identifiés grâce aux pratiques de monitoring plutôt qu'en raison des plaintes des clients. Avant New Relic, Patrick Beckhelm estime qu'environ 20 % des incidents se produisant sur le parcours des clients étaient identifiés par les outils d'observabilité. Aujourd'hui ce chiffre atteint presque 90 % des incidents.
Patrick Beckhelm donne en exemple l'impact sur le chiffre d'affaires de Navan qu'a eu New Relic lorsque les dashboards ont signalé de faibles taux de conversion chez les utilisateurs qui cherchaient à réserver des vols. L'équipe a repéré que la cause profonde provenait d'une liste des vols d'un fournisseur qui était incomplète. « Ce n'est pas quelque chose qui vous sauterait normalement aux yeux dans les alertes, déclare Patrick Beckhelm. Mais le fait de pouvoir détecter et résoudre le problème en temps réel a eu un impact très positif sur les revenus de conversion de la journée. »
Chris Cholette, Vice-président Ingénierie et SRE chez Navan, confirme que c'est le type de problème subtil que New Relic aide à découvrir. Selon lui, « Les données en temps réel tout au long de la journée nous apportent un énorme avantage. New Relic est actuellement utilisé par l'équipe du service client et d'autres équipes de l'organisation qui auparavant n'avaient pas la visibilité qu'elles ont aujourd'hui sur ces métriques. Elles peuvent maintenant voir les résultats des processus techniques dont elles dépendent, et elles ont ainsi plus de poids auprès des clients et dans leur collaboration avec nous ».