L'équipe Réseau de New Relic monitore son environnement réseau mondial comprenant des centaines de cellules avec des clusters Kubernetes qui se connectent à de multiples environnements cloud. Pour atteindre une visibilité complète, les ingénieurs SRE et Réseau ont développé du code à l'aide des bibliothèques New Relic qui sont déployées dans chaque cluster pour collecter des données télémétriques vitales.
La principale motivation derrière le développement de ce réseau d'observabilité extensif était de permettre à nos clients de mieux comprendre le réseau et d'instaurer leur confiance. L'objectif est de donner aux autres équipes la possibilité d'un libre-service leur permettant d'éliminer d'abord les problèmes réseau lors du dépannage.
Les dashboards de réseau personnalisés fournissent des informations approfondies sur une large gamme de métriques dont :
- Les performances réseau : le monitoring de la bande passante, la perte de paquets, l'instabilité, la latence et l'utilisation des chemins.
- La santé de l'infrastructure : en utilisant l'agent d'infrastructure avec les connecteurs Amazon et Azure pour obtenir des informations à partir de ces plateformes et les ingérer dans New Relic.
- La validation de la connectivité : en utilisant un script personnalisé qui envoie des pings d'un emplacement à un autre pour confirmer la connectivité.
- L'optimisation des coûts : le monitoring d'un service de traduction d'adresse (NAT) d'un réseau entrant afin de quitter le réseau d'un prestataire cloud à un niveau de prix bien plus bas, ainsi que le monitoring des hausses de coûts inattendues.
L'implémentation de cette observabilité réseau a eu un profond impact sur l'efficacité et la fiabilité opérationnelles de New Relic :
- Une réduction drastique des temps de dépannage : l'implémentation a réduit le nombre d'alertes que reçoit l'équipe réseau. Par exemple, l'observabilité réseau a permis l'identification d'un problème d'acheminement au cours duquel le trafic basculait vers une solution de sauvegarde trop faible en raison de l'absence d'une route statique. Les équipes réseau de New Relic ont ainsi pu rapidement remédier à ce problème et, plus tard, implémenter un paramétrage actif-actif permettant aux différentes routes suivies par les prestataires de services cloud de rééquilibrer le trafic et de prévenir la saturation.
- L'identification proactive des mauvaises configurations : en identifiant les problèmes tels que les routes statiques manquantes, New Relic optimise l'utilisation des ressources et améliore drastiquement la fiabilité du système, ce qui entraîne une meilleure efficacité des coûts.
- Des runbooks dynamiques : l'objectif est de donner aux autres équipes la possibilité d'un libre-service leur permettant d'éliminer d'abord les problèmes réseau lors du dépannage.
- Des insights pour les cadres : l'équipe utilise New Relic pour optimiser les coûts en monitorant un service NAT entrant. Elle monitore également les hausses inattendues des coûts et aide les autres équipes à identifier et résoudre les problèmes entraînant des surcoûts en raison d'une augmentation inutile du trafic.