Les alertes sont importantes pour répondre rapidement aux interruptions potentielles de service. Toutefois, la notification d'un intervenant pour qu'il réponde aux incidents par des mesures manuelles reste un processus chronophage. C'est pourquoi New Relic priorise l'automatisation en se focalisant sur des systèmes autocorrecteurs.
L'autoscaling réduit les tâches laborieuses des ingénieurs
New Relic a investi énormément dans des algorithmes d'autoscaling qui peuvent rapidement faire fluctuer la taille des services vers le haut ou le bas. Ces algorithmes utilisent des métriques telles que le CPU et la mémoire pour la scalabilité automatique en fonction des besoins. Cette amélioration a permis de nettement réduire les interruptions et le nombre de notifications reçues par l'équipe. Par exemple, il arrivait souvent que notre équipe Logging soit contactée 2 à 4 fois par semaine pour soutenir la scalabilité d'un service. Depuis l'implémentation de l'autoscaling, l'équipe reçoit nettement moins de notifications.
L'autorollback pour la fiabilité
Bien que les services New Relic passent par une série de vérifications avant d'être déployés en production certains bugs atteignent quand même le processus de production. Si c'est le cas, New Relic emploie le rollback automatique des services. Lorsqu'un changement est déployé via le pipeline de déploiement continu de New Relic, un workflow est lancé pour diagnostiquer l'état de santé de l'entité. Si l'état du service devient anormal, le workflow déclenche le rollback des instances corrompues par le pipeline de déploiement continu.