Les alertes aident à identifier et résoudre les problèmes avant qu'ils n'impactent vos clients. Mais trop d'alertes peuvent être écrasantes, désensibiliser l'équipe qui les traite, voire ralentir le temps de réponse aux incidents de l'équipe. Une stratégie d'alerte optimisée est essentielle à l'observabilité. Elle aide votre équipe à se concentrer sur les éléments essentiels au moment opportun et à améliorer ainsi les temps de disponibilité et les performances. Avec Alert Quality Management (AQM), la gestion de la qualité des alertes vous aide à optimiser votre stratégie tout en créant moins d'alertes, mais de meilleure qualité, qui vous permettront de trouver directement les incidents et de minimiser la fatigue due aux notifications inutiles.

1. Créez des alertes qui sont importantes pour notre activité

Avec les alertes dans New Relic, vous pouvez paramétrer des règles d'alertes robustes et personnalisables pour tout ce que vous instrumentez. Toutefois, cela ne signifie pas que vous devez créer des règles d'alertes pour tout et n'importe quoi. Choisissez les conditions avec précaution afin de ne pas accabler l'équipe d'un excès de notifications. Si vos clients ne sont pas impactés, faut-il vraiment qu'une alerte réveille quelqu'un ?

Les organisations matures ont tendance à paramétrer moins d'alertes. Elles les focalisent surtout sur un ensemble vital de métriques qui indiquent si l'expérience des clients est affectée. Par exemple, les équipes se concentrent souvent sur les métriques de gestion des niveaux de service (SLM) telles que les temps de réponse et le taux d'erreur.     

2. Tirez parti de la détection automatique des anomalies 

Une anomalie est une tendance comportementale qui ne correspond pas aux données historiques de votre système. Assurez-vous que vous recevez une notification sur les problèmes importants en tirant parti de la détection des anomalies dans New Relic. Cette dernière fait partie de notre fonctionnalité AIOps et trouve automatiquement les variations inhabituelles dans vos applications, services et données de log. Ces alertes automatisées sont basées sur des signaux dorés tels que le débit, les erreurs et la latence. 

 

Dans cette vidéo, nous apprenons à faire le suivi des données d'alerte afin de prendre de meilleures décisions.

3. Configurez les workflows de notification pour alerter qui il faut, quand il le faut  

Pour rationaliser votre workflow, envoyez des alertes automatiques sur Slack ou d'autres services tiers comme Atlassian Jira, ServiceNow, PagerDuty ou une messagerie, lorsque les systèmes ont besoin de votre attention. Vous pouvez également utiliser les webhooks pour envoyer vos données vers tout service tiers compatible qui est aussi une destination connue dans New Relic. Voici une liste des plateformes de destination actuellement prises en charge dans New Relic.

Pour éviter la fatigue due aux alertes, réfléchissez à la façon dont les alertes seront envoyées et à quel moment. Votre équipe veut-elle recevoir une notification dès qu'il y a un problème ? Faut-il regrouper les alertes qui sont semblables en une seule notification ? Les notifications seront-elles envoyées à tous les membres de l'équipe ?  

Les workflows dans New Relic vous permettent de contrôler quand et où vous voulez recevoir les notifications sur les problèmes dans votre système. Par exemple, vous pouvez filtrer les problèmes que vous voulez envoyer vers une destination particulière, vous assurer que les notifications sont seulement envoyées à certaines personnes et rôles en fonction du type de problèmes, de l'infraction, des services impactés et de toute autre variable.

Paramétrez et faites le suivi des métriques d'alerte

Les alertes sont un excellent moyen d'identifier rapidement quand quelque chose ne va pas, mais s'il y en a trop, cela peut conduire à une certaine fatigue. Les alertes peuvent être déclenchées trop souvent, les seuils peuvent être sensibles et certaines alertes peuvent ne pas être pertinentes. 

Assurez-vous que vos alertes restent de grande qualité dans le temps en faisant le suivi des métriques. Observez les métriques et les KPI qui révèlent les alertes les plus bruyantes et les moins valables afin d'améliorer leur valeur ou de les éliminer. Par exemple, utilisez vos données AQM pour analyser les métriques et faire les ajustements nécessaires à vos politiques d'alerte afin de réduire le volume à des niveaux acceptables tout en maintenant vos objectifs pour la fiabilité et la stabilité.