Les alertes aident à identifier et résoudre les problèmes avant qu'ils n'impactent vos clients. Mais trop d'alertes peuvent être écrasantes, désensibiliser l'équipe qui les traite, voire ralentir le temps de réponse aux incidents de l'équipe. Une stratégie d'alerte optimisée est essentielle à l'observabilité. Elle aide votre équipe à se concentrer sur les éléments essentiels au moment opportun et à améliorer ainsi les temps de disponibilité et les performances. Avec Alert Quality Management (AQM), la gestion de la qualité des alertes vous aide à optimiser votre stratégie tout en créant moins d'alertes, mais de meilleure qualité, qui vous permettront de trouver directement les incidents et de minimiser la fatigue due aux notifications inutiles.
Avant de plonger dans l'optimisation de votre stratégie, assurez-vous de suivre les meilleures pratiques pour les alertes et les notifications. Lire un aperçu des alertes, problèmes, incidents et anomalies.
1. Créez des alertes qui sont importantes pour notre activité
Avec les alertes dans New Relic, vous pouvez paramétrer des règles d'alertes robustes et personnalisables pour tout ce que vous instrumentez. Toutefois, cela ne signifie pas que vous devez créer des règles d'alertes pour tout et n'importe quoi. Choisissez les conditions avec précaution afin de ne pas accabler l'équipe d'un excès de notifications. Si vos clients ne sont pas impactés, faut-il vraiment qu'une alerte réveille quelqu'un ?
Les organisations matures ont tendance à paramétrer moins d'alertes. Elles les focalisent surtout sur un ensemble vital de métriques qui indiquent si l'expérience des clients est affectée. Par exemple, les équipes se concentrent souvent sur les métriques de gestion des niveaux de service (SLM) telles que les temps de réponse et le taux d'erreur.
2. Tirez parti de la détection automatique des anomalies
Une anomalie est une tendance comportementale qui ne correspond pas aux données historiques de votre système. Assurez-vous que vous recevez une notification sur les problèmes importants en tirant parti de la détection des anomalies dans New Relic. Cette dernière fait partie de notre fonctionnalité AIOps et trouve automatiquement les variations inhabituelles dans vos applications, services et données de log. Ces alertes automatisées sont basées sur des signaux dorés tels que le débit, les erreurs et la latence.
3. Configurez les workflows de notification pour alerter qui il faut, quand il le faut
Pour rationaliser votre workflow, envoyez des alertes automatiques sur Slack ou d'autres services tiers comme Atlassian Jira, ServiceNow, PagerDuty ou une messagerie, lorsque les systèmes ont besoin de votre attention. Vous pouvez également utiliser les webhooks pour envoyer vos données vers tout service tiers compatible qui est aussi une destination connue dans New Relic. Voici une liste des plateformes de destination actuellement prises en charge dans New Relic.
Pour éviter la fatigue due aux alertes, réfléchissez à la façon dont les alertes seront envoyées et à quel moment. Votre équipe veut-elle recevoir une notification dès qu'il y a un problème ? Faut-il regrouper les alertes qui sont semblables en une seule notification ? Les notifications seront-elles envoyées à tous les membres de l'équipe ?
Les workflows dans New Relic vous permettent de contrôler quand et où vous voulez recevoir les notifications sur les problèmes dans votre système. Par exemple, vous pouvez filtrer les problèmes que vous voulez envoyer vers une destination particulière, vous assurer que les notifications sont seulement envoyées à certaines personnes et rôles en fonction du type de problèmes, de l'infraction, des services impactés et de toute autre variable.
Paramétrez et faites le suivi des métriques d'alerte
Les alertes sont un excellent moyen d'identifier rapidement quand quelque chose ne va pas, mais s'il y en a trop, cela peut conduire à une certaine fatigue. Les alertes peuvent être déclenchées trop souvent, les seuils peuvent être sensibles et certaines alertes peuvent ne pas être pertinentes.
Assurez-vous que vos alertes restent de grande qualité dans le temps en faisant le suivi des métriques. Observez les métriques et les KPI qui révèlent les alertes les plus bruyantes et les moins valables afin d'améliorer leur valeur ou de les éliminer. Par exemple, utilisez vos données AQM pour analyser les métriques et faire les ajustements nécessaires à vos politiques d'alerte afin de réduire le volume à des niveaux acceptables tout en maintenant vos objectifs pour la fiabilité et la stabilité.
Étapes suivantes
- Lisez le blog sur l'efficacité opérationnelle en 4 bonnes pratiques
- Pour en savoir plus, explorez notre guide d'implémentation sur les temps de disponibilité, la performance et la fiabilité.
- Lisez la page sur la gestion de la qualité des alertes (AQM) sur GitHub pour paramétrer un webhook et un dashboard.
- Obtenez un accès gratuit à New Relic avec 100 Go/mois d'ingestion des données, un utilisateur Full Platform et un nombre illimité d'utilisateurs Basic gratuits.
Les opinions exprimées sur ce blog sont celles de l'auteur et ne reflètent pas nécessairement celles de New Relic. Toutes les solutions proposées par l'auteur sont spécifiques à l'environnement et ne font pas partie des solutions commerciales ou du support proposés par New Relic. Veuillez nous rejoindre exclusivement sur l'Explorers Hub (discuss.newrelic.com) pour toute question et assistance concernant cet article de blog. Ce blog peut contenir des liens vers du contenu de sites tiers. En fournissant de tels liens, New Relic n'adopte, ne garantit, n'approuve ou n'approuve pas les informations, vues ou produits disponibles sur ces sites.