Soyons honnêtes. Lorsqu’un événement de pointe planifié se produit (qu’il s’agisse des soldes, d’un lancement de produit majeur ou de la frénésie de fin d’année pour les déclarations fiscales), une chose est sûre : tout le monde devient soudainement un expert de votre système.
Le nombre de personnes soudainement intéressées explose. Les questions fusent de toutes parts, y compris de la part de dirigeants dont vous ne connaissiez même pas l’existence. Les entreprises robustes s’appuient sur les données, et les événements de pointe intensifient la pression pour fournir des réponses rapides, concises et qu’il aurait fallu rendre exploitables hier.
L’observabilité est idéale pour répondre à bon nombre de ces questions, même à celles auxquelles vous ne vous attendiez pas. Elle fournit une mine d’informations en temps réel sur laquelle s’appuyer. Mais comment exploiter ces données pour en tirer des informations détaillées exploitables ? Comment le faire rapidement et comment les présenter de manière à ce que le reste de l’entreprise les comprenne réellement ?
Dans cet article, nous allons explorer des techniques pour améliorer la collecte et la présentation des données auprès des parties prenantes situées en dehors de votre domaine technique, que ce soit pour rendre compte à la direction, à d’autres équipes de service, à des fournisseurs ou même à des consommateurs. Ces compétences ne vous aideront pas seulement à surmonter les périodes de pointe, elles vous aideront aussi à mieux communiquer au quotidien.
Thèmes abordés :
- Parlez en termes compréhensibles pour l’entreprise : apprenez à communiquer avec l’entreprise dans un langage qu’elle comprend facilement.
- À quoi ressemble la « normalité » ? Qu’est-ce qui est bon et qu’est-ce qui est mauvais ? Le contexte est primordial et, pendant les pics, il peut changer de façon inattendue.
- Au-delà des données, le discernement : fournissez des informations détaillées exploitable, pas seulement des données.
- Dashboards percutants : moins, c’est plus. Nos meilleurs conseils pour des dashboards qui favorisent l’action.
- Trouver les données dont vous avez besoin : vous pourriez être surpris par les informations détaillées que vous pouvez tirer des données que vous collectez déjà.
1. Parler en termes compréhensibles pour l’entreprise
Apprenez à communiquer avec l’entreprise en utilisant des termes qu’elle comprend facilement.
Une communication claire est toujours essentielle, surtout pendant les périodes chargées. Au quotidien, vous connaissez intimement vos données et leur signification pour vos services. Mais lorsque vous communiquez au-delà de votre équipe, des malentendus, de fausses hypothèses et de mauvaises décisions peuvent s’insinuer.
Même si vous vous intéressez aux taux d’éviction de pods ou aux variations de LCP, vos parties prenantes s’en préoccupent probablement peu. Pour améliorer la collaboration, vous devez traduire vos métriques techniques en des « termes compréhensibles pour l’entreprise ».
Qu’est-ce que ces « termes compréhensibles pour l’entreprise » ? C’est le représentant pragmatique du succès que vos parties prenantes comprennent déjà. Bien que la réussite finale soit financière, leurs priorités quotidiennes sont plus spécifiques.
Pour le savoir, découvrez leurs priorités. Sont-elles focalisés sur la vitesse de déploiement, la taille du panier, le taux d'échecs de paiements ou les coûts des ressources ? Peut-être s’agit-il des vols réservés ou des réclamations approuvées.
Lorsque vous rendez compte dans leurs termes, vous supprimez les frictions. Elles peuvent agir immédiatement sur vos données sans avoir à comprendre vos métriques internes au préalable.
2. À quoi ressemble la « normalité » ? Qu’est-ce qui est bon et qu’est-ce qui est mauvais ?
Le contexte est primordial et, pendant les pics, il peut changer de façon inattendue.
En général, vous savez à quoi ressemble la « normalité ». Vous disposez de dashboards, d’objectifs de niveau de service (SLO) et d’alertes pour vos taux d’erreur, la taille moyenne des paniers ou les ventes par minute.
Les événements de pointe, en revanche, ne sont pas typiques. Vous serez confronté à un débit extrême et à des charges inhabituelles. Votre tolérance au risque change à mesure que le coût des temps d’arrêt s’envole. Dans ces moments, les données sur lesquelles vous vous appuyez doivent absolument tenir compte de ce nouveau contexte.
Prenons un exemple : les tentatives de connexion ayant échoué. Vous êtes habitué à des échecs occasionnels. Mais pendant les pics, ce nombre s’envole, les dashboards virent au rouge et toutes vos alertes se déclenchent.
S’agit-il d’un véritable problème ? Peut-être que le service de connexion est en panne. Mais il est également probable que le volume total des connexions ait augmenté, entraînant l’augmentation du nombre d’erreurs. Le taux d’échec pourrait être parfaitement sain.
La solution est simple : normalisez le signal. Convertissez le décompte discret (connexions ayant échoué) en un taux basé sur le débit (par exemple, connexions ayant échoué pour 1 000 tentatives). Cela vous indique immédiatement s’il s’agit d’un vrai problème ou simplement d’un effet secondaire du trafic de pointe.
Lors de la planification des périodes de pointe, examinez vos dashboards et vos alertes dans ce contexte. Fournissent-ils toujours les bonnes informations ? Les tests de charge sont le moment idéal pour le vérifier. Vous pourriez constater que les seuils « normaux » doivent être ajustés pour les scénarios de forte charge.
Ce n’est pas qu’un problème de pic. Un taux de commandes acceptable à 15 h peut représenter une panne à 3 h du matin. Vous ne voulez pas recevoir d’alerte pour cela.
Vous pouvez y remédier de plusieurs façons. Pour les variations saisonnières, la détection des anomalies ou la détection des valeurs hors norme peuvent être utiles. Vous pouvez également utiliser des règles de mise en sourdine pour les notifications en dehors des heures de bureau ou même manipuler le signal pour qu’il tienne compte du temps.
Par exemple, pour n’émettre une alerte que sur les faibles taux de commandes pendant les heures de bureau, vous pouvez utiliser une requête comme celle-ci :
FROM Orders SELECT if(hourOf(horodatage) NOT IN (’20:00’,’21:00’,...,’07:00’,’08:00’), rate(count(*), 1 minute), 10)
Cela force le signal à une valeur sûre (10) en dehors des heures de bureau tout en affichant la valeur réelle pendant celles-ci.
Pour une approche plus complète, utilisez l’observabilité en tant que code (par exemple, Terraform). Cela vous permet de définir et de gérer plusieurs « postures » pour vos alertes et vos dashboards. Vous pouvez avoir des configurations pour « normal », « pic » et « vacances », et basculer facilement entre elles, ou même automatiser le basculement en fonction du trafic.
Vous trouverez un exemple de base de changement de posture avec Terraform ici : https://github.com/jsbnr/nr-terraform-posture-switch
3. Au-delà des données, le discernement
Fournir des informations détaillées exploitables, pas seulement des données
Vous collectez une grande variété de données, mais les données brutes sont difficiles à comprendre pour le cerveau humain (ou l’IA). Les dashboards aident en regroupant les données sous forme de graphiques. Mais se contenter de présenter les données n’est que la première étape. Comment les rendre significatives et exploitables ?
Une technique simple est l’« entonnoir d’informations ». Vous affinez progressivement vos données brutes, en améliorant leur clarté grâce à la connaissance et au discernement jusqu’à ce qu’elles deviennent des informations détaillées accessibles, significatives et exploitables.
Examinons un exemple simple de ce processus en action…
INFORMATIONS
Ce graphique à barres montre les coûts d’hébergement des services, classés du plus coûteux au moins coûteux. Notre attention se porte immédiatement sur « product catalog » (catalogue de produits) et « currency service » (service de gestion des devises). Ce ne sont que des informations. Le classement aide, mais regardons-nous le vrai problème ?
CONNAISSANCES
Ce deuxième graphique injecte des connaissances, en particulier le contexte historique. Nous voyons maintenant l’évolution des coûts depuis la semaine dernière. Le service « adservice » a connu la plus forte augmentation, ce qui déplace notre attention.
Nous avons également ajouté des données récapitulatives (« Trois services sont plus coûteux ») afin que le lecteur n’ait pas à compter. Nous avons défini ce que signifient « plus » et « moins » coûteux, en intégrant nos connaissances directement dans le widget et en réduisant la charge cognitive du lecteur.
Mais nous pouvons aller encore plus loin dans l’entonnoir…
DISCERNEMENT
Ce widget final applique le discernement : notre compréhension des objectifs de l’entreprise. Les services fluctuent, mais nous voyons maintenant les coûts par rapport à notre budget. Le service « store-frontend » dépasse largement la cible, et deux autres nécessitent une attention particulière.
Nous avons résumé l’action (« 1 service est critique et nécessite une action ») et, surtout, traduit le risque en termes compréhensibles pour l’entreprise : « Coût total à risque ».
Jetez un coup d’œil à vos propres dashboards, en particulier ceux qui sont partagés en dehors de votre équipe. Comment pouvez-vous appliquer l’entonnoir d’informations pour aller au-delà des données brutes et fournir un savoir clair et exploitable ?
4. Dashboards percutants
Moins, c’est plus. Nos meilleurs conseils pour des dashboards qui favorisent l’action.
Les dashboards sont un moyen courant de partager des informations. New Relic facilite la mise en avant des données de télémétrie et la création de vues attrayantes. Mais il est facile de se laisser emporter et de créer un dashboard « fourre-tout ».
Bien que cela puisse fonctionner pour vous, il est essentiel de prendre en compte la manière dont les parties prenantes externes vont l’utiliser.
À qui ce dashboard est-il destiné ?
Il est crucial de répondre à cette question avant de le construire. Il est incroyablement difficile de créer un dashboard qui convienne à tout le monde.
Identifiez les parties prenantes spécifiques avec lesquelles vous essayez de communiquer et créez un dashboard (ou une page) spécifiquement pour elles.
Cohérence et familiarité
Lorsque vous avez besoin d’informations rapidement, un format familier est essentiel. Il ne faut pas perdre de temps à essayer de comprendre comment le dashboard fonctionne.
Tout comme le dashboard d’une voiture, la cohérence dans la terminologie, les périodes et les termes compréhensibles par l’entreprise permet de comprendre les données plus efficacement.
Envisagez de mettre en œuvre un guide de style pour les dashboards largement consultés. Par exemple, les données importantes se trouvent en haut à gauche. Des ventilations détaillées se trouvent dans un onglet secondaire. Incluez le contact de permanence en haut à droite. Quel que soit le style que vous choisissez, la cohérence aide les gens à agir plus rapidement sur les données.
Opérations ou rapport ?
Les dashboards servent à de nombreuses fins. Un élément distinctif courant est la différence entre les données opérationnelles en temps réel et les rapports de tendances à long terme. Ces deux objectifs fonctionnent rarement bien sur un même dashboard et devraient figurer sur des pages différentes ou sur des dashboards entièrement séparés.
Un dashboard opérationnel se concentre sur ce qui se passe en ce moment. Il doit répondre à la question suivante :
- Sommes-nous en situation critique ?
- La situation s’aggrave-t-elle ou s’améliore-t-elle ?
- Quelle est l’ampleur du problème ?
- Quel est l’impact sur l’entreprise ?
Un dashboard de rapport examine des fenêtres temporelles plus longues, en se concentrant sur les tendances :
- Les performances se sont-elles dégradées au fil du temps ?
- Répondons-nous à nos SLO ?
- Comment les performances d’aujourd’hui se comparent-elles à celle de la semaine dernière ?
Ces deux types de dashboards ont des fenêtres temporelles et des priorités par défaut différentes. Leur gestion séparée vous permet de ne pas induire les lecteurs en erreur.
Est-ce exploitable ?
Bien que les dashboards de vanité puissent être utiles, il est préférable qu’un dashboard offre des informations détaillées exploitables. Lorsque vous ajoutez un widget, demandez-vous : « À quelle question ce graphique répond-il ? »
Par exemple, vous disposez de données sur les taux d’annulation. Vous pouvez répertorier le taux pour chaque restaurant, en répondant à la question : « Quel est le taux d’annulation pour chaque restaurant ? »
Mais une question plus judicieuse et exploitable serait : « Quels restaurants ont un taux d’annulation qui devrait nous inquiéter ? » Comme nous l’avons appris avec l’entonnoir d’informations, ce traitement supplémentaire des données les rend beaucoup plus exploitables.
Cela éclaire-t-il une décision ?
Un graphique individuel peut être exploitable, mais vous avez parfois besoin d’une agrégation de données pour prendre une décision. Un dashboard qui rassemble toutes les informations nécessaires en un seul endroit est très utile.
Par exemple, avant le déploiement d’une nouvelle fonctionnalité, vous devez connaître l’état de vos dépendances. Un dashboard de « préparation au déploiement » pourrait l’afficher en un coup d’œil. Vous pouvez même utiliser l’entonnoir d’informations pour présenter les données de la manière la plus simple possible : tout doit être au vert !
Principe KISS (Keep it Simple, Stupid)
Le principe KISS est très pertinent pour les dashboards. Il est tentant de continuer à ajouter des widgets « utiles », mais ils peuvent simplement troubler tout le monde.
Une bonne règle de base : la complexité du dashboard doit être inversement proportionnelle à son public. S’il vous est uniquement destiné, vous pouvez le rendre aussi chargé que vous voulez. Si toute l’organisation va le consulter, limitez le nombre de widgets au minimum.
Clarté et documentation
« Taux de débordement OMS : 6,8 »... cela a du sens pour vous, mais comment quelqu’un d’autre pourrait-il le comprendre ?
Essayez de convertir cela en des termes compréhensibles pour l’entreprise, comme « commandes non expédiées à temps ». Sinon, fournissez des indications (comme des directives ou un code couleur) pour montrer ce qui est bon ou mauvais. Vous pouvez également utiliser un widget Markdown pour expliquer la métrique, son importance et ce que les différentes valeurs signifient pour l’activité de l’entreprise.
Partager plus largement
Rendre les dashboards accessibles à un public plus large est facile. Certains clients créent un dashboard « index » qui renvoie à leurs dashboards externes. Vous pouvez également partager des données avec des fournisseurs ou des partenaires extérieurs à New Relic grâce à la fonctionnalité de partage du dashboard.
5. Recherche des données dont vous avez besoin
Vous seriez peut-être surpris des informations que vous pouvez tirer des données que vous collectez déjà.
Les données d’observabilité sont riches en informations détaillées. Qu’elles proviennent d’un agent, d’OpenTelemetry ou d’un redirecteur de logs, ces données vous aident à comprendre à la fois les performances du système et le fonctionnement de l’entreprise.
Au quotidien, vous surveillez les métriques du système pour en suivre la santé et la disponibilité. Mais comme nous l’avons vu, ces métriques peuvent être dénuées de sens pour les parties prenantes externes. Nous devons explorer nos données pour en extraire des informations qui ont un sens pour l’entreprise. Avec un peu de créativité, vous pouvez souvent extraire des données utiles au niveau de l’entreprise à partir de la télémétrie que vous collectez déjà.
Explorons certaines de ces sources.
Monitoring des utilisateurs réels (navigateur et mobile)
Nos agents de navigateur et mobiles transmettent des données provenant de vos utilisateurs réels. Les événements tels que PageView et Mobile contiennent une mine d’informations sur la façon dont votre service est utilisé, et par qui. Vous pouvez utiliser ces données pour comprendre la répartition géographique du trafic, compter les utilisateurs uniques, interroger les sessions et bien plus encore.
Par exemple, nous pourrions compter le nombre d’utilisateurs qui naviguent actuellement sur le site en fonction de leur ID de session à l’aide de la fonction uniqueCount() :
FROM PageView select uniqueCount(session) since 10 minutes ago
Transactions APM
Les événements de transaction des agents APM représentent des unités de travail individuelles dans une application. Ils vous permettent d’explorer les appels de base de données, ainsi que le débit et les performances d’activités spécifiques.
Les noms des transactions sont souvent alignés sur leur objectif métier. Vous pourriez, par exemple, compter le nombre de transactions /payment/declined et l’utiliser comme indicateur en temps réel des paiements ayant échoués.
Parfois, l’information est plus enfouie. Par exemple, les identifiants de produit peuvent se trouver dans l’attribut request.uri. Dans ce cas, vous devez extraire ces données. NRQL dispose de fonctions comme aparse() et capture() pour vous aider.
Par exemple, si vos URI ressemblent à celle-ci : /product/detail/hitachi-air-fryer/242234/view, vous pouvez extraire les noms de produits et créer un graphique des plus populaires :
WITH aparse(request.uri,’/product/detail/*/%/%’) as productName
FROM Transaction
SELECT count(*) as productViews
FACET productName
Exploration de vos logs
Les logs d’application ont toujours été une source précieuse de données. Vous y trouverez souvent des informations directement liées aux opérations de l’entreprise.
Vous pouvez également utiliser aparse() et capture() ici. Il est aussi possible d’utiliser l’analyse au moment de l’ingestion pour transformer les logs en données structurées, ce qui les rend beaucoup plus faciles à interroger.
L’analyse automatisée au moment de l’ingestion vous permet de définir la structure de vos logs et d’extraire automatiquement les données. Par exemple, considérez cette ligne de log :
claim submitted: type=insurance riskValue=400000 price=35.99 customerProfile=A457X
La règle d’analyse suivante convertirait cela en un enregistrement structuré :
claim submitted: type=%{WORD:type} riskValue=%{NUMBER:riskValue} price=%{NUMBER:price} customerProfile=%{WORD:customerProfile}
Résultat :
{
"riskValue": "400000",
"price": "35.99",
"customerProfile": "A457X",
"type": "insurance"
}
Vos données de log peuvent également inclure des données encodées en JSON. Dans ce cas, vous pouvez utiliser jParse() pour les extraire davantage au moment de la requête.
Enrichissement de vos données
Bien que vos données de télémétrie contiennent de nombreuses informations, elles ont parfois besoin de plus de contexte métier pour être réellement exploitables. L’enrichissement de vos données peut considérablement améliorer leur valeur.
Vous pouvez enrichir les données au moment de la collecte ou de la requête. Au moment de la collecte, vous pouvez utiliser les SDK d’agent pour ajouter des événements ou des attributs personnalisés. Par exemple, vous pouvez joindre le statut de fidélité d’un utilisateur à son opération de paiement.
Au moment de la requête, vous pouvez utiliser les jointures et recherches. Cela vous permet de combiner différentes données via une clé commune. Par exemple, vous pourriez importer une table de correspondance contenant les données de localisation de vos dépôts, puis la joindre à votre télémétrie sur depotID pour afficher les dépôts sur une carte.
L’observabilité est bien plus qu’un simple outil de dépannage pour les ingénieurs ; c’est la source de vérité ultime pour l’ensemble de l’entreprise, en particulier pendant le chaos de la haute saison. En traduisant les métriques techniques en termes compréhensibles pour l’entreprise, en définissant un contexte clair autour de ce que signifie la « normalité » et en transformant les données brutes en informations exploitables, vous cessez de vous contenter de présenter des données et commencez à générer de l’action. Concevoir des dashboards simples et ciblés et explorer de manière créative les données que vous collectez déjà vous aidera non seulement à réussir pendant la haute saison, mais posera également les bases d’une communication plus claire et plus percutante avec les principaux acteurs, tout au long de l’année.
Prêt à découvrir comment le secteur du retail gère le trafic intense ? Ce guide explique comment transformer le chaos en clarté. Découvrez maintenant la situation actuelle dans l’ensemble de l’industrie du retail.
Découvrez comment vos pairs relèvent les défis liés au trafic intense, où ils investissent leurs ressources d’observabilité et les bénéfices concrets pour l’entreprise qu’ils en retirent.
Lisez le rapport gratuit : État de l’observabilité pour le retail 2025
Lisez le rapport maintenant :
https://newrelic.com/resources/report/state-of-observability-for-retail-2025
Les opinions exprimées sur ce blog sont celles de l'auteur et ne reflètent pas nécessairement celles de New Relic. Toutes les solutions proposées par l'auteur sont spécifiques à l'environnement et ne font pas partie des solutions commerciales ou du support proposés par New Relic. Veuillez nous rejoindre exclusivement sur l'Explorers Hub (discuss.newrelic.com) pour toute question et assistance concernant cet article de blog. Ce blog peut contenir des liens vers du contenu de sites tiers. En fournissant de tels liens, New Relic n'adopte, ne garantit, n'approuve ou n'approuve pas les informations, vues ou produits disponibles sur ces sites.