Chaque organisation gère ses budgets, suit ses progrès et travaille d'arrache-pied pour assurer la réussite de ses produits. Mais il existe un important gouffre financier, souvent invisible, qui détourne chaque jour des fonds des budgets d'ingénierie. J'appelle ce gouffre dissimulé « la taxe invisible ». Elle est soulevée non par l'administration, mais par les systèmes numériques développés et exploités par les entreprises et plus particulièrement par les éléments difficiles à voir ou à comprendre dans les systèmes non observés.

Un système non observé n'a pas les données exploitables riches qu'ont les logs détaillés, les métriques granulaires et les traces exhaustives. Sans cette télémétrie essentielle, les ingénieurs naviguent à l'aveuglette lorsque des problèmes se produisent et sont obligés de deviner ou d'ajouter manuellement du logging temporaire. C'est dans ces angles morts que la taxe invisible prospère et érode l'efficacité et la profitabilité.

Il est essentiel de faire la différence entre le monitoring classique et l'observabilité moderne. Le monitoring vous indique si quelque chose ne va pas (par exemple : « Serveur en panne »). Par contre, l'observabilité vous aide à comprendre pourquoi quelque chose ne va pas (par exemple « Quelle API a provoqué ceci ? ») en vous fournissant des outils de diagnostic pour savoir quelles sont les causes profondes par le biais d'une collecte et d'une analyse continues des logs, métriques et traces. L'observabilité est un impératif commercial stratégique qui transforme les dépenses opérationnelles en investissement stratégique libérant des ressources pour l'innovation.

Le coût dissimulé de la navigation à l'aveuglette

Le coût élevé des heures d'ingénierie gaspillées Lorsque les développeurs ne peuvent pas voir pourquoi un système est en panne, ils passent moins de temps à innover et plus à essayer de deviner ce qui se passe. Cela est non seulement inefficace, mais c'est aussi un gouffre immense qui dévore vos ressources les plus précieuses.

L'absence d'une visibilité complète sur les systèmes numériques impose une taxe énorme qui a des impacts directs sur les budgets et les objectifs fixés au niveau des produits.

Le gouffre financier le plus coûteux

Les développeurs passent environ 50 % de leur temps à faire du débogage. Pour une entreprise moyenne, cette inefficacité contribue à une crise de plusieurs millions de dollars par an. Des études montrent que les développeurs peuvent perdre environ 23 minutes de concentration après chaque interruption et la fragmentation des outils peut dévorer 2,5 heures supplémentaires par jour par développeur. Le fardeau financier du dépannage des défauts de logiciels augmente considérablement s'ils sont détectés plus tard : la résolution d'un bug est 100 fois plus chère en production qu'en phase de conception. Et tout cela détourne les immenses compétences d'innovation des développeurs qui doivent plutôt réagir constamment aux urgences.

L'escalade du coût de débogage Plus un bug est trouvé tard, plus il coûte cher à corriger. Un manque d'observabilité signifie que les bugs survivent plus longtemps, ce qui entraîne la multiplication exponentielle de leur impact financier. Un bug trouvé en production coûte 100 fois plus cher qu'un bug trouvé en phase de conception et 6,6 fois plus qu'un bug trouvé lors des tests.

Le coût élevé des temps d’arrêt

Le coût sidérant des temps d’arrêt Chaque minute de temps d'arrêt érode les revenus, endommage la réputation de la marque et frustre les clients. Les systèmes non observés entraînent un temps moyen de résolution des incidents (MTTR) plus lent, ce qui rend les pannes plus douloureuses.

Lorsque les systèmes de production échouent, chaque minute d'arrêt a d'importantes répercussions non seulement financières, mais aussi sur la réputation de la marque. Les systèmes non observés rallongent considérablement le MTTR et causent l'augmentation des abandons des utilisateurs, d'importantes pertes de revenus et la détérioration de la réputation de la marque.  

Le coût moyen des temps d'arrêt a augmenté et est passé à environ 9 000 USD par minute. Pour les plus grandes entreprises, cela peut même dépasser 16 000 USD par minute soit un million d'USD par heure.

Exemples de pannes majeures

  • Delta (juillet 2024) : la compagnie aérienne a perdu près de 350 millions d'USD en raison de la mise à jour du logiciel Crowdstrike.
  • Amazon Prime Day (2018) : des problèmes techniques en raison d'un fort trafic ont empêché de nombreux clients de terminer leurs achats. Résultat : une perte de ventes atteignant jusqu'à 1,2 million d'USD par minute pour Amazon.
  • T-Mobile (2020) : une panne à l'échelle des États-Unis qui a duré 12 heures et a touché des millions de personnes a été attribuée à un échec de l'équipement, à une mauvaise configuration du réseau et à un défaut latent du logiciel. T-Mobile a clos l'enquête menée par l'administration américaine contre 19,5 millions d'USD après que la panne a entraîné l'échec de plus de 20 000 appels au système des urgences américain (911).

Des investissements imprudents et des occasions manquées

Des données médiocres et des décisions encore pires La qualité des décisions prises dépend de la qualité des données sur lesquelles elles se basent. Les systèmes non observés produisent des données de qualité médiocre, ce qui entraîne des stratégies malavisées et des occasions manquées qui coûtent des millions d'USD.

Les dirigeants Produits comptent sur des données précises pour prendre des décisions stratégiques. Toutefois, avec les systèmes non observés, ils naviguent à l'aveuglette et ne peuvent pas vraiment comprendre les performances d'une fonctionnalité ou la latence de l'expérience utilisateur. Ils risquent ainsi de placer leurs investissements au mauvais endroit ou d'être pris au dépourvu.  

La médiocrité de la qualité des données — ou « temps d'arrêt des données » — est un problème répandu et coûteux. Gartner estime le coût annuel moyen pour les organisations à 12,9 millions et d'autres estimations atteignent une moyenne de 15 millions par an. L'impact cumulatif sur toute l'économie américaine atteint environ 3,1 milliards d'USD annuellement. La règle du 1x10x100 illustre l'escalade de ce coût : la résolution d'un problème de qualité des données à son point d'entrée coûte 1x, mais si elle atteint l'utilisateur final ou l'étape de la prise de décision, les coûts peuvent exploser jusqu'à 100x en raison des importantes conséquences commerciales.

Une innovation différée est une innovation refusée

Une innovation différée est une innovation refusée

Pour une équipe d'ingénierie, chaque cycle passé à réagir pour résoudre des problèmes évitables est un cycle qui n'est pas passé à développer le prochain projet à succès ou à pousser l'innovation.

La dette technique, qui provient souvent de systèmes non observés et de réparations vite faites, consomme une part disproportionnée des budgets TI. Une étude réalisée par McKinsey a révélé qu'environ 40 % du budget d'un service TI est entièrement perdu dans la maintenance et les retombées de la dette technique et qu'en outre, 10 à 20 % des budgets TI attribués au développement de nouveaux produits sont redirigés pour gérer la dette technique. Près de 70 % des organisations perçoivent la dette technique comme ayant un fort impact sur leurs capacités à innover. Cette diversion des fonds de l'innovation vers la maintenance est un problème stratégique critique.

La valeur de l'observabilité

Les organisations ne sont pas obligées à continuer à payer la taxe invisible. En investissant stratégiquement dans l'observabilité, les entreprises peuvent transformer un fardeau en un moteur puissant de rapidité, d'innovation et de croissance soutenue.

L'accélération des livraisons et la réduction des coûts

Les investissements directs en observabilité se traduisent par un débogage plus rapide, la libération du temps des ingénieurs pour les priorités sur leur feuille de route et l'accélération de la livraison des produits. Ils permettent également une résolution plus rapide des incidents en réduisant drastiquement le temps moyen de résolution (MTTR), ce qui minimise les impacts négatifs sur les utilisateurs et sur l'entreprise. Les organisations qui réussissent à avoir des données télémétriques unifiées et uniformisées obtiennent des temps moyens de détection (MTTD) et de résolution (MTTR) plus rapides, ce qui réduit le nombre de pannes à fort impact sur l'entreprise. De nombreuses entreprises (64 %), qui adoptent des outils d'observabilité, indiquent des améliorations du MTTR de 25 % ou plus.  

Les fonctionnalités New Relic pour accélérer la livraison et réduire les coûts

  • Intelligence des réponses : la page Issues intégrée à l'IA fournit des insights en temps réel, consolide les détails sur les incidents, montre les éléments impactés, associe des postmortems antérieurs et identifie les causes potentielles par le biais d'une analyse causale afin de réduire le MTTR.
  • Transaction360 : regroupe et corrèle automatiquement les services pertinents, la télémétrie, les alertes et les outils de suivi des changements pour chaque transaction dans une vue unique et contextuelle, ce qui accélère l'analyse des causes profondes et permet une détection proactive des problèmes.

La dynamisation de la croissance data-driven

L'observabilité permet de prendre des décisions réellement data-driven sur les produits et va au‑delà des estimations subjectives. Elle fournit des insights précis sur l'utilisation des fonctionnalités, sur les performances pour différentes cohortes d'utilisateurs et sur l'impact réel des tests A/B. Elle contribue également à l'efficacité des affectations de ressources en apportant la visibilité sur la charge des services et en identifiant les ressources sous-utilisées, ce qui aide à la prévention d'un surprovisionnement coûteux.

Les fonctionnalités New Relic pour une croissance data-driven et l'optimisation des ressources

  • Intelligence Coûts du cloud : elle offre une visibilité complète en temps réel sur les coûts du cloud Amazon Web Services et des ressources Kubernetes tout en dévoilant des insights sur les tendances et les moteurs de coûts afin de permettre une prise de décision éclairée et l'optimisation drastique des coûts.
  • Monitoring d'infrastructure : il fournit des insights en temps réel sur l'utilisation des ressources (CPU, réseau, stockage) dans le cloud et sur ou hors site, pour soutenir des méthodologies de planification des capacités efficaces et empêcher un surprovisionnement coûteux.

L'amélioration de l'expérience et de la rétention des développeurs

Les développeurs passent souvent de longues heures sur des tâches répétitives et ennuyeuses qui les détournent d'un travail plus important et intéressant, et qui peuvent entraîner le burnout. La qualité médiocre des logiciels et des systèmes non observés contribue à une productivité et une satisfaction professionnelle moindres chez les développeurs. En rationalisant le débogage et en fournissant des insights clairs, l'observabilité gère directement ces points sensibles, ce qui encourage un environnement de travail plus positif et productif, améliore les sorties, regonfle le moral et réduit la rotation coûteuse du personnel.

Les fonctionnalités New Relic pour une expérience et une productivité améliorées

  • Intelligence architecture de services : consolide les connaissances sur les paysages numériques dans des catalogues, scorecards, équipes et plans, et améliore ainsi directement la productivité des développeurs en éliminant les silos de connaissances, en accélérant la collaboration et en fournissant des connaissances claires sur l'architecture.
  • APM : il simplifie le monitoring des performances pour les workloads Kubernetes grâce à l'instrumentation sans code et fournit une visibilité instantanée et un débogage en temps réel avec l'échantillonnage intelligent du span.

Ne payez plus la taxe, investissez dans la rapidité

La taxe invisible prélevée par les systèmes non observés représente un gouffre tangible et important pour le budget en ingénierie d'une organisation et la santé financière globale de l'entreprise. Ce coût dissimulé se manifeste en termes d'heures d'ingénierie gaspillées, de temps d'arrêt coûteux dus à une réponse lente aux incidents, de décisions malavisées prises pour les produits en raison de la qualité médiocre des données, du coût généralisé des occasions manquées qui retardent l'innovation et d'une plus grande exposition aux risques catastrophiques.

Pour réellement arrêter de payer la taxe invisible et commencer à investir en rapidité, les leaders produits doivent prendre des mesures décisives :

  1. Développer un partenariat actif avec l'ingénierie : engagez des conversations sur l'observabilité en le formulant comme un moteur de réussite des produits.
  2. Soutenir les investissements : préconisez l'observabilité en tant qu'investissement stratégique en soulignant les retours tangibles comme le temps de débogage gagné et la réduction des coûts de panne.
  3. Prioriser l'observabilité lors de la planification : intégrez l'instrumentation comme exigence essentielle des nouvelles fonctionnalités en demandant comment les performances seront monitorées et les problèmes résolus.
  4. Mettre un accent stratégique sur les chemins critiques : priorisez les efforts d'observabilité sur les joyaux de l'entreprise — les principaux flux utilisateur, les services générant des revenus, ou les systèmes provoquant fréquemment des problèmes.
  5. Mesurer l'impact : définissez des métriques de réussite claires, telles que l'amélioration du MTTR ou les heures développeur passées au débogage, afin de démontrer le RSI et de justifier un investissement continu.

En embrassant ces recommandations et en utilisant une plateforme d'observabilité complète comme New Relic, les organisations peuvent transformer les défis opérationnels en avantages stratégiques. La taxe invisible peut être éliminée et libérer ainsi des ressources précieuses pour stimuler l'innovation, accélérer la livraison des produits et assurer un avantage compétitif dans le domaine de l'économie numérique.

New Relic Now Nouvelles capacités annoncées lors de notre événement en ligne
S'inscrire