Le paradoxe du monitoring des infrastructures modernes
L'infrastructure informatique n'a jamais été simple. Mais il fut un temps où tout se trouvait au même endroit.
Aujourd'hui, la réalité est toute autre, et les équipes DevOps et SRE sont confrontées à un réseau éparpillé de systèmes complexes et d'environnements changeants. Et c'est là où le bât blesse : cette infrastructure à la complexité grandissante est plus que jamais un élément essentiel de la réussite de l'entreprise, car les logiciels eux-mêmes sont devenus indispensables à cette réussite.
Plus le monitoring de l'infrastructure est capital, plus il devient complexe et difficile à gérer, et c'est là tout le paradoxe. Ainsi, les temps d'indisponibilité des applications génératrices de CA ou en interface avec le client sont encore plus préjudiciables pour l'entreprise. Mais avec une architecture distribuée et de grosses équipes, il est encore plus difficile de diagnostiquer l'origine des pannes.
Il n'est donc pas étonnant que l'équipe informatique dorme mal la nuit (et pas seulement en raison des alertes à 2 heures du matin).
Il vous faut des temps moyens de résolution (MTTR) plus rapides et une interprétation claire et partagée de ce qui se passe réellement et pourquoi. De cette façon, vous faites de la prévention en toute confiance au lieu de lutter contre les incendies.
La véritable observabilité est cruciale
Dans un environnement moderne, l'accumulation de métriques produites par des outils sans lien entre eux ne suffit pas.
Vous avez besoin de l’observabilité.
Par « observabilité », on entend la collecte, la visualisation, et l'intelligence appliquée proactivement à tous vos événements, métriques, logs et traces afin de comprendre dans sa globalité tout votre système informatique.
Comment y arrivez-vous ? C'est ce que nous verrons dans ce guide. Nous allons examiner les quatre impératifs qui permettent aux équipes DevOps et SRE d'aujourd'hui d'obtenir une véritable observabilité :
- Un monitoring moderne pour des environnements modernes
- Des dashboards et visualisations personnalisés
- Toute la visibilité au même endroit pour tout le stack
- Une évolutivité et une efficacité plus importantes
La véritable observabilité
L'observabilité permet de voir comment les problèmes dans une section de votre stack impactent une autre section pour que vous puissiez passer du stade où seul le problème est visible au stade supérieur où vous comprenez pourquoi il s'est produit.
Lorsque vous savez pourquoi les problèmes se produisent, vous pouvez les résoudre beaucoup plus rapidement et faire en sorte qu'ils ne réapparaissent plus.
Le contexte que vous gagnez grâce à la véritable observabilité vous aide également à faire le lien entre impact de la performance et de l'état de santé de l'infrastructure et expérience client. Vous obtenez ainsi une plus grande clarté sur les résultats commerciaux découlant de logiciels et systèmes sains.
Les effets réels de la véritable observabilité
Votre meilleur atout pour le monitoring et la maintenance de votre infrastructure est la rapidité. Une véritable observabilité agit vite là où vous en avez besoin pour que vous puissiez vous concentrer là où vous le voulez.
L'objectif étant de déployer plus rapidement des logiciels plus résilients, de détecter les problèmes sans délais, d'accélérer le MTTR, et de donner à votre équipe la confiance nécessaire pour qu'au moment du déploiement du code, tout le monde sache exactement quelle sera sa performance en production.
Mais le but est également d'avoir une équipe en bonne santé. En travaillant en amont afin de prévenir les problèmes futurs, vous gagnez en contrôle sur les plannings et vous souffrez moins des changements imprévus et des longues nuits passées à les implémenter. Cela rend votre équipe beaucoup plus satisfaite.
Les trois fonctions critiques d'une véri- table plateforme d'observabilité
- Elle doit être ouverte
La visualisation de toutes les données télémétriques, qu'elle soit instrumentée via des agents ou des sources tierces, élimine les inconnues. - Elle doit relier les silos
Il ne suffit pas de mettre toutes les données au même endroit, encore faut-il comprendre ce qui se passe dans vos logiciels et sur vos systèmes pour pouvoir vite en déduire la signification, mettre le doigt sur les problèmes plus rapidement, et prendre de meilleures décisions. - Elle doit être programmable
Ce n'est pas une plateforme si vous ne pouvez pas la développer. Mais c'est plus que ça ; « programmable » signifie que vous pouvez créer vos propres visualisations et personnaliser les applications qui sont importantes pour votre entreprise.
Nous allons détailler chacun de ces points un peu plus loin...
Impératif n° 1 : Un monitoring moderne pour des environnements modernes
Si vous voulez conserver un avantage concurrentiel avec vos applicatifs, il est important de moderniser votre infrastructure. Cela signifie toutefois que
vous finirez par utiliser différents outils pour faire le monitoring des hôtes, du réseau, des périphériques de stockage, des logs, etc.
Tout cela empêche la visibilité de bout en bout et résulte en :
- Une télémétrie inégale et incomplète
- Une faible résolution des données, ce qui se traduit par des pics indétectables et des problèmes qui ne peuvent être gérés que trop tard
- Un manque de visibilité sur les applications prête à l'emploi, les applications SaaS dont elles sont responsables, et même les applications personnalisées sans solution APM
- Des problèmes impactant les utilisateurs avant que vous ne les remarquiez
- Un manque de corrélation entre état de santé et performance des divers composants de l'infrastructure et des applicatifs
- Aucune visibilité sur les changements de configuration imprévus ou incorrects, qui entraînent des problèmes de performance
Et le pire, c'est que de nombreux outils de monitoring tournent
sur le site, ce qui signifie qu'ils exigent des ressources et des compétences supplémentaires qui doivent être correctement gérées.
Résultat : l'identification et le dépannage des problèmes sont lents et lourds, et prennent donc plus longtemps à résoudre. À cela s'ajoute le manque de données détaillées qui empêche l'identification des causes profondes, et entraîne la récurrence des problèmes et la fatigue de votre équipe.
Au bout du compte, l'impact sur l'expérience client est énorme.
Exemple concret : les conteneurs changent tout
Imaginez que vous gériez l'infrastructure d'une entreprise qui compte sur un énorme afflux de données des appareils IoT (Internet des objets). Ces données sont essentielles à la réussite de l'entreprise et à l'expérience client.
En plus de tout cela : une croissance rapide grâce aux acquisitions. Ces dernières se traduisent par un système qui traite non seulement un plus grand flux de données, mais qui est également éparpillé sur toute une architecture cloud complexe.
Vous êtes alerté quand une application a ralenti. Et c'est tout. Une simple alerte.
Mais est-ce une erreur de code dans l'application qui ne tourne pas efficacement ? Est-ce un problème de flux de données ? Auquel cas, allez-vous vérifier chaque périphérique un par un ? Est-ce un problème de ressources dans l'infrastructure qui doit être pris en compte pour éviter de graves problèmes plus tard ?
Cet exemple est basé sur un vrai problème auquel a dû faire face une entreprise qui évoluait très rapidement. Lisez le résumé de l'étude de cas sur la droite.
Fleet Complete utilise New Relic pour assurer le mouvement des données
Fleet Complete est une entreprise de télématique qui utilise des périphériques IoT pour collecter des données GPS, sur l'état des véhicules, etc. afin d'obtenir les informations importantes nécessaires pour que la flotte de véhicules commerciaux clients soit toujours en mouvement et pour piloter sa plateforme de véhicules connectés.
L'entreprise avait besoin d'un environnement qui pouvait évoluer de manière drastique afin de gérer les nouvelles acquisitions et un plus grand flux de données.
La solution était cloud AWS, ce qui a posé de nouveaux défi. Heureusement, New Relic est arrivée. En 12 mois, 60 % de la migration cloud de Fleet Complete était réalisée, son cycle de publication de logiciels était trois mois plus court, et l'entreprise bénéficiait d'une visibilité intégrale sur son pipeline d'ingestion des données cruciales.
Pour observer les environnements modernes, vous voulez évaluer l'état de santé des éléments d'un cluster ; vérifier le statut, les métriques et les logs d'un conteneur particulier ; et voir les événements Kubernetes spécifiques qui ont impacté le conteneur. Vous voulez également voir les métriques et traces de l'application pour un service qui tourne dans ce conteneur.
Si vous alignez vos outils de monitoring sur le défi présenté par une infrastructure cloud distribuée, vous obtenez de meilleures informations sur la performance des applications distribuées, et évidemment, une meilleure vue globale de votre stack.
Avec une plateforme d'observabilité développée pour traiter la conteneurisation et les environnements Kubernetes, vous pouvez déployer plus rapidement les modifications, corrections et mises à niveau.
Tout cela permet d'obtenir des systèmes plus résilients et de réduire les temps d'indisponibilité. Et quand on passe moins de temps à être réactif, on en a plus pour préparer l'évolution de ses systèmes, ce qui permet d'adopter l'automatisation et de créer des outils en self-service, et pour les équipes IT, de développer et déployer des applicatifs plus rapidement et plus souvent.
Impératif n° 2 : Des dashboards et visualisations personnalisés
Vos systèmes métier, logiciels et infrastructure ne sont pas, et ne seront jamais, exactement pareils que ceux des autres. Chacun d'entre eux est essentiel aux objectifs spécifiques de votre entreprise. En outre, le déploiement de ces logiciels et l'utilisation de votre infrastructure sont uniques à vos équipes opérationnelles.
C'est la raison pour laquelle les solutions de monitoring modernes fournissent des expériences prêtes à l'emploi qui sont personnalisées pour faire remonter à la surface des données télémétriques et des informations clés. Toutefois, la véritable observabilité va encore plus loin. Vos équipes doivent pouvoir développer des visualisations et des applications qui font remonter à la surface les données et les informations importantes pour leur travail et pour l'entreprise.
Avec des dashboards et des visualisations personnalisables, vous pouvez choisir de réaliser le monitoring des éléments de votre stack les mieux adaptés aux résultats commerciaux escomptés. Et quand ces objectifs changent, vos dashboards peuvent évoluer avec eux.
Un détaillant qui compte sur ces centres d'approvisionnement et de distribution dans tout le pays a besoin de pouvoir synthétiser l'état de santé de l'entreprise en fonction de KPI de distribution précis. Il dispose de données qui proviennent de plusieurs comptes émanant de nombreux centres. Les cadres supérieurs de l'entreprise n'ont pas besoin de toutes les voir, ni même de toutes les comprendre. Par contre, ils doivent être capables de constater la performance.
Grâce au dashboard personnalisable, ils peuvent créer une vue qui leur permet de voir les incidents qui se produisent dans des centres spécifiques pour certaines fonctions commerciales. Dans notre exemple, la meilleure vue serait une grille permettant de référencer les centres et les fonctions. En un simple clic, les cadres pourraient ainsi plonger dans des fonctions spécifiques à un centre et obtenir une liste des incidents.
Au cœur de la véritable observabilité se trouvent des informations personnalisées pour des résultats commerciaux particuliers. La manière dont vous élaborez votre monitoring pour vos besoins spécifiques vous permet de contribuer proactivement à vos objectifs métier.
Il est plus facile de trouver et de résoudre les problèmes quand on peut personnaliser ses données télémétriques à des cas d'utilisation qui sont importants pour son activité.
Ce pilier impacte toute l'entreprise, parce qu'il vous permet d'ajuster le monitoring en fonction de vos objectifs. En d'autres termes, vous pouvez planifier les besoins futurs de vos clients et garder une longueur d'avance sur vos concurrents.
Vous bénéficiez également de solutions sur mesure, sans implémentation coûteuse par une équipe externe.
Démarrez avec des solutions personnalisées open source
Les applications open source vous permettent de personnaliser des solutions existantes ou d'utiliser des portions de code pour développer vos propres applications qui répondent à vos besoins spécifiques. Voici trois exemples d'applications que nous avons développées pour la plateforme New Relic One.
Luttez contre le surplus de ressources en comparant la taille des instances à leur utilisation, et estimez les économies que vous feriez avec l'optimisation des ressources. Sélectionnez des hôtes, régions et autres configurations pour spécifier vos propres cas d'utilisation métier. Cloud Optimise prend en charge AWS, Azure et GCP.
Optimisez la performance des pages Web avec Browser Analyzer, qui affiche une analyse de la performance et prédit les améliorations qui peuvent impacter les KPI, comme le taux d'abandon ou le trafic. Vous pouvez identifier les pages qui ont les pires performances et cibler les corrections qui auront des retombées considérables.
Créez un entonnoir interactif pour pouvoir personnaliser les étapes qui appartiennent au workflow de vos clients. Visualisez les données standard de chaque étape, telles que les vues d'une page, le taux et le nombre d'erreurs, et obtenez des métriques plus détaillées en un clic.
Impératif n° 3 : Une visibilité uniformisée de bout en bout
Les architectures de microservices modernes fournissent des abstractions qui floutent la distinction entre infrastructure et applications.
Si cela simplifie le déploiement, cela complexifie par contre le monitoring. Vos outils doivent vous apporter une visibilité uniformisée de bout en bout sur tout votre parc et tout votre stack.
Le temps passé à naviguer entre les divers outils qui font le monitoring de différentes sections de votre stack est du temps perdu. Cela crée des silos de données qui augmentent la charge de travail et les inconnues. L'interprétation des métriques de performance à partir d'outils multiples peut également entraîner des erreurs humaines. Quand ces métriques se retrouvent toutes au même endroit, la possibilité d'erreur s'en trouve réduite et vous pouvez ainsi agir rapidement et sans hésitation.
La consolidation des outils place toutes les performances de l'infrastructure et des applications, l'expérience client, et les données de logs au même endroit, ce qui vous permet ainsi de détecter, diagnostiquer et résoudre les problèmes plus rapidement.
Imaginez que vous ayez accompli 90 % du diagnostic d'un problème d'application, mais que les derniers 10 % se trouvent dans un log quelque part et qu'il vous faille changer d'outil pour le trouver et le résoudre. Vous perdez de précieuses secondes que vous n'avez pas, et ce, à chaque fois que vous devez changer de contexte.
Ou considérez que l'état de santé des services sur lesquels vous comptez est tout aussi important que l'état de santé de votre propre système. Si chaque service possède sa propre page d'état, mais que pour la voir, vous devez consulter 14 pages différentes, et si la plupart de ces pages publient leurs API, pourquoi ne pourriez- vous pas avoir une vue consolidée et unique de leur état ?
Si vous exploitez une combinaison d'outils de monitoring legacy et DIY, vous perdez la vue globale sur l'état de santé de votre système. Ce problème est également amplifié par des équipes qui travaillent en silos avec des données compartimentées. Ce poids supplémentaire pèse sur les épaules de l'équipe IT et rend difficile l'affectation des ressources.
Le fait de voir votre système sur un seul écran intégré élimine les inconnues et révèle toute la topographie : de l'état de santé de l'infrastructure à l'expérience client. Une accélération du MTTR se traduit par des temps d'indisponibilité moindres, une perte de revenu plus faible et une rentabilité accrue. Et bien entendu, la vue consolidée et l'outil unique engendrent une meilleure allocation des ressources.
Impératif n° 4 : Une évolutivité et une efficacité plus importantes
L'infrastructure doit pouvoir évoluer. Et ce faisant, vos outils de monitoring doivent également être évolutifs.
Mais il faut du temps pour transformer les outils de monitoring autohébergés classiques, assurer leur maintenance et les mettre à niveau au fur et à mesure que vous grandissez.
Une solution moderne de monitoring de l'infrastructure, assurée en tant que SaaS, devrait être invisible. Au lieu de vous compliquer la tâche, elle doit vous permettre de facilement visualiser la réalité d'un environnement qui ne cesse de se complexifier.
En outre, une approche moderne de l'observabilité doit incorporer AIOps et des fonctions d'intelligence permettant une réponse plus rapide aux incidents.
Cela vous donne la capacité de détecter les anomalies de manière proactive et de corréler automatiquement les incidents afin de réduire les alertes inutiles. Les métadonnées et l'enrichissement vous permettent de diagnostiquer les incidents et d'en trouver la cause profonde plus rapidement. Vous pouvez ainsi prendre immédiatement des mesures pour remédier à la situation.
Cela signifie que vous pouvez recevoir une notification en cas de problème avant même que les clients ne le remarquent et que vous pouvez le diagnostiquer plus efficacement. Des alertes plus intelligentes envoient d'abord la notification aux équipes les mieux armées pour résoudre le problème.
Résultat : un plus grand focus sur l'expérience client, les tâches essentielles et la prévention en amont des incidents. Votre équipe peut ainsi se concentrer sur son vrai travail : mettre sur le marché de nouveaux produits, logiciels et fonctionnalités plus rapidement.
Une approche moderne du monitoring de l'infrastructure vous permet de passer moins de temps à la maintenance du monitoring et plus au développement et à l'optimisation de votre infrastructure.
Comment arriver à une véritable observabilité
L'observabilité, c'est faciliter le travail de gestion de l'infrastructure IT alors qu'elle devient de plus en plus complexe. La véritable observabilité se distingue du monitoring classique par le fait que vous pouvez observer où se trouve un problème, pourquoi il se produit, comment le gérer, et en quoi il impacte le reste de l'infrastructure.
Il s'agit également de la différence entre quelques secondes et plusieurs minutes, entre une évolutivité orientée vers l'avenir et la lutte contre les problèmes d'aujourd'hui.
Un stack observable est un stack adaptable
Si l'observabilité est importante à la gestion efficace de l'infrastructure, il est également important de ne pas oublier ce que tout ce que cela signifie. L'observabilité n'est pas une fin en soi.
Son but est de permettre, à vous et à l'équipe Infrastructure, de comprendre rapidement ce dont les composants système ont besoin pour s'adapter et comment ils y arrivent. Dans certains cas, il peut s'agir de prévenir les temps d'indisponibilité. Dans d'autres, il peut falloir provisionner une quantité adéquate de ressources. Dans d'autres circonstances encore, il peut être nécessaire d'accueillir une innovation.
Au bout du compte, Le seul aspect qui est certain dans la gestion d'une infrastructure moderne, c'est qu'il y aura des changements, et que ces changements auront un effet domino sur une zone à surfacer de plus en plus complexe.
Les équipes qui ont l'impact le plus positif sur l'activité seront celles qui peuvent naviguer la houle des changements et s'adapter en fonction des besoins de l'entreprise.
Les équipes qui savent précisément ce avec quoi elles travaillent.
Si votre équipe se reconnaît ici, parlons-en
New Relic est une plateforme open source, connectée et programmable qui vous donne une observabilité intégrale et contextuelle sur l’ensemble de votre stack technologique. Elle vous apporte une vue consolidée de toutes vos données, depuis le navigateur et les appareils mobiles de vos clients jusqu’à vos applications et votre infrastructure, quel que soit leur environnement d’exécution. Elle réduit les zones d’ombre, fournit du contexte et vous propose des informations précises sur les limites organisationnelles artificielles, afin de vous aider à détecter et résoudre rapidement les problèmes.
Découvrez comment nous pouvons vous aider à maintenir la disponibilité de vos systèmes.
L'infrastructure informatique n'a jamais été simple. Mais il fut un temps où tout se trouvait au même endroit.
Aujourd'hui, la réalité est toute autre, et les équipes DevOps et SRE sont confrontées à un réseau éparpillé de systèmes complexes et d'environnements changeants. Et c'est là où le bât blesse : cette infrastructure à la complexité grandissante est plus que jamais un élément essentiel de la réussite de l'entreprise, car les logiciels eux-mêmes sont devenus indispensables à cette réussite.