À mesure que les environnements informatiques modernes deviennent de plus en plus complexes, il est plus difficile que jamais de maintenir les performances et la fiabilité des systèmes. Les outils de monitoring classiques, bien qu'efficaces dans des contextes plus simples, ne parviennent souvent pas à fournir les informations détaillées nécessaires à la gestion des systèmes distribués et optimisés par l'IA d'aujourd'hui. C’est là que l’observabilité entre en jeu : elle offre une approche plus exhaustive pour comprendre le comportement du système et améliorer ses performances.

À la base, l'observabilité consiste à obtenir des informations détaillées à partir des données télémétriques — métriques, événements, logs, et traces (MELT) — générées par les applications et l'infrastructure. Cependant, à mesure que le volume et la complexité de ces données augmentent, l’analyse manuelle devient impossible. L’IA elle-même devient un outil clé qui transforme la manière dont les organisations abordent l'observabilité en améliorant le monitoring des systèmes, en prédisant les problèmes potentiels et en optimisant les performances. Maintenant arrivée au stade suivant de son évolution, avec l'IA en son cœur, l’observabilité intelligente vous permet de comprendre et de gérer de manière proactive votre environnement informatique complexe. 

Bien comprendre l'observabilité dans les systèmes optimisés par l'IA

L'observabilité fournit une vue détaillée de l'état de santé et des performances de votre système. Il s'agit de collecter et d'analyser des données télémétriques, telles que MELT, pour comprendre non seulement ce qui se passe dans un système, mais aussi pourquoi. Ce niveau d'informations détaillées plus approfondi est essentiel pour identifier et résoudre les problèmes en temps réel, et garantit ainsi que les systèmes fonctionnent de manière optimale dans différentes conditions. 

Les systèmes stimulés par l’IA introduisent des couches supplémentaires de complexité en matière d’observabilité. Ces systèmes impliquent souvent des pipelines de données complexes, des processus de formation et d’inférence de modèles et une mise à l’échelle dynamique basée sur des données en temps réel. Dans ce contexte, l’observabilité doit aller au-delà des données MELT traditionnelles et inclure les comportements et caractéristiques de performances spécifiques des composants de l’IA. Par exemple, le monitoring des performances d’un modèle d’apprentissage automatique en production nécessite le suivi de métriques telles que la latence d’inférence, la précision du modèle et l’utilisation des ressources au cours de l’inférence. Les logs peuvent inclure des détails sur les entrées de données, le contrôle des versions du modèle et toutes les exceptions rencontrées pendant le processus d'inférence. Les traces peuvent être cruciales pour bien comprendre comment les données traversent différentes étapes de prétraitement avant d'atteindre le modèle, ainsi que comment les services en aval consomment la sortie du modèle. Toutefois, les équipes doivent également être vigilantes face à des problèmes potentiels tels que la dérive de modèle (model drift), où la précision d'un modèle se dégrade au fil du temps en raison de la modification des données d'entrée et des performances des pipelines de données qui alimentent ces modèles. Le monitoring continu de la précision du modèle et de l’efficacité de ces pipelines garantit que les systèmes d’IA restent fiables et performants, ce qui permet aux équipes de prendre des mesures proactives lorsque des problèmes surviennent. 

Des outils comme New Relic jouent un rôle clé pour relever ces défis en fournissant des fonctionnalités d'observabilité avancées qui aident à détecter et à répondre à des problèmes tels que la dérive de modèle (model drift) et les inefficacités du pipeline de données. L'image ci-dessous montre la dérive de modèle et la dérive des données du modèle ML dans New Relic.

Observabilité intelligente : comment l'IA révolutionne l'observabilité

Alors que nous traversons une ère dominée par les avancées de l’IA, il est clair que l’IA est non seulement une force motrice derrière les nouveaux systèmes et applications, mais aussi un élément transformateur dans la façon dont nous gérons et monitorons ces systèmes. La complexité des environnements informatiques modernes, en particulier ceux empreints par l'IA, a surpassé les capacités des pratiques d’observabilité classiques. Et l’IA elle-même devient ici la solution, ce qui révolutionne l'approche et la mise en œuvre de l'observabilité, et son utilisation dans le paysage technologique actuel. En intégrant l’IA à la plateforme d’observabilité, celle-ci devient suffisamment intelligente pour garder le rythme avec la complexité numérique toujours croissante.

Détection automatisée des anomalies

L’IA améliore considérablement la capacité à détecter les anomalies en analysant automatiquement de vastes quantités de données télémétriques et en identifiant les déviations qui se distinguent du comportement normal. Sur les systèmes classiques, la détection des anomalies peut impliquer le suivi de métriques telles que l'utilisation du CPU et le déclenchement d'alertes lorsque des seuils prédéfinis sont dépassés. L’IA va encore plus loin en apprenant à quoi ressemble ce qui est « normal » dans un environnement dynamique et en détectant des problèmes subtils qui pourraient être manqués par des seuils statiques. Par exemple, dans une infrastructure cloud, l’IA peut identifier un pic inhabituel de consommation des ressources qui pourrait indiquer un problème d'évolutivité potentielle ou une faille de sécurité, même s’il ne dépasse pas les seuils standard. De même, l’IA peut monitorer le comportement de l'utilisateur dans une application et détecter des changements subtils qui pourraient signaler une dégradation de l'expérience utilisateur avant qu’elle ne devienne perceptible. Cette approche automatisée réduit considérablement le temps moyen de détection (MTTD), permettant des temps de réponse plus rapides et minimisant les temps d’arrêt du système.

Analyse prédictive pour le monitoring préventif

L’IA ne se contente pas de détecter les problèmes actuels ; elle joue également un rôle crucial dans la prédiction des problèmes futurs. L'analyse prédictive, optimisée par ML, peut analyser les tendances des données télémétriques pour prévoir les défaillances potentielles du système ou les goulots d’étranglement des performances avant qu'ils ne se produisent. Par exemple, dans un environnement de serveurs classique, l’IA peut prédire l’épuisement potentiel de l’espace disque en fonction des tendances d’utilisation actuelles, ce qui permet aux équipes de résoudre le problème avant qu’il n’entraîne un temps d’arrêt. Dans les systèmes optimisés par l’IA, les analyses prédictives peuvent prévoir quand un modèle ML devra être recyclé en fonction des changements dans le schéma des données ou de la prévision de congestion du réseau pendant les périodes de pointe d’utilisation. En anticipant ces problèmes, les équipes peuvent prendre des mesures préventives, telles que l'évolutivité des ressources ou l’ajustement des configurations afin de garantir les performances et la fiabilité continues du système.

Analyse des causes profondes

Lorsque des problèmes surviennent, le processus nécessaire pour déterminer leur cause profonde peut être long et complexe, notamment dans les systèmes distribués avec de nombreux composants interdépendants. Imaginez une application de commerce électronique traversant une dégradation de ses performances lors d'un événement de soldes. Plusieurs alertes sont déclenchées sur différents services : l'application web affiche une latence accrue, la base de données signale des temps de requête élevés et les logs de la passerelle de paiements enregistrent de nombreux délais. Dans les environnements classiques, les ingénieurs examinent manuellement les logs, les métriques et les traces de chaque service pour identifier le problème, ce qui peut prendre du temps et être une source d'erreurs.

Les outils d’observabilité intelligents améliorent ce processus en utilisant des techniques de corrélation de données basées sur l’IA qui analysent et corrèlent automatiquement les données provenant de plusieurs sources, ce qui contribue à faire apparaître les causes profondes les plus probables. Par exemple, le pic de latence peut être corrélé à un déploiement récent qui a modifié les modèles de requête de base de données et entraîner ainsi une augmentation de la charge et des délais d'attente. En reliant automatiquement les alertes associées et en identifiant les changements importants de comportement du système, les outils d'observabilité peuvent réduire le délai moyen de résolution (MTTR) en identifiant rapidement la cause profonde, qu'elle soit liée à l'infrastructure, à la logique d'application ou aux dépendances externes. 

Corrélation des alertes et réduction du bruit

Dans les environnements informatiques complexes, un seul problème peut déclencher plusieurs alertes sur différents composants et causer une certaine « fatigue due aux alertes » au cours de laquelle les signaux critiques sont ensevelis sous un déluge de notifications. Considérez un scénario dans une application basée sur des microservices lors d’un trafic de pointe. Plusieurs alertes commencent à se déclencher sur différents services : utilisation anormale du CPU, consommation élevée de mémoire et taux d’erreur accrus dans la base de données. Prises séparément, chacune de ces alertes peut indiquer un problème potentiel, mais lorsqu’elles se produisent simultanément, elles sont souvent les symptômes d’un problème sous-jacent unique, comme un goulot d’étranglement de la base de données causé par une augmentation soudaine des demandes.

En utilisant des techniques de corrélation d’alertes, ces alertes individuelles peuvent être regroupées en un seul incident et refléter ainsi le problème plus large plutôt que de traiter chaque symptôme comme un problème isolé. Les pratiques d’observabilité modernes peuvent améliorer ce processus en corrélant automatiquement les alertes en fonction de modèles dans les données, tels que les composants d’infrastructure partagés, le timing ou des messages d’erreur similaires. Cette approche réduit non seulement le bruit des alertes, mais fournit également une vue plus cohérente de ce qui se passe dans le système, réduisant ainsi le MTTR.

L'image ci-dessous montre les incidents de défaillance monitorés qui sont corrélés avec plusieurs emplacements dans New Relic :

Événement virtuel
New Relic Now_blog promo_1200x630.png
Découvrez l'observabilité intelligente
Inscrivez-vous Inscrivez-vous

Exploitation des fonctionnalités de New Relic AI pour une observabilité avancée

Alors que l’IA continue de transformer l’observabilité, New Relic a intégré plusieurs fonctionnalités avancées optimisées par l’IA sur sa plateforme afin d'aider les organisations à mieux gérer et monitorer leurs systèmes complexes. 

New Relic AI Monitoring

New Relic AI Monitoring est spécialement conçu pour les applications d'IA qui utilisent de grands modèles de langage (LLM) et des modèles avancés similaires. Cet outil offre une observabilité complète de tout le stack d'IA, de l’infrastructure et du traitement des données aux modèles eux-mêmes. Les ingénieurs peuvent monitorer des métriques clés tels que les temps de réponse, l’utilisation des jetons et les taux d’erreur pour les LLM, garantissant ainsi que ces modèles fonctionnent de manière optimale. Par exemple, les ingénieurs peuvent utiliser le monitoring de l'IA pour suivre l’efficacité avec laquelle leurs LLM traitent les demandes, identifient les goulots d’étranglement des performances et gèrent les implications financières de l’utilisation de ces modèles. 

L'image ci-dessous montre la vue complète des traces d'une transaction de chatbot AI dans New Relic.

New Relic AI

New Relic AI est le premier assistant d'IA générative pour l'observabilité conçu pour rendre l'observabilité plus accessible et plus efficace. L’une de ses fonctionnalités particulièrement remarquables est la possibilité de convertir les requêtes de langage courantes en langage de requête New Relic (NRQL). Cela permet aux utilisateurs d’extraire des informations détaillées à partir de leurs données sans avoir à écrire de requêtes complexes, ce qui simplifie le processus d’obtention d’informations détaillées exploitables. Par exemple, un utilisateur pourrait demander à l’IA « d’afficher le temps de réponse moyen des dernières 24 heures », que le système traduirait automatiquement en requête NRQL, et donner les résultats en quelques secondes seulement. Il fournit également des explications rapides sur les erreurs, automatise les contrôles synthétiques pour simuler les interactions de l'utilisateur et propose des recommandations spécifiques au contexte afin d'optimiser les performances. Par exemple, vous pouvez demander à New Relic AI « Tout va bien ? » et vous recevrez un aperçu des problèmes et des explications exploitables pour accélérer le dépannage. De plus, l’IA peut aider à générer des contrôles synthétiques, qui garantissent que votre monitoring est aligné sur le comportement réel de l'utilisateur. Ces fonctionnalités permettent aux équipes de résoudre les problèmes plus rapidement et de gérer leurs systèmes de manière proactive. 

 

La vidéo montre comment vous pouvez utiliser New Relic AI pour obtenir des informations détaillées à partir d'une multitude de données télémétriques en utilisant le langage courant.

Opérations d'apprentissage automatique (MLOps)

Les MLOps dans New Relic se concentrent sur la gestion du cycle de vie des modèles d'apprentissage automatique personnalisés en production. Elles fournissent des outils de monitoring et de diagnostic qui aident à suivre les performances, à détecter la dérive des données et à garantir que les modèles fonctionnent comme prévu dans des conditions réelles. De plus, elles permettent aux équipes de données de collaborer directement avec les équipes DevOps, ce qui crée un processus continu de développement, de test et de monitoring opérationnelle.

Intelligence artificielle pour les opérations informatiques (AIOps) 

Les outils AIOps exploitent ML pour gérer et réduire le bruit des alertes, en corrélant automatiquement les incidents associés pour aider les équipes à se concentrer sur les problèmes les plus importants. Ces outils améliorent la gestion des incidents en priorisant les alertes les plus susceptibles d’indiquer des problèmes importants, ce qui permet aux équipes de réagir plus efficacement et de réduire les temps d’arrêt. Dans les environnements avec des volumes élevés de données télémétriques, AIOps permet de réduire le bruit des alertes, ce qui garantit que les ingénieurs peuvent rapidement identifier et traiter les causes profondes des incidents.

Ces fonctionnalités optimisées par l'IA de New Relic font partie intégrante des pratiques d'observabilité modernes, et permettent aux organisations de gérer efficacement les complexités des environnements informatiques actuels. En intégrant ces outils, les équipes peuvent améliorer leur capacité à monitorer, diagnostiquer et optimiser leurs systèmes, ce qui garantit qu’ils restent robustes et fiables même lorsqu’ils évoluent.

Conclusion

À mesure que l’IA continue d’évoluer, elle joue un rôle de plus en plus vital dans la transformation des pratiques d’observabilité. Les méthodes de monitoring traditionnelles ne suffisent plus à gérer la complexité et l’échelle des environnements informatiques modernes, en particulier ceux pilotés par des systèmes distribués et des applications d’IA. Mais en même temps, l’IA peut être exploitée pour obtenir des informations détaillées à partir de vos données télémétriques. 

La suite d'outils optimisés par l'IA de l'observabilité intelligente de New Relic (dont AIOps, New Relic AI et le monitoring de l'IA), permet aux organisations de maintenir des systèmes hautes performances tout en gérant efficacement les complexités de l'IA et de l'infrastructure moderne. En intégrant ces fonctionnalités avancées, les équipes peuvent garantir que leurs systèmes restent fiables, évolutifs et optimisés en termes de performances.