L'IA possède un énorme potentiel pour améliorer la façon dont les équipes exploitent les systèmes. Elle peut identifier des modèles qui échappent aux humains, traiter rapidement de grands volumes de données et révéler des informations détaillées plus rapidement qu'une investigation manuelle.
Mais les systèmes de production imposent de réelles contraintes.
La fiabilité, la sécurité et la confiance comptent plus que la nouveauté. Toute IA opérant dans cet environnement doit respecter les limites opérationnelles et le jugement humain.
New Relic SRE Agent, désormais en version préliminaire, est conçu pour apporter l'IA agentique dans les opérations sans rompre ce contrat.
L'écart grandissant entre complexité et réponse humaine
Les systèmes modernes génèrent d'énormes quantités de télémétrie sur tous les services distribués, dépendances et environnements.
Lors des incidents, les ingénieurs doivent traiter les métriques, logs, traces, changements et alertes simultanément. Même les équipes très expérimentées ont du mal à garder la cadence, surtout sous les contraintes de temps.
L'IA a le potentiel d'aider à combler cet écart, mais uniquement s'il fonctionne avec le contexte réel du système et comprend ce qui importe sur le plan opérationnel.
Pourquoi l'IA générique échoue en production
Les outils d'IA à usage général ne sont pas conçus pour l'exploitation de systèmes en production.
Ils n’ont pas connaissance de la propriété des services, de la topologie des dépendances et des contraintes de fiabilité. Ils ne comprennent pas les chemins d'escalade, le rayon d'impact ou les risques acceptables.
En production, une assistance incomplète ou trompeuse est pire que l'absence totale d'assistance.
Les équipes SRE ont besoin d'une IA ancrée dans l'observabilité et conçue pour un usage opérationnel.
New Relic SRE Agent
SRE Agent est une capacité intégrée directement dans la plateforme d'observabilité intelligente de New Relic.
Elle s’appuie sur la télémétrie en temps réel et le contexte du système pour aider les ingénieurs à comprendre ce qui se passe en cas d'incidents et dans des situations très tendues.
Plutôt que d'agir de manière autonome, SRE Agent aide les personnes en :
- Observant continuellement le comportement du système
- Faisant remonter les signaux et schémas pertinents
- Aidant les ingénieurs à cibler l'investigation
- Réduisant le temps passé à chercher le contexte
Son rôle est d’accélérer la compréhension, et non de prendre des mesures seul.
« Il nous a fallu près d'un an pour résoudre un problème de performances très complexe. L’agent SRE l’a détecté lui-même. Nous avons une assez bonne instrumentation pour tout maintenant, mais sa capacité à discerner le problème et à nous donner une piste vers la solution… J’ai vraiment trouvé ça incroyable. »
Conçu avec des limites explicites
La confiance est cruciale dans les opérations.
SRE Agent est intentionnellement limité pour garantir qu'il améliore la fiabilité au lieu d'introduire des risques.
Il n'apporte pas de modifications aux systèmes de production. Il ne court-circuite pas les workflows d'approbation. Il n'ignore pas les décisions humaines.
Toutes les informations détaillées qu'il fournit sont basées sur des données observables et conçues pour soutenir le jugement humain.
Comment les équipes SRE utilisent SRE Agent
Les équipes adoptent SRE Agent pour réduire la charge cognitive et améliorer la cohérence lors des rotations d'astreinte.
En guidant les ingénieurs vers les signaux et modèles pertinents, SRE Agent aide les équipes à passer d'un dépannage réactif à une investigation structurée.
Au fil du temps, cela entraîne :
- Un diagnostic plus rapide
- Des résultats d'intervention plus cohérents
- Une réduction de la fatigue lors des incidents
- Une plus grande confiance dans la prise de décision
SRE Agent agit comme un multiplicateur de force pour les équipes expérimentées plutôt que comme un remplaçant.
Fonctionnement en parallèle avec les workflows existants
SRE Agent est conçu pour s'intégrer naturellement aux pratiques opérationnelles existantes.
Il respecte les modèles actuels d’alerte, de responsabilité et d’escalade. Il vient compléter, plutôt que remplacer, les workflows de réponse aux incidents existants.
Ainsi, les équipes peuvent l'adopter progressivement sans perturber les processus établis.
Pourquoi est-ce important maintenant
Avec la complexité grandissante des systèmes et la multiplication des workloads optimisés par l'IA, les coûts liés à une réponse lente ou incertaine augmentent.
SRE Agent aide les équipes à introduire l’IA dans les opérations en toute sécurité tout en préservant le contrôle et la confiance sur lesquels la fiabilité dépend.
Étapes suivantes
Êtes-vous prêt à découvrir l'avenir de l'observabilité dès aujourd'hui ? Inscrivez-vous pour essayer New Relic SRE Agent en avant-première et découvrir comment ces fonctionnalités agentiques peuvent transformer vos opérations dès aujourd'hui.
- Vous n'êtes pas encore client ? Inscrivez-vous à New Relic pour commencer. Votre compte inclut 100 Go/mois de données gratuites pour toujours.
Les opinions exprimées sur ce blog sont celles de l'auteur et ne reflètent pas nécessairement celles de New Relic. Toutes les solutions proposées par l'auteur sont spécifiques à l'environnement et ne font pas partie des solutions commerciales ou du support proposés par New Relic. Veuillez nous rejoindre exclusivement sur l'Explorers Hub (discuss.newrelic.com) pour toute question et assistance concernant cet article de blog. Ce blog peut contenir des liens vers du contenu de sites tiers. En fournissant de tels liens, New Relic n'adopte, ne garantit, n'approuve ou n'approuve pas les informations, vues ou produits disponibles sur ces sites.