L'IA possède un énorme potentiel pour améliorer la façon dont les équipes exploitent les systèmes. Elle peut identifier des modèles qui échappent aux humains, traiter rapidement de grands volumes de données et révéler des informations détaillées plus rapidement qu'une investigation manuelle.

Mais les systèmes de production imposent de réelles contraintes.

La fiabilité, la sécurité et la confiance comptent plus que la nouveauté. Toute IA opérant dans cet environnement doit respecter les limites opérationnelles et le jugement humain.

New Relic SRE Agent, désormais en version préliminaire, est conçu pour apporter l'IA agentique dans les opérations sans rompre ce contrat.

L'écart grandissant entre complexité et réponse humaine

Les systèmes modernes génèrent d'énormes quantités de télémétrie sur tous les services distribués, dépendances et environnements.

Lors des incidents, les ingénieurs doivent traiter les métriques, logs, traces, changements et alertes simultanément. Même les équipes très expérimentées ont du mal à garder la cadence, surtout sous les contraintes de temps.

L'IA a le potentiel d'aider à combler cet écart, mais uniquement s'il fonctionne avec le contexte réel du système et comprend ce qui importe sur le plan opérationnel.

Pourquoi l'IA générique échoue en production

Les outils d'IA à usage général ne sont pas conçus pour l'exploitation de systèmes en production.

Ils n’ont pas connaissance de la propriété des services, de la topologie des dépendances et des contraintes de fiabilité. Ils ne comprennent pas les chemins d'escalade, le rayon d'impact ou les risques acceptables.

En production, une assistance incomplète ou trompeuse est pire que l'absence totale d'assistance.

Les équipes SRE ont besoin d'une IA ancrée dans l'observabilité et conçue pour un usage opérationnel.

New Relic SRE Agent

SRE Agent est une capacité intégrée directement dans la plateforme d'observabilité intelligente de New Relic.

Elle s’appuie sur la télémétrie en temps réel et le contexte du système pour aider les ingénieurs à comprendre ce qui se passe en cas d'incidents et dans des situations très tendues.

Plutôt que d'agir de manière autonome, SRE Agent aide les personnes en :

  • Observant continuellement le comportement du système
  • Faisant remonter les signaux et schémas pertinents
  • Aidant les ingénieurs à cibler l'investigation
  • Réduisant le temps passé à chercher le contexte

Son rôle est d’accélérer la compréhension, et non de prendre des mesures seul.

« Il nous a fallu près d'un an pour résoudre un problème de performances très complexe. L’agent SRE l’a détecté lui-même. Nous avons une assez bonne instrumentation pour tout maintenant, mais sa capacité à discerner le problème et à nous donner une piste vers la solution… J’ai vraiment trouvé ça incroyable. »

Conçu avec des limites explicites

La confiance est cruciale dans les opérations.

SRE Agent est intentionnellement limité pour garantir qu'il améliore la fiabilité au lieu d'introduire des risques.

Il n'apporte pas de modifications aux systèmes de production. Il ne court-circuite pas les workflows d'approbation. Il n'ignore pas les décisions humaines.

Toutes les informations détaillées qu'il fournit sont basées sur des données observables et conçues pour soutenir le jugement humain.

Comment les équipes SRE utilisent SRE Agent

Les équipes adoptent SRE Agent pour réduire la charge cognitive et améliorer la cohérence lors des rotations d'astreinte.

En guidant les ingénieurs vers les signaux et modèles pertinents, SRE Agent aide les équipes à passer d'un dépannage réactif à une investigation structurée.

Au fil du temps, cela entraîne :

  • Un diagnostic plus rapide
  • Des résultats d'intervention plus cohérents
  • Une réduction de la fatigue lors des incidents
  • Une plus grande confiance dans la prise de décision

SRE Agent agit comme un multiplicateur de force pour les équipes expérimentées plutôt que comme un remplaçant.

Fonctionnement en parallèle avec les workflows existants

SRE Agent est conçu pour s'intégrer naturellement aux pratiques opérationnelles existantes.

Il respecte les modèles actuels d’alerte, de responsabilité et d’escalade. Il vient compléter, plutôt que remplacer, les workflows de réponse aux incidents existants.

Ainsi, les équipes peuvent l'adopter progressivement sans perturber les processus établis.

Pourquoi est-ce important maintenant

Avec la complexité grandissante des systèmes et la multiplication des workloads optimisés par l'IA, les coûts liés à une réponse lente ou incertaine augmentent.

SRE Agent aide les équipes à introduire l’IA dans les opérations en toute sécurité tout en préservant le contrôle et la confiance sur lesquels la fiabilité dépend.
 

En savoir plus sur l'agent SRE New Relic.