AI는 시스템 운영 방식을 개선할 수 있는 엄청난 잠재력이 있습니다. 사람이 놓칠 수 있는 패턴을 식별하고, 대용량 데이터를 신속하게 처리하며, 수작업 조사보다 더 빠르게 인사이트를 도출할 수 있습니다.

그러나 운영 시스템에는 실질적인 제약이 존재합니다.

새로움보다는 안정성, 안전, 신뢰가 더 중요합니다. 이러한 환경에서 작동하는 모든 AI는 운영의 경계와 인간의 판단을 존중해야 합니다.

프리뷰 버전으로 제공되는 뉴렐릭 SRE 에이전트는 이러한 약속을 지키면서 운영에 에이전틱 AI를 결합하도록 설계되었습니다.

복잡성과 인간 대응 사이의 간극 증가

다양한 환경과 서로 종속되어 여러 곳에 분산된 서비스에서 운영되는 현대의 시스템은 대량의 텔레메트리를 생성합니다.

인시던트가 발생하는 경우 엔지니어는 메트릭, 로그, 트레이스, 변경 사항, 알림을 동시에 처리해야 합니다. 경험이 풍부한 팀도 촉박한 시간 속에서 고군분투하는 경우가 다반사입니다.

AI는 그 간극을 좁혀줄 수 있는 잠재력을 갖고 있지만, 실제 시스템의 컨텍스트를 이해하고 운영 측면에서 중요한 것을 아는 경우에만 도움을 줄 수 있습니다.

일반적인 AI가 운영에서 실패하는 이유

일반적인 AI 툴은 실시간 시스템 운영에 맞게 설계되지 않았습니다.

서비스 소유권, 종속성 토폴로지 및 안정성 제약에 대한 인식이 부족하고, 인시던트의 단계적 이관 경로, 영향 반경 또는 허용 가능한 위험을 이해하지 못합니다.

운영에서는, 불완전하거나 오해의 소지가 있는 도움은 없는 것보다 못합니다.

사이트 안정성 엔지니어링(SRE) 팀은 옵저버빌리티에 기반을 두고 운영 환경에서 사용되도록 설계된 AI가 필요합니다.

뉴렐릭 SRE 에이전트

SRE 에이전트는 뉴렐릭의 지능형 옵저버빌리티 플랫폼에 내장된 기능입니다.

실시간 텔레메트리와 시스템의 컨텍스트로 작동하며, 엔지니어가 인시던트가 발생한 다급한 상황에서 무슨 일이 일어나고 있는지 이해할 수 있도록 도와줍니다.

SRE 에이전트는 자율적으로 행동하는 것이 아니라 다음과 같은 방법으로 사람을 지원합니다.

  • 지속적인 시스템 동작 관찰
  • 관련 신호 및 패턴 표면화
  • 엔지니어가 조사에 집중할 수 있도록 지원
  • 컨텍스트 검색에 소요되는 시간 단축

에이전트의 역할은 이해를 가속화하는 것이지, 스스로 조치를 취하는 것이 아닙니다.

명시적 경계를 둔 설계

신뢰는 운영에서 매우 중요합니다.

SRE 에이전트는 위험을 초래하지 않고 안정성을 향상하기 위해 의도적으로 제한을 받습니다.

운영 시스템을 변경하지 않고, 승인 워크플로우를 건너뛰지 않으며, 인간의 결정을 무시하지 않습니다.

SRE 에이전트가 제공하는 모든 인사이트는 관찰 가능한 데이터에 기초하고 인간의 판단을 지원하도록 설계되었습니다.

SRE 팀이 SRE 에이전트를 활용하는 방법

SRE 에이전트를 도입하면 인지 부하를 줄이고 교대 근무 주기 전반에서 일관성을 유지할 수 있습니다.

SRE 에이전트는 엔지니어에게 관련된 신호와 패턴을 안내하여, 팀이 사후 대응적인 문제 해결에서 체계적인 조사로 이동할 수 있도록 지원합니다.

시간이 지남에 따라 다음과 같은 결과를 얻을 수 있습니다.

  • 더 빠른 진단
  • 보다 일관된 대응
  • 인시던트 중 피로 감소
  • 의사 결정에 대한 신뢰도 향상

SRE 에이전트는 숙련된 팀을 교체하는 것이 아니라 조력자 역할을 합니다.

기존 워크플로우에서 작동

SRE 에이전트는 기존 운영 방식에 자연스럽게 녹아들도록 설계되었습니다.

설정되어 있는 알림, 소유권 및 에스컬레이션 모델을 존중합니다. 기존 인시던트 대응 워크플로우를 대체하는 것이 아니라 보완합니다.

이를 통해 팀은 기존 프로세스를 유지하며 점진적으로 AI를 도입할 수 있습니다.

중요한 이유

시스템이 점점 복잡해지고 AI 기반 워크로드가 증가하고 있는 상황에서, 느리거나 불확실한 대응은 비용을 증가시킬 수 있습니다.

SRE 에이전트는 안정성 유지를 위한 제어력과 신뢰를 제공하여 팀이 AI를 운영에 안전하게 도입할 수 있도록 합니다.
 

뉴렐릭 SRE 에이전트에 대해 자세히 알아보세요.

"It took almost a year for us to figure out a very complex performance problem. The SRE Agent just picked it up by itself. I mean, we have pretty good instrumentation around everything now, but the ability for it to discern the problem and give us a path to the solution... I thought it was incredible."

Designed with explicit boundaries

Trust is critical in operations.

SRE Agent is intentionally constrained to ensure it enhances reliability rather than introducing risk.

It does not make changes to production systems. It does not bypass approval workflows. It does not override human decisions.

Every insight it provides is grounded in observable data and designed to support human judgment.

How SRE teams use SRE Agent

Teams adopt SRE Agent to reduce cognitive load and improve consistency across on-call rotations.

By guiding engineers toward relevant signals and patterns, SRE Agent helps teams move from reactive troubleshooting to structured investigation.

Over time, this leads to:

  • Faster diagnosis
  • More consistent response outcomes
  • Reduced fatigue during incidents
  • Improved confidence in decision-making

SRE Agent acts as a force multiplier for experienced teams rather than a replacement.

Working alongside existing workflows

SRE Agent is designed to fit naturally into existing operational practices.

It respects current alerting, ownership, and escalation models. It complements, rather than replaces, existing incident response workflows.

This ensures teams can adopt it incrementally without disrupting established processes.

Why this matters now

As systems grow more complex and AI-driven workloads increase, the cost of slow or uncertain response rises.

SRE Agent helps teams safely introduce AI into operations while preserving the control and trust that reliability depends on.
 

Learn more about New Relic SRE Agent.