New Relic AIOps를 통한 인시던트 발견 및 해결 가속화

시작

소프트웨어와 시스템이 복잡해지면, 엔지니어가 모니터링하고 대응해야 하는 영역과 소프트웨어 변경사항, 세분화된 tool에서 수집되는 데이터와 알람도 더불어 늘어나며, 고객 경험이나 서비스 수준 협약에 영향을 미칠 수 있는 문제에 더 신속하게 대응해야 한다는 부담도 커집니다. 알람 피로 역시 큰 문제입니다. 신호와 노이즈를 분리하고, 알람의 우선순위를 정해 먼저 취할 조치를 결정한다는 것은 쉽지 않은 일입니다.

AIOps는 대응 팀이 인공 지능(AI) 및 머신 러닝(ML)을 사용해 인시던트를 더 빠르게 감지, 진단 및 대응할 수 있도록 지원합니다. New Relic One 옵저버빌리티 플랫폼에 내장된 뉴렐릭 응용 인텔리전스(Applied Intelligence)는 쉽게 사용할 수 있는 자동 AIOps 기능을 제공하여 추측에 의존하지 않고, 인시던트에 쉽고 효과적으로 대응할 수 있게 해줍니다. 

이상 징후 및 이상값 즉시 감지

Slack 등 원하는 tool에서 알림을 수신하여, 고객에게 영향을 미치기 전에 잠재적인 문제를 감지합니다.

  • 응용 인텔리전스는 레이턴시, 오류, 트래픽 등 사이트 신뢰성 엔지니어링(SRE)의 골든 신호를 기반으로 애플리케이션 메트릭과 로그 데이터의 패턴을 선제적으로 모니터링하여, 이상 징후가 발견되면 즉시 알려줍니다.
  • 클릭 한 번으로 수백만개의 로그 메시지를 탐색할 수 있고, 로그 데이터가 자동으로 클러스터링되어 수동 쿼리가 줄어들기 때문에, 수많은 데이터 속에서 비정상적인 패턴과 문제를 빠르게 찾아낼 수 있습니다. 
  • 비정상적인 서비스와 관련된 신호, 업스트림 및 다운 스트림 서비스의 행동에 대한정보 등 각 이상 징후에 대한 자세한 분석을 통해, 문제를 보다 쉽게 해결할 수 있습니다. 

이벤트의 상관 관계 수립으로 알람 피로 감소

.

알람을 자동으로 그룹화하여 노이즈를 줄이고, 더욱 중요한 사항에 집중할 수 있습니다.

  • 응용 인텔리전스는 관련성이 낮은 알람을 억제하고, 같은 문제로 인한 알람들을 서로 연관시켜 적절한 조치를 취하는 데 필요한 모든 정보가 포함된 하나의 이슈로 표시해줍니다.
  • 시간 기반 클러스터링, 알람 메타데이터의 컨텍스트, 모든 서비스가 서로 관련되는 방식에 기반한 토폴로지 데이터를 사용해, 알람들 간에 자동으로 상관 관계가 수립됩니다. 
  • 직관적으로 방법을 안내해주는 UI에서 자체적인 의사 결정 로직으로 상관 관계 엔진을 쉽게 조율할 수 있습니다. 
.

신속하게 문제의 근본 원인 파악

각 문제가 발생한 이유, 영향을 받는 서비스와 시스템, 중요도 및 대응 방법에 대해 실행 가능한 인사이트를 얻을 수 있습니다.

  • 응용 인텔리전스는 SRE의 골든 신호를 기반으로 문제를 자동으로 분류하고 문제와 관련된 배포를 보여주어 근본적인 원인을 이해하는데 도움을 줍니다.
  • 또한, 영향을 받은 엔터티 및 오류와 관련된 소프트웨어 구성 요소를 확인하여 문제의 범위를 빠르게 파악할 수 있습니다.
  • 이외에도 응용 인텔리전스는 각 문제를 가장 잘 해결할 수 있는 대응자를 추천할 수 있도록 머신 러닝 기반의 지침을 제공합니다. 
.

왜 뉴렐릭의 AIOps여야 할까요?

AIOps에 대한 대부분의 접근 방식은 습득이 어렵고, 효과적으로 사용하려면 많은 시간과 전문 지식이 필요합니다. 그러나 뉴렐릭 의 응용 인텔리전스는 다릅니다.

  • 신속한 감지 및 진단: 별도로 설정하지 않아도 이상 징후를 즉시 감지해주며, 자동 상관관계 수립 및 사전 학습된 ML 모델을 사용해 알람 피로를 최대 90%까지 줄여줍니다. 가파른 학습 곡선, 긴 교육 시간 및 복잡한 통합에서 벗어날 수 있습니다.
  • 모든 소스에서 관련된 알람 상호 연결: 어디에서 문제가 발생했는지에 관계 없이, 모든 소스에서 알람 및 이벤트를 수집 합니다. Splunk, Prometheus, Grafana 또는 Amazon CloudWatch 등 알람이 생성되는 tool에서 발생하는 알람 과 인시던트 데이터를 상호 연결하여 노이즈를 줄이고, 가장 중요한 문제를 먼저 해결할 수 있도록 우선순위를 지정합니다.

  • 인시던트 관리 워크 플로우에 통합: 몇 번의 클릭만으로 PagerDuty, ServiceNow 같은 기존 인시던트 관리 tool에 밀접하게 통합됩니다. 수정 워크플로우를 트리거하고, 인시던 트들을 동기화시키며, 여러 tool을 사용해 인시던트를 관리해야 하는 수고를 덜어줍니다.

  • 인시던트 간의 관계에 대한 투명성을 제공하여 신뢰 구축: AIOps tool은 단순히 조회만 가능한 블랙 박스가 되어서는 안됩니다. 뉴렐릭은 이벤트들이 왜, 그리고 어떻게 상호 연관 되어 있는지에 대한 투명성을 제공하고, 자체적인 상관 로직 으로 시스템을 조율할 수 있도록 해주기 때문에, 노이즈를 줄 여주는 ML 모델들에 대해 확신을 가질 수 있습니다.

뉴렐릭에 무료로 액세스하십시오.

AIOps로 이상 징후를 감지하고, 알람 노이즈를 줄이며, 문제의 근본 원인을 더 빠르게 파악하십시오. 지금 계정을 신청하시면 무료로 응용 인텔리전스에 액세스하실 수 있습니다.