AIOps는 IT 운영을 위한 인공 지능(AI)을 의미합니다. 이 용어는 AI와 IT 운영의 교차점이 생겨나던 2016년, 연구 조사 기관 가트너가 처음 사용하기 시작했습니다. AIOps는 AI 기반 도구를 옵저버빌리티 플랫폼에 통합하여 프로세스에 대한 더 큰 인사이트와 효율성을 제공하고 IT 운영 비용을 절감합니다. 데이터를 사용해 IT에 특화된 머신 러닝(ML) 모델을 훈련시키면 더 높은 성과와 더 빠른 이상 탐지 및 문제 해결, 더 효과적인 자동화가 가능해 집니다.
모두를 위한 AIOps
옵저버빌리티 플랫폼에서 AIOps를 활용하면 사이트와 클라우드 기반 인프라에서 광범위하게 문제를 해결하고 솔루션 구현을 가속화할 수 있습니다. 다양한 IT 시스템과 배포가 빠르게 증가하는 환경에서, AIOps는 IT 운영을 보다 효율적으로 만드는 데 중요한 역할을 합니다. 이를 염두에 두고 뉴렐릭은 모든 옵저버빌리티 요금제를 이용하는 전체 플랫폼 사용자에게 통합 기능인 응용 인텔리전스(Applied Intelligence)를 제공합니다.
옵저버빌리티의 진화
AIOps는 IT 운영과 옵저버빌리티의 진화 과정에서 다음 단계를 의미합니다. 우리 일상 곳곳에 AI가 얼마나 스며들었는지 생각해볼 수 있습니다. 일례로 상호작용이 가능한 스마트 홈 기기처럼 AI는 우리가 즉시 인지하지 못하는 방식으로 생활에 통합되었습니다. 시간이 지나면서 AI 애플리케이션은 복잡한 패턴 인식을 수행할 정도로 발전하여 이미지에서 얼굴을 식별하거나 의료 영상 및 제조 공정에서 이상 징후를 정확하게 감지할 수 있게 되었습니다.
오늘날 다양한 데이터 세트를 기반으로 훈련된 머신 러닝 알고리즘은 인간의 능력보다 훨씬 빠르게 패턴을 식별하고 솔루션을 자동화합니다.
AIOps가 중요한 이유
운영 시스템의 점점 더 복잡해지면서, 소프트웨어 팀은 더 빠르고 쉽게 인시던트에 대응할 필요가 생겼습니다. AIOps는 기존의 인시던트 관리 워크플로우를 강화하는 데 필요한 자동화와 인텔리전스를 제공하여 팀이 문제를 더 빨리 찾아 해결할 수 있도록 지원합니다. 온보딩, 학습 및 사용의 용이성을 우선시하는 현대의 AIOps 솔루션은 운영 요구 사항이 증가하는 팀들이 쉽게 활용할 수 있는 가치 있는 도구입니다.
AIOps의 주요 이점
더 적은 리소스로 더 많은 성과를 얻어야 한다는 것이 오랫동안 IT의 원칙과도 같았습니다. 이로 인해 AIOps는 옵저버빌리티 플랫폼에 포함되어야 하는 중요한 요소가 되었습니다. AIOps는 시스템의 성능과 업타임을 향상하고, 비용을 절감하며, 엔지니어가 문제 해결이 아니라 혁신 이니셔티브에 시간을 할애할 수 있도록 하는 등 여러 가지 중요한 이점을 제공합니다.
성능 개선: AIOps는 예측 분석을 위한 훈련된 모델을 통해 성능 문제를 더 빠르게 찾아 해결하여, 시스템이 더 효율적으로 실행되도록 합니다.
다운타임 단축: 예측 분석은 문제가 발생하기 전에 이를 식별하고 시스템이 원활하게 운영되도록 하는 자동화 솔루션을 실행하는 데 도움이 됩니다.
근본 원인 분석 가속화: 응용 인텔리전스는 텔레메트리 데이터와 기타 분산된 데이터를 검토하여 실시간으로 근본 원인을 찾아냅니다.
정확한 결과 예측: 자체 보유한 데이터를 기반으로 훈련된 머신 러닝 모델은 더 광범위하고 일반적인 IT 메타데이터 및 정보와 함께 결과를 빠르게 분석하고 보다 정확하게 예측할 수 있습니다.
협업 개선: 훈련 및 분석 데이터를 텔레메트리 너머로 확장하면 다른 부서(예: 고객 서비스, 분석, 영업)에서 중요한 인사이트를 가져올 수 있으며, IT 운영 팀은 더 효과적으로 작업하고 데이터에 기반해 신속하게 의사 결정을 내릴 수 있습니다.
IT 비용 절감: AIOps는 자동화된 문제 해결과 솔루션 구현을 가속화하여 특수 어플라이언스(네트워크 모니터링 및 보안 하드웨어, 레거시 IT 인프라 도구 등)와 소프트웨어 비용을 절감하고 IT 담당자의 수동 작업 시간을 줄이는 데 도움이 됩니다.
혁신 가속화: IT 운영에 지능적인 자동화가 확대되면 엔지니어는 위협에 앞서 나가거나 효율성을 높이는 데 도움이 되는 중요한 혁신과 이니셔티브에 집중할 수 있습니다.
AIOps로 해결 가능한 문제
소프트웨어 팀이 클라우드 기반 기술을 도입하고 현대화함에 따라, IT 환경은 점점 더 복잡해지고 있습니다. 많은 소프트웨어 변경 사항이 더 빠르게 이루어지고, 단편적인 여러 도구에서 더 많은 운영 데이터가 생성됩니다. 대시보드와 알림은 더 많아지고 있고 모니터링해야 하는 마이크로서비스도 늘어났습니다. 이로 인해 IT 담당자는 인시던트를 신속하게 찾아 해결하는 것 뿐만 아니라, 인시던트 자체가 발생하지 않도록 예방해야 하는 부담을 안게 되었습니다. 이렇게 빠른 속도로 이뤄지는 변화와 여러 곳에 분산된 시스템과 서비스는 IT 팀의 업무 부담을 가중시킬 수 있습니다.
데이터 양이 증가하면 문제를 진단하고 해결하는 데 필요한 시간도 늘어납니다. 많은 IT 운영팀은 중단이나 성능 문제를 방지하는 데 필요한 선제적 전략을 구현하는 것이 아니라, 수동적인 문제 해결과 사후 대응에만 매달려야 하는 악순환에 빠져 있습니다.
응답 역시 큰 문제입니다. 많은 알림과 무수히 많은 "알려지지 않은 미지수"로 인해 중요한 신호와 노이즈를 구별하는 것이 지속적인 문제입니다. 인시던트의 근본 원인을 신속하게 파악하고 선제적으로 대응하는 것이 추가적인 복잡성을 제거할 수 있는 방법입니다. 데브옵스, 사이트 안정성 엔지니어링 및 네트워크 운영 센터 팀들이 데이터 분석, 이상 감지 또는 수동 문제 진단에 소비하는 매 순간은 서비스 수준 목표(SLO), 기업의 평판, 전반적인 수익성에 영향을 미칠 수 있습니다.
AIOps는 자체 데이터를 기반으로 훈련된 AI 기반 방법론을 사용해 문제를 선제적으로 감지하고, 근본 원인을 식별하며, 해결책을 추천하거나 자동화함으로써 이러한 도전과제를 해결하는 데 도움이 됩니다. 이를 통해 IT 팀은 조직 전반에서 사후 진압이 아니라 혁신에 더 집중할 수 있게 됩니다.
AIOps의 원리
AIOps는 더 큰 효율성을 달성하기 위해 AI를 기술에 통합하는 4단계의 체계적인 접근 방식을 따릅니다. 이러한 단계를 순차적으로 실행하면 인프라, 앱, SLO에 맞게 조정된 효과적인 AIOps가 구현됩니다.
AIOps의 4가지 핵심 단계
AIOps의 4단계에는 데이터 수집 및 큐레이션, 데이터를 사용한 모델 훈련, 모델의 예측에 대응하는 자동화 솔루션 구축, 이상 감지를 위한 배포가 포함됩니다.
- 데이터 수집: 현대 IT 시스템은 복잡하고 SLO를 달성해야 하기 때문에, AIOps를 성공적으로 구현하려면 유용한 데이터를 식별하고 수집해야 합니다. 데이터가 너무 적거나 잘못된 경우 비효율적이고 부정확한 모델이 생겨납니다. 데이터 과학자와 기능 간 팀의 도움을 받아 올바른 데이터를 선택해 수집하면 더 효과적인 AIOps 솔루션을 구축할 수 있습니다. AIOps는 인프라 전반에 분산되어 있는 데이터를 통합합니다. 데이터에는 시스템의 이력 데이터 및 이벤트, 로그, 네트워크 데이터, 실시간 운영 데이터가 포함될 수 있습니다.
- 모델 훈련: AIOps 인텔리전스에서 어떤 기능을 원하는지 파악해야 합니다. AIOps 솔루션의 목표와 데이터 품질에 따라 모델을 선택하고 훈련 방식을 결정합니다. 집중해야 할 주요 영역으로는 선제적인 확장, 보안, 성능 및 스토리지 최적화 등이 있습니다. IT 환경은 끊임없이 진화하므로 모델도 시간이 지남에 따라 스스로 재훈련되어 정확성과 효과를 유지하도록 설계되어야 합니다.
- 자동화: 잘 훈련된 AIOps 모델은 실시간으로 인사이트에 대응할 수 있는 자동화 도구 및 애플리케이션과 함께 사용할 때 가장 효과적입니다. 이러한 도구를 사용하면 AIOps가 예측 분석 및 모델 결과에 즉각적으로 대응하여 시간이 많이 걸리는 수동 작업을 줄일 수 있습니다. 도구는 기존의 옵저버빌리티 툴 세트를 기반으로 생성되거나, 특정 요구 사항에 맞게 맞춤 애플리케이션을 개발할 수도 있습니다.
- 이상 감지: 모델이 배포되면 실시간 분석을 통해 이상 감지와 대응 속도가 빨라집니다. 이전 결과에서 얻은 데이터를 피드백 루프에 통합하여 모델을 지속적으로 재훈련하면 시간이 지남에 따라 정확도와 효과를 개선하는 데 도움이 될 수 있습니다.
AIOps의 사용 사례
데브옵스, SRE 및 대기 근무 팀은 AIOps를 4가지 방법으로 주로 활용하고 있습니다.
1. 문제 발생 전 감지
문제를 감지하는 첫 번째 단계는 고객 경험에 영향을 미치기 전에 소프트웨어의 잠재적인 문제를 식별하는 것입니다. AIOps 툴은 운영 환경에서 자동으로 이상 징후를 감지하고, 모니터링 솔루션은 물론 Slack 같은 협업 툴로 알림을 전송합니다.
2. 노이즈 감소 및 상호 연관
AIOps 툴은 관련 알림, 이벤트, 인시던트를 상호 연관시키고, 스택의 과거 데이터나 다른 툴에서 얻은 맥락으로 보완하여 팀이 중요한 문제에 우선적으로 집중할 수 있도록 지원합니다. 가장 진보된 툴은 기계가 생성한 결정(예: 시간 기반 클러스터링, 유사성 알고리즘, 기타 ML 모델)과 인간이 생성한 결정을 모두 활용해 과도한 알림이나 우선순위가 낮은 알림은 억제하고 의미 있는 패턴을 식별합니다.
AIOps 툴은 또한 SRE의 4가지 황금 신호인 레이턴시, 트래픽, 오류, 포화 상태를 기반으로 인시던트를 분류해 귀중한 맥락을 제공함으로써, 문제의 근본 원인을 보다 쉽게 진단하고 해결 방법을 결정할 수 있도록 합니다.
3. 보다 신속하게 올바른 사람에게 알림 전송
AIOps 툴은 각 인시던트에 가장 잘 대응할 수 있는 개인이나 팀에게 자동으로 인시던트 데이터를 라우팅할 수 있습니다. 특히 팀들이 여러 곳에 분산되어 있는 경우, 툴은 잘못된 사람에게 불필요하게 전송되는 알림의 수를 줄이고 중요한 인시던트 데이터를 더 신속하게 적절한 사람에게 전달할 수 있습니다.
AIOps 툴은 ML 모델을 실행하여 인시던트 관리 툴과 모니터링 툴의 데이터를 평가하고, 과거에 비슷한 문제를 경험했거나 장애가 발생한 요소에 대한 전문 지식을 갖추어 문제를 더 빠르게 해결할 수 있는 개인이나 팀을 제안해줍니다.
4. 자동화된 인시던트 해결
인시던트를 해결하는 데 있어 가장 중요한 단계이자 최종 단계는 실제로 문제를 해결하는 것입니다. AIOps 툴은 인시던트 발생 시 이를 해결하기 위한 워크플로우와 수정 작업을 자동화하여 프로세스를 간소화하고 평균 문제 해결 시간을 단축합니다.
팀들이 문제 감지, 진단 및 해결 간의 간극을 줄이려고 하면서, 이 마지막 단계의 과제를 해결할 수 있도록 AIOps의 범위가 확대되고 있습니다.
올바른 AIOps 플랫폼 선택
AIOps는 고급 IT 인텔리전스를 활용해 운영을 자동화하고 최적화함으로써 옵저버빌리티 플랫폼의 가치를 확장합니다. 조직의 고유한 요구 사항에 맞게 조정 가능한 다양한 옵저버빌리티 툴, 대시보드 및 자동화 세트가 강력한 기반을 위한 시작점이 될 수 있습니다. 기존 IT 운영 시스템 내에서 AI 기반 자동화를 더 많이 활용할수록 AIOps 여정은 한층 더 진전할 것입니다.
이니셔티브를 보완할 올바른 AIOps 솔루션을 선택하면 올바른 데이터를 활용해 IT 운영을 보다 효과적으로 관리하는 데 도움이 됩니다. AIOps 솔루션은 도메인에 구애를 받지 않을 수도 있고, 도메인에 따라 달라질 수 있습니다. 도메인에 구애받지 않는 AIOps 솔루션은 조직 전반에서 데이터를 수집하여 IT 운영을 광범위하게 지원합니다. 도메인별 솔루션은 더 좁은 범위의 데이터에 초점을 맞추고 특정 도메인의 구체적인 환경과 문제에 맞게 조정됩니다.
뉴렐릭 AI는 과중한 업무에 시달리는 데브옵스 및 사이트 안정성 엔지니어링 팀이 문제를 보다 효율적으로 식별하고 해결할 수 있도록 돕기 위해 설계된 AIOps 솔루션입니다. 반복적이고 시간이 많이 걸리는 작업을 최소화하고 사후 ‘진압’ 모드에서 벗어나게 함으로써, 뉴렐릭 AI는 팀이 뛰어난 소프트웨어를 구축하고 유지 관리하며 창의적이고 도전적인 작업에 집중할 수 있도록 지원합니다.
기존의 인시던트 관리 툴이나 특정 도메인에 중점을 두는 AIOps 플랫폼과 달리, 뉴렐릭 AI는 도메인에 구애 받지 않으며, 원시 모니터링 데이터를 활용해 머신 러닝 모델을 실행합니다. 이 때문에 다양한 환경 및 툴과 원활하게 통합되어 상황에 맞는 지능적인 인시던트 대응 워크플로우를 제공할 수 있습니다.
뉴렐릭 AI는 기존에 사용 중인 인시던트 관리 툴과 긴밀하게 통합되어 기존 프로세스에 인텔리전스를 제공하여, 데브옵스 워크플로우를 완전히 개편하지 않고도 더 빠르게 문제를 감지하고 노이즈를 감소할 수 있도록 합니다.
다음 단계
인시던트를 더 빠르게 감지, 진단 및 해결하기 위해 쉽게 사용할 수 있는 AIOps 솔루션을 찾고 계신다면, 뉴렐릭 AI에 대해 자세히 알아보십시오. 실제 사례가 궁금하시다면, 뉴렐릭이 어떻게 젠허브의 성공을 지원했는지 확인해 보시기 바랍니다.
이 블로그에 표현된 견해는 저자의 견해이며 반드시 New Relic의 견해를 반영하는 것은 아닙니다. 저자가 제공하는 모든 솔루션은 환경에 따라 다르며 New Relic에서 제공하는 상용 솔루션이나 지원의 일부가 아닙니다. 이 블로그 게시물과 관련된 질문 및 지원이 필요한 경우 Explorers Hub(discuss.newrelic.com)에서만 참여하십시오. 이 블로그에는 타사 사이트의 콘텐츠에 대한 링크가 포함될 수 있습니다. 이러한 링크를 제공함으로써 New Relic은 해당 사이트에서 사용할 수 있는 정보, 보기 또는 제품을 채택, 보증, 승인 또는 보증하지 않습니다.