IT 환경이 점점 더 복잡해지면서 시스템의 성능과 안정성을 유지하는 일이 그 어느 때보다 어려워졌습니다. 기존의 모니터링 도구는 간단한 환경에서는 효과적이지만, 오늘날의 분산된 AI 기반 시스템을 관리하는 데 필요한 심층적인 인사이트를 제공하지는 못합니다. 이 부분에서 옵저버빌리티가 도움을 줍니다. 옵저버빌리티는 시스템의 행동을 이해하고 성능을 개선하는 데 필요한 포괄적인 접근 방식을 제공합니다.
옵저버빌리티에서 중요한 것은 애플리케이션과 인프라에서 생성된 텔레메트리 데이터(메트릭, 이벤트, 로그, 트레이스)로부터 실행 가능한 인사이트를 도출하는 것입니다. 하지만 데이터의 양과 복잡성이 늘어나면서 수동 분석으로는 이것이 불가능해졌습니다. 이러한 작업의 핵심적인 지원군으로 부상한 AI는 시스템 모니터링을 강화하고, 잠재적 문제를 예측하고, 성과를 최적화해줌으로써 조직이 옵저버빌리티에 접근하는 방식을 변화시키고 있습니다. 이제 AI를 기반으로 하는 지능형 옵저버빌리티를 통해 복잡한 IT 환경을 이해하고 선제적으로 관리하는 것이 가능해졌습니다.
AI 기반 시스템에서의 옵저버빌리티
옵저버빌리티는 시스템의 상태와 성능을 자세히 볼 수 있도록 해줍니다. 메트릭, 이벤트, 로그, 트레이스 같은 텔레메트리 데이터를 수집하고 분석하여 시스템 내부에서 무슨 일이 일어나고 있는지 뿐 아니라 그 일이 왜 일어나는지도 이해할 수 있도록 합니다. 이렇게 심층적인 인사이트는 실시간으로 문제를 식별하고 해결하며 다양한 조건에서 시스템이 최적으로 작동하도록 만드는 데 필수적입니다.
AI 기반 시스템에서는 옵저버빌리티를 확보하기가 더 까다롭습니다. 시스템에 복잡한 데이터 파이프라인, 모델 훈련 및 추론 프로세스, 실시간 데이터를 기반으로 하는 동적 확장이 포함되는 경우가 많기 때문입니다. 이 때문에 옵저버빌리티는 기존 텔레메트리 데이터를 넘어 AI 구성 요소의 구체적인 동작과 성능 특성을 포함하도록 확장되어야 합니다. 예를 들어, 운영 환경에서 머신 러닝(ML) 모델의 성능을 모니터링하려면 추론 레이턴시, 모델 정확도, 추론 중 리소스 활용률 같은 메트릭을 추적해야 합니다. 로그에는 데이터 입력, 모델 버전 관리, 추론 프로세스 중에 발생한 예외에 대한 세부 정보가 포함될 수 있습니다. 트레이스는 데이터가 모델에 도달하기 전에 다양한 전처리 단계를 거치는 방식과 다운스트림 서비스에서 모델의 출력을 사용하는 방식을 이해하는 데 중요합니다. 그러나 시간이 지나면서 입력 데이터가 변경되어 모델의 정확도가 저하되는 모델 드리프트 현상과 이러한 모델을 공급하는 데이터 파이프라인의 성능 같은 잠재적인 문제에도 주의를 기울여야 합니다. 모델 정확도와 파이프라인의 효율성을 지속적으로 모니터링하면, AI 시스템의 안정성과 성능을 유지하면서 문제가 발생할 경우 선제적으로 조치를 취할 수 있습니다.
뉴렐릭은 모델 드리프트, 데이터 파이프라인 비효율성 같은 문제를 감지하고 대응하는 데 도움이 되는 고급 옵저버빌리티 기능을 제공하여 이러한 과제를 해결하는 데 중요한 역할을 합니다. 아래 이미지는 뉴렐릭에서 ML 모델의 모델 드리프트와 데이터 드리프트가 어떻게 표시되는지를 보여줍니다.
지능형 옵저버빌리티: 옵저버빌리티에 혁신을 불러일으키고 있는 AI
AI 기술의 발전으로 세상의 많은 것이 변화하고 있습니다. AI가 새로운 애플리케이션과 시스템의 원동력일 뿐만 아니라 이러한 시스템을 관리하고 모니터링하는 방식도 혁신하고 있다는 사실은 분명합니다. 현대 IT 환경, 특히 AI가 융합된 환경의 복잡성은 기존 옵저버빌리티 관행으로 해결할 수 없는 수준입니다. 이 부분에서 AI 스스로가 문제의 해결책이 되어, 오늘날의 기술 환경에서 옵저버빌리티에 접근, 구현 및 활용하는 방식에 혁명을 일으키고 있습니다. 옵저버빌리티 플랫폼에 통합되어 끊임없이 증가하는 디지털 복잡성에 대응할 수 있을 만큼 AI가 지능적으로 발전했기 때문입니다.
자동화된 이상 징후 감지
AI는 방대한 양의 텔레메트리 데이터를 자동으로 분석하고 정상적인 동작에서 벗어난 편차를 식별함으로써 이상 징후를 감지하는 능력을 크게 향상해줍니다. 기존 시스템에서 이상 징후 감지는 CPU 사용량과 같은 메트릭을 추적하고 사전 정의된 임계값이 초과되면 알림을 전송하는 정도였습니다. AI는 한 걸음 더 나아가, 동적 환경에서 '정상적인' 모습이 어떤 것인지 학습하고 정적 임계값에서는 놓칠 수 있는 미묘한 문제를 감지합니다. 예를 들어, 클라우드 인프라에서 AI는 표준 임계값을 넘지 않더라도 잠재적인 확장 문제나 보안 침해를 나타낼 수 있는 리소스 소비의 비정상적인 급증을 식별할 수 있습니다. 마찬가지로, AI는 웹 애플리케이션에서 사용자 행동을 모니터링하여 사용자 경험 저하를 나타내는 미묘한 변화를 사전에 감지할 수 있습니다. 이러한 자동화된 접근 방식은 평균 감지 시간(MTTD)을 크게 줄여, 응답 시간을 감소하고 시스템 다운타임을 최소화합니다.
예방적 모니터링을 위한 예측 분석
AI는 현재의 문제를 감지하는 데 도움이 되는 것뿐만 아니라 미래의 문제를 예측하는 데도 중요한 역할을 합니다. 머신 러닝을 기반으로 한 예측 분석은 텔레메트리 데이터의 추세를 분석하여 잠재적인 시스템 장애나 성능 병목 현상이 발생하기 전에 이를 예측할 수 있습니다. 예를 들어, 일반적인 서버 환경에서 AI는 현재의 사용 추세를 기반으로 잠재적인 디스크 공간 고갈을 예측할 수 있어 팀은 다운타임이 발생하기 전에 문제를 해결할 수 있습니다. AI 기반 시스템에서 예측 분석은 데이터 패턴의 변화에 따라 머신 러닝 모델을 재훈련해야 할 시기를 예측하거나, 최대 사용 시간 동안 네트워크 혼잡을 예측할 수 있습니다. 이러한 문제를 예상함으로써 팀은 리소스 확장이나 설정 조정 등 예방 조치를 취해 지속적인 시스템 성능과 안정성을 보장할 수 있습니다.
근본 원인 분석
문제가 발생한 경우 근본 원인을 파악하는 것은 복잡하고 시간이 많이 걸리는 과정입니다. 특히 여러 시스템이 분산되어 있고 구성 요소가 상호 의존적인 경우에는 더욱 그렇습니다. 세일 기간 동안 이커머스 애플리케이션의 성능이 저하되는 상황을 가정해 볼 수 있습니다. 다양한 서비스에서 여러 개의 알림이 발생합니다. 웹 애플리케이션은 레이턴시 증가를 표시하고, 데이터베이스는 긴 쿼리 시간을 보고하며, 결제 게이트웨이는 수많은 시간 초과를 기록합니다. 기존에는 IT 담당자가 각 서비스의 로그, 메트릭, 트레이스 정보를 직접 검토하여 문제를 파악했습니다. 시간도 많이 걸리고 오류가 발생하기 쉬웠습니다.
지능형 옵저버빌리티 도구는 여러 소스의 데이터를 자동으로 분석하고 상관관계를 파악하는 AI 기반 데이터 상호연관 기술을 사용하여 이 프로세스를 개선하고, 가장 가능성 있는 근본 원인을 표면화하는 데 도움을 줍니다. 예를 들어, 근래에 레이턴시가 급증한 것은 얼마 전 데이터베이스 쿼리 패턴을 변경한 후 부하와 시간 초과가 증가한 것과 관련이 있을 수 있습니다. 관련된 알림들을 자동으로 연결하고 시스템 동작의 중요한 변화를 식별함으로써 옵저버빌리티 도구는 인프라, 애플리케이션 로직 또는 외부 의존성과 관련된 근본 원인을 신속하게 식별하여 평균 해결 시간(MTTR)을 줄일 수 있습니다.
알림 상호 연관 및 노이즈 감소
복잡한 IT 환경에서는 하나의 문제로 인해 다양한 구성 요소에서 여러 알림이 발생해 중요한 신호가 알림 홍수 속에 묻혀버리고, '알림 피로' 현상이 야기될 수 있습니다. 최대 트래픽이 발생하는 기간 동안 한 마이크로서비스 기반 애플리케이션에서 일어날 수 있는 상황을 가정해보겠습니다. 비정상적인 CPU 사용, 높은 메모리 소비, 데이터베이스의 오류율 증가 등 다양한 서비스에서 여러 알림이 발생합니다. 이러한 각 알림은 그 자체로 잠재적인 문제를 나타낼 수 있지만, 동시에 발생하는 경우 갑작스런 요청 급증으로 인해 야기된 데이터베이스 병목 현상 같이 하나의 기본적인 문제로 인한 것인 경우가 많습니다.
알림 상호연관 기술을 사용하면 이러한 개별적인 알림들을 하나의 인시던트로 그룹화하여 각 증상을 고립된 문제로 처리하는 것이 아니라 더 광범위한 하나의 문제로 살펴볼 수 있습니다. 최신 옵저버빌리티 관행은 공유 인프라 구성 요소, 타이밍 또는 유사한 오류 메시지 같은 데이터 패턴을 기반으로 알림을 자동으로 상호연관시켜 이러한 프로세스를 개선할 수 있습니다. 이러한 접근 방식은 알림 노이즈를 줄일 뿐 아니라 시스템에서 발생하는 일에 대한 더 일관된 뷰를 제공하여 MTTR을 감소해줍니다.
아래 이미지는 뉴렐릭이 여러 위치에서 발생한 장애 인시던트를 어떻게 모니터링하고 보고하며 상호연관시키는지를 보여줍니다.
뉴렐릭 AI 기능으로 고급 옵저버빌리티를 확보하는 방법
AI가 지속적으로 옵저버빌리티를 변화시키고 있습니다. 뉴렐릭은 조직이 복잡한 시스템을 보다 효과적으로 관리하고 모니터링할 수 있도록 여러 가지 고급 AI 기반 기능을 플랫폼에 통합했습니다.
뉴렐릭 AI 모니터링
뉴렐릭 AI 모니터링은 대규모 언어 모델(LLM)이나 이와 유사한 고급 모델을 사용하는 AI 애플리케이션을 위해 특별히 설계되었습니다. 이 도구는 인프라와 데이터 처리부터 모델까지, 전체 AI 스택에 대한 포괄적인 옵저버빌리티를 제공합니다. 엔지니어는 LLM의 응답 시간, 토큰 사용량, 오류율 같은 주요 메트릭을 모니터링하여 이러한 모델이 최적의 성능을 발휘하는지 확인할 수 있습니다. 예를 들어, 엔지니어는 AI 모니터링을 사용하여 LLM이 요청을 얼마나 효율적으로 처리하는지 추적하고, 성능 병목 현상을 파악하며, 이러한 모델을 사용하는 데 따른 비용 영향을 관리할 수 있습니다.
아래 이미지는 뉴렐릭에서 이뤄지는 AI 챗봇 트랜잭션에 대한 전체적인 뷰를 보여줍니다.
뉴렐릭 AI
뉴렐릭 AI는 옵저버빌리티를 보다 접근하기 쉽고 효율적으로 만들기 위해 설계된 최초의 생성형 AI 어시스턴트입니다 . 유용한 기능 중 하나는 일상 언어 쿼리를 NRQL(뉴렐릭 쿼리 언어)로 변환하는 기능입니다. 이를 통해 사용자는 복잡한 쿼리를 생성하지 않고도 데이터에서 실행 가능한 인사이트를 간편하게 얻을 수 있습니다. 예를 들어, 사용자가 AI에게 "지난 24시간 동안의 평균 응답시간을 보여줘"라고 요청하면 시스템이 자동으로 해당 요청을 적절한 NRQL 쿼리로 변환하여 몇 초 내에 결과를 제공합니다. 또한 오류에 대한 간단한 설명을 제공하고, 사용자의 상호 작용을 시뮬레이션하기 위한 신세틱 검사를 자동으로 수행하며, 성능 최적화를 위해 각 상황에 맞는 권장 사항을 제공합니다. 뉴렐릭 AI에게 "어떤 문제가 있는가"라고 물으면 뉴렐릭 AI는 문제에 대한 개요와 실행 가능한 설명을 제공하여 더 신속하게 문제를 해결할 수 있도록 합니다. 또한, AI가 생성하는 신세틱 검사는 모니터링이 실제 사용자 행동과 일치하는지 확인하는 데 도움을 줍니다. 이러한 기능들을 사용해 팀은 문제를 더 빠르게 해결하고 선제적으로 시스템을 관리할 수 있습니다.
머신 러닝 운영(MLOps)
뉴렐릭의 MLOps는 실제 운영 환경에서 수명 주기 동안 맞춤화된 머신 러닝 모델을 관리하는 데 중점을 둡니다. 모니터링 및 진단 도구를 제공하여 모델 성능을 추적하고, 데이터 드리프트를 감지하고, 모델이 실제 상황에서 예상대로 작동하는지 확인하는 데 도움을 주며, 데이터 팀이 데브옵스(DevOps) 팀과 직접 협업해 개발, 테스트, 운영 모니터링을 위한 지속적인 프로세스를 구축할 수 있도록 합니다.
IT 운영을 위한 인공 지능(AIOps)
AIOps 도구는 머신 러닝을 활용하여 불필요한 알림을 줄이고, 관련 인시던트의 상호 연관성을 자동으로 분석하여 팀이 가장 중요한 문제에 집중할 수 있도록 지원합니다. 이러한 도구는 심각한 문제가 될 가능성이 가장 높은 알림에 우선순위를 정하여 인시던트 관리를 개선하고, 이를 통해 팀이 보다 효과적으로 대응하여 다운타임을 줄이는 데 도움을 줍니다. 대량의 텔레메트리 데이터가 생성되는 환경에서 AIOps는 노이즈를 차단하여 엔지니어가 인시던트의 근본 원인을 신속하게 식별하고 해결할 수 있도록 합니다.
뉴렐릭의 이러한 AI 기반 기능은 현대의 옵저버빌리티 관행에 필수적이며, 이를 통해 조직은 오늘날의 IT 환경의 복잡성을 효과적으로 관리할 수 있습니다. 이러한 도구를 통합함으로써 팀은 시스템을 모니터링, 진단 및 최적화하는 역량을 향상하여 확장 중에도 견고하고 안정적인 상태를 유지할 수 있습니다.
결론
AI는 계속 발전해나가며 옵저버빌리티 관행을 혁신하는 데 점점 더 중요한 역할을 하고 있습니다. 기존 모니터링 방법은 더 이상 현대 IT 환경의 복잡성과 규모를 관리하기에 충분하지 않습니다. 여러 곳에 분산된 시스템과 AI 애플리케이션을 운영하는 환경은 더욱 그렇습니다. AI를 활용하면 텔레메트리 데이터에서 더 심도 있는 인사이트를 얻을 수 있습니다.
AIOps, 뉴렐릭 AI, AI 모니터링이 포함된 뉴렐릭의 지능형 옵저버빌리티 제품군은 조직이 AI와 최신 인프라의 복잡성을 효율적으로 관리하면서 높은 시스템 성능을 유지할 수 있도록 지원합니다. 이러한 고급 기능을 통합함으로써 팀은 시스템의 안정성, 확장성, 성능 최적화를 보장할 수 있습니다.
다음 단계
아직도 뉴렐릭의 지능형 옵저버빌리티를 사용하지 않고 계신가요? 뉴렐릭의 무료 계정을 신청하여 최신 옵저버빌리티 도구가 어떻게 시스템의 안정성과 효율성을 유지하는 데 도움을 주는지 알아보시기 바랍니다.
이 블로그에 표현된 견해는 저자의 견해이며 반드시 New Relic의 견해를 반영하는 것은 아닙니다. 저자가 제공하는 모든 솔루션은 환경에 따라 다르며 New Relic에서 제공하는 상용 솔루션이나 지원의 일부가 아닙니다. 이 블로그 게시물과 관련된 질문 및 지원이 필요한 경우 Explorers Hub(discuss.newrelic.com)에서만 참여하십시오. 이 블로그에는 타사 사이트의 콘텐츠에 대한 링크가 포함될 수 있습니다. 이러한 링크를 제공함으로써 New Relic은 해당 사이트에서 사용할 수 있는 정보, 보기 또는 제품을 채택, 보증, 승인 또는 보증하지 않습니다.