애플리케이션 성능 모니터링(APM)은 클라우드에 배포된 분산 마이크로서비스 기반 애플리케이션의 안정성과 성능을 유지하는 데 필수적입니다. 그러나 기존 APM 툴을 최신 아키텍처와 함께 사용하면, 데이터 사일로, 문맥 부족, 인시던트 해결에 방해가 되는 사각지대 같은 문제에 직면하하게 됩니다.

오늘 뉴렐릭이 APM의 차세대 혁신 뉴렐릭 APM 360을 출시했습니다. 뉴렐릭 APM 360은 개발 수명주기 전반에서 전체 애플리케이션 스택의 핵심 텔레메트리에 대한 통합 뷰를 제공하여 이러한 문제들을 해결하고, 애플리케이션의 상태와 성능을 개선하는 데 필요한 일상적인 인사이트와 워크플로우를 지원합니다. 이제 역할이나 경험 수준에 관계없이 모든 엔지니어들이 특정 문제가 업스트림 및 다운스트림에 미치는 영향을 이해하고, 새로운 추세를 발견하며, 심각한 문제가 되기 전에 예방할 수 있게 되었습니다.

뉴렐릭 APM 360은 모든 교차 기능 팀(개발, 운영 및 보안 포함)에게 다음과 같은 혜택을 제공합니다.

  • 애플리케이션 상태를 한눈에 파악하여 문제 예방
  • 사용자 및 비즈니스 문맥과 결합된 전체 스택 뷰로 더 빠르게 디버깅
  • 가이드 워크플로우와 데이터 권장 사항을 통해 모니터링 간극 제거

한눈에 앱 상태를 확인하여 문제 예방

뉴렐릭 APM 360은 APM 요약 타일들을 사용해 한 곳에서 애플리케이션의 전체 개발 수명 주기와 스택의 핵심 상태 지표에 대한 실시간 인사이트를 제공합니다. 여기에는 전반적인 서비스 상태를 모니터링하고 새로운 문제를 조기에 식별하는 데 필요한 문제, 배포, 서비스 레벨 및 취약성에 대한 정보가 포함됩니다. 이제 사용자는 여러 화면 간에 전환을 하지 않고도 한 곳에서 언제든지 모든 핵심 정보에 액세스할 수 있습니다.

예를 들어, 게이트웨이 서비스의 요약 타일(위 스크린샷)은 다음 정보를 제공합니다.

  • 문제(Issue) 타일: 주의가 필요한 게이트웨이 서비스에 대한 핵심 알림 1개를 표시합니다. 문제를 클릭하면 트랜잭션 시간이 급증하여 알림이 트리거되었음을 알 수 있습니다.
  • 배포(Deployment) 타일: 마지막 배포 후 오류율이 19% 감소하고 응답 시간이 55% 감소했음을 보여줍니다. 배포가 게이트웨이 서비스의 성능에 부정적인 영향을 미치지 않았음을 알 수 있습니다.
  • 서비스 레벨(Service level) 타일: 현재 비어 있으며 게이트웨이에 대해 서비스 레벨이 설정되지 않았음을 나타냅니다. 이로 인해 게이트웨이 서비스가 SLA를 충족하지 못할 위험이 있습니다.
  • 취약성(Vulnerability) 타일: 게이트웨이 서비스에서 보안 문제를 예방하기 위해 평가 및 완화가 필요한 높은 취약점을 강조 표시합니다.

요약 타일에 표시된 정보를 활용하여 주의를 집중할 위치를 파악하고 최적의 애플리케이션 성능과 보안을 보장하는 데 필요한 조치를 취할 수 있습니다. 게이트웨이 서비스의 경우, 서비스의 상태와 성능에 영향을 줄 가능성이 있는 중요한 알림과 취약성을 해결하는 것에 우선순위를 두어야 합니다.

전체 스택에 대한 통합 뷰로 더 빠르게 문제 해결

뉴렐릭 APM 360은 인프라에 대한 인사이트, 오류가 사용자에 미치는 영향, 로그 패턴, 분산 트레이스를 골든 시그널과 지능적으로 통합하여 모니터링을 더 높은 수준으로 끌어 올립니다. 이를 통해 전문 지식이 없는 엔지니어도 추측에 의존하지 않고 직관적이고 효율적으로 문제를 해결할 수 있습니다. 이제 애플리케이션 성능을 업스트림 및 다운스트림 추세와 연관시켜 문제가 애플리케이션의 다른 부분에 어떤 영향을 미치는지 실시간으로 이해할 수 있습니다.

APM의 통합 인프라

APM 360의 새로운 인프라 모니터링 환경은 호스트와 서비스 전반에서 점들을 연결하여 서비스에 영향을 미치는 부족한 프로비저닝 리소스를 쉽게 식별할 수 있도록 합니다. 전체 스택을 원활하게 탐색할 수 있으므로, 호스트와 실행되는 애플리케이션 간의 상호 작용을 쉽게 파악하고 분석할 수 있습니다.

어떤 효과를 제공하는지 설명하기 위해, 게이트웨이 서비스에 트랜잭션 시간 급증으로 인한 알림이 발생했던 이전의 시나리오를 살펴보도록 하겠습니다. APM 요약에서 통합 인프라 표에 포함된 CPU와 메모리 메트릭을 검토하면(아래 스크린샷 참조), 이 성능 문제의 근본 원인인 인프라를 신속하게 식별해낼 수 있습니다.

분산 트레이스에 대한 통합된 뷰로 문제 해결 간소화*

분산 트레이스는 문제 해결을 간소화하는 데 중추적인 역할을 하며, 복잡한 분산 시스템의 동작과 성능에 대한 귀중한 인사이트을 제공합니다. APM 텔레메트리와 분산된 트레이스를 함께 확인하면 서비스에 영향을 미치는 문제의 근본 원인을 효율적으로 식별할 수 있습니다. 몇 번의 클릭만으로 관련된 트레이스로 이동하여 문제를 포괄적으로 이해할 수 있습니다.

동일한 시나리오로 예를 들면, 서비스에 최근 배포된 항목이 없고 기본 인프라에 명확한 문제가 없음에도 불구하고 게이트웨이 서비스의 트랜잭션 시간이 증가했습니다.

APM 360의 분산 트레이스 구성 요소들은 문제 해결을 가속화합니다. APM 요약에서 분산 트레이스 정보를 검토하면(아래 스크린샷 참조) ACME 서비스의 레이턴시와 오류율이 게이트웨이 서비스에 영향을 미치고 있음을 분명히 알 수 있습니다.

관련된 서비스를 선택하면 다운스트림 ACME 서비스의 레이턴시가 급증하여 게이트웨이 서비스에 직접적인 영향을 주는 것을 관찰할 수 있습니다. (아래 스크린샷 참조) 분산 트레이스에 대해 더 자세히 알아보려면 View trace를 선택하기만 하면 됩니다.

APM 360에서 분산 트레이스에 대한 통합된 뷰를 통해 문제가 있는 서비스를 신속하게 차단하고, 문제 해결을 가속화할 수 있습니다.

오류가 사용자에 미치는 영향을 파악해 사용자 경험 향상

APM 360은 핵심적인 오류 메트릭을 제공하는 것 이외에 분석에도 영향을 미칩니다. APM 360을 사용하면 오류율 외에도 오류가 사용자에 미치는 영향을 확인할 수 있기 때문에, 가장 큰 영향을 미치는 오류에 우선순위를 지정하여 애플리케이션의 전반적인 사용자 경험을 개선할 수 있습니다.

앞서 설명한 시나리오로 다시 돌아가보면, ACME 서비스가 게이트웨이 서비스의 성능에 영향을 미치고 있음을 알 수 있습니다. ACME 서비스를 자세히 살펴보면(아래 스크린샷 참조) 배포 후 오류율이 급증했음을 볼 수 있습니다. 오류가 사용자에 미치는 영향을 보면, builtins:TimeoutError가 사용자에게 가장 큰 영향을 미치고 있으므로, 우선적으로 이 문제를 해결해야 합니다.

문맥화된 로그 패턴으로 더 빠르게 인사이트 확보*

오류가 사용자에 미치는 영향과 같은 맥락에서, 로그 패턴은 검색 없이 로그 데이터에서 가치를 발견할 수 있는 가장 빠른 방법입니다. 검색을 하면 근본 원인에 대한 설명을 제공하는 로그로 빠르게 이동할 수 있지만, 대부분의 데이터는 반복적이며 둘러보는 것만으로 맥락을 파악하기가 어렵습니다. 패턴을 사용하면 가치가 낮은 데이터를 읽는 데 많은 시간을 허비하지 않고 로그 데이터를 검색할 수 있습니다.

APM 360에는 통합된 뷰의 일부로 로그 유형 외에도 로그 차트에 로그 패턴이 포함되어 있기 때문에 문제의 근본 원인을 쉽게 찾을 수 있습니다. 다음 스크린샷에서, ACME 서비스를 위해 캡처된 50,000개의 로그에 문자열 패턴 GET <*> HTTP 1.1이 있는 것을 볼 수 있습니다. 이는 ACME 서비스의 근본 원인인 오류와 관련이 없습니다. 따라서 이러한 로그는 무시하고 문제 해결과 관련된 다른 로그에 집중할 수 있습니다.

APM 360은 업스트림 및 다운스트림 추세와 애플리케이션 성능의 실시간 상호 연관을 지원하는 통합 전체 스택 뷰를 제공합니다. 이러한 포괄적인 가시성을 통해 전문 지식 수준에 상관 없이 모든 엔지니어는 문제가 애플리케이션의 다양한 구성 요소에 미치는 영향을 이해하고, 더 신속하게 문제를 해결할 수 있습니다.

가이드 워크플로우와 데이터 권장 사항을 통해 사각 지대 제거

옵저버빌리티 관행을 향상하기 위해, APM 360은 모니터링 간극을 해소하고 상시 모니터링으로 전환할 수 있도록 지원합니다. 계측되지 않은 서비스, 누락된 알림, SLO, 취약성의 모든 단계에서 안내를 제공하여, 중요한 것이 눈에 띄지 않고 지나가지 않도록 하고 이전에 인지하지 못했던 문제를 식별할 수 있도록 합니다.

다음은 APM 360이 모니터링 간극을 발견하는 두 가지 시나리오입니다.

  • 누락된 SLO: 이 스크린샷은 게이트웨이 서비스에 대한 서비스 레벨이 누락되었음을 강조해 보여줍니다.
  • 계측 간극: APM 360은 청구 서비스 내에서 인프라 계측이 충분하지 않다는 사실을 표시해줍니다.

이러한 인사이트를 통해, APM 360은 모니터링 환경에 대한 포괄적인 뷰를 보장하여 단점을 해결하고, 옵저버빌리티 프레임워크를 강화할 수 있도록 합니다.

모든 엔지니어의 역량 강화

뉴렐릭 APM 360은 단순히 모니터링에서 그치는 것이 아니라, 전문 지식 수준에 관계없이 모든 엔지니어가 APM 툴을 사용해 최고의 역량을 발휘할 수 있도록 합니다. APM 360은 서비스 상태 및 주요 애플리케이션 지표에 대한 전체적인 뷰를 제공함으로써 애플리케이션의 성능과 상태를 보장하고, 문제를 예방하며, 비즈니스 결과에 실질적인 도움이 되는 인사이트를 제공합니다.