시작
마이크로서비스와 분산 시스템의 장점은 개발자가 고객용 애플리케이션과 핵심워크로드의 민첩성, 확장성 및 효율성을 향상할 수 있다는 것입니다. 그러나 단점도 존재합니다. 인프라가 엔터프라이즈에서 벗어나 추상화되고, 애플리케이션에 서드 파티 서비스, 레거시 구성 요소, 비즈니스 API 및 최신 클라우드 솔루션이 포함되기 때문에 디버깅과 모니터링이 점점 더 어려워진다는 것입니다.
명확한 근본 원인을 알 수 없는 인시던트가 발생하면 여러 애플리케 이션의 스택 계층에 부정적인 영향을 미칠 수 있는 문제를 찾아 진단 하고 해결하는 데 어려움을 겪을 수 있으며, 이로 인해 디지털 자산 이 느려지거나 오류가 발생하여, 기업은 수익과 평판을 잃을 위험에 처할 수도 있습니다.
하이브리드 환경, 더 넓은 표면, 단편화된 tool들이 쏟아내는 운영 데이터, 지속적인 알람 등 모니터링하고 대응해야 할 영역이 지속적 으로 늘어나면서 팀과 예산도 늘어나고 있습니다.
일부 기업은 이에 대응하기 위해, 수십 개의 상용 및 오픈소스 모니터 링 tool을 도입했습니다. 최종 목표는 소프트웨어와 시스템 전반에 대한 가시성을 높이는 것이지만, 인프라, 애플리케이션, 로그, 디지털 경험 등을 서로 원활하게 연결하지 못하는 솔루션들로 인해 tool 이 무질서하게 확산됩니다. 이러한 상황이 발생하면, 엔지니어는 문제를 발견하기 위해 지속적으로 여러 솔루션 간에 전환을 해야 하기 때문에, 중요한 순간에 사각 지대, 작업 증가 및 불필요한 문제가 야기됩니다.
개발자가 새로운 tool을 배우고 수용하는데 드는 비용, 운영비용, 자본 비용 등 비용 증가도 만만치 않습니다. 오픈소스 tool이 벤더 비용을 피할 수 있는 기회처럼 보일 수 있지만, 많은 조직은 이러한 솔루션 을 유지하고 운영하는 데 필요한 궁극적인 인프라와 인적 노력을 예측하는 데 여전히 어려움을 겪고 있습니다.
늘어나는 복잡성 속에서 더 나은 소프트웨어를 구축하는 방법
그럼에도 불구하고, 대부분의 엔지니어들은 여전히 한 가지 목표에 초점을 두고있습니다. 실제 운영환경에서 제대로 실행되도록 코드를 빌드하고 유지관리하는것입니다. 문제가 발생하면, 신속하게 문제를 이해하고 찾아서 수정해야 합니다. 더 완벽한 소프트웨어를 제공한다는 것은 끊임없는 도전과제이지만, 이를 잘 수행하는 기업은 보통 다음의 세 가지 주요 결과를 얻게 됩니다.
- 업타임 및 성능 향상. 고객의 관심, 전환 및 브랜드 선호도를 향상해주는 탁월한 디지털 고객 경험을 제공하려면, 개발 및 운영 팀은 문제를 신속하게 식별, 진단 및 수리하는데 필요한 가시성 과 tool을 보유해야 합니다.
- 더 큰 규모와 효율성. 기업이 성장함에 따라, 워크로드를 클라 우드로 마이그레이션하여 규모를 확보하고, 애플리케이션 및 인프라를 재설계하며, 마이크로서비스 및 서버리스같은 아키텍처를 도입하려면 환경을 철저하게 관리하고 유지할 수 있어야 합니다. 또한 여러 다른 tool들을 합리화하여 데이터 사일로를 제거하고, 총체적인 가시성을 활성화하며 비용을 줄여야 합니다. 뉴렐릭의 조사에 따르면, 평균적으로 기업들이 텔레메트리 데이터를 수집 하는 시스템은 전체 시스템의 절반이 채 안됩니다.
- 시장출시 시간 단축. 오늘날의 소비자는 그 어느때보다 더 많은것을 요구하고 있습니다. 더 빠른 기능 배포, 더 신속한 복구 및 더 많은 실험을 지원하여 비즈니스 경쟁력을 끌어 낼 수 있도록 개발 팀에 데이터와 tool을 제공해야 합니다. 또한, 설정 관리, 연속 통합, 자동화된 테스트 같은 연속 배포 관행을 도입하여 민첩성을 확보 해야 합니다. 성공적인 데브옵스 팀은 협업 및 가시성의 문화를 촉진하며, 여러 부서의 엔지니어들이 학습 내용을 공유하고 더 잘 조율하여 어디에 집중할지 정확히 파악합니다.
옵저버빌리티를 통한 현대 시스템의 도전과제 해결
모놀리식 애플리케이션에서 소프트웨어를워터폴 방식으로 드문드문 출시하던 시절은 지났습니다. 오늘날 분산된 팀들은 소프트웨어 업데이트를 운영 환경으로, 또 컨테이너 등의 임시 아키텍처로 계속 푸시합니다.
현실에서는 인프라, 코드 및 엔드유저 행동의 변화가 현대 시스템의 특징이며, 이러한 변화는 본질적으로 위험을 안을 필요가 없습니다. 기업은 시스템의 안정성과 속도 간에 효과적으로 균형을 맞춰줄 수 있는 기술 파트너가 필요합니다.
모든 애플리케이션과 기반 서비스 및 시스템이 어떻게 연관되어 있는지 확인할 수 있어야만 조직 경계 전반에서 종속성을 이해하고, 문제를 더 빨리 진단하고 해결할 수 있습니다. 처음에 질문을 할 필요성에 대해 예상하지 않았더라도, 데이터에 대해 실시간으로 즉각적인 질문을 할 수 있어야 합니다. 그래야만 옵저버빌리티가 확보됩니다.
간단히 말하면, 옵저버빌리티는 복잡한 디지털 시스템의 행동을 얼마나 잘 이해할 수 있는가를 의미합니다. 여기에는 운영 데이터 즉, 메트 릭스, 이벤트, 로그 및 트레이스(줄여서 MELT)를 사전에 수집하는 것이 포함됩니다. 직관적인 환경을 통해 수집된 데이터의 관계를 한곳에 시각화하고, 인텔리전스를 적용하여 고객이 인지하기 전에 문제를 즉시 감지, 진단 및 해결해야 합니다. 모니터링이 무언가 잘못되었을 때 알려준다면, 옵저버빌리티는 그 이유를 물어볼 수 있게 해줍니다.
New Relic One : 간단해진 옵저버빌리티
옵저버빌리티를 확보하려면 올바른 기술 플랫폼이 필요합니다. 플랫폼은 전용 소스이든 오픈소스이든, 모든 소스에서 텔레메트리 데이터를 수집할 수 있어야 합니다. 또한 텔레메트리 데이터를 유연 하게 쿼리하고 ‘알려진 불확실한 일’을 이해하며, 동적 시스템의 ‘알려 지지 않은 불확실한 일’을 조사할 수 있게 해주어야 합니다. 고유 값의 수가 문제가 되면 안됩니다.
New Relic One은 더 완벽한 소프트웨어를 만드는데 도움이 되도록 구축된 클라우드 기반 옵저버빌리티 플랫폼으로, 세 가지 핵심 구성 요소를 포함합니다.
풀 스택 옵저버빌리티(Full-Stack Observability)는 하나의 연결된 환경에서 전체 소프트웨어 스택을 쉽게 시각화 및 분석하고, 문제를 해결할 수 있게 해줍니다. 서로 다른 tool 간에 전환을 하지 않아도 흩어져 있는 데이터를 연결하여 무엇이 잘못되었는지 보여줍니다. 풀스택 옵저버빌리티는 풍부한 분석과 체계적인 사용자 환경을 통해 인프라, 애플리케이션 및 엔드유저 경험에서 문제를 더 빨리 찾아 해결할 수 있도록 필요한 context를 제공합니다.
응용 인텔리전스(Applied Intelligence)는 인시던트를 더 빠르게 감지, 이해 및 해결할 수 있는 역량을 제공합니다. 또한 인공 지능과 머신 러닝을 기반으로, 알람 노이즈를 감소시키는 AIOps 기능을 제공하여 데이터에서 간과될 수도 있었던 인사이트를 찾을 수 있도록 합니다.
텔레메트리 데이터 플랫폼(Telemetry Data Platform)은 모든 소스에서 메트릭, 이벤트, 로그 및 트레이스를 수집해 한 곳에서 시각화하고알람을설정할수있게합니다. 가장강력한매니지드오픈 통합 텔레메트리 데이터베이스에 주요 오픈소스 tool이 기본 통합 되어 쉽게 설정이 가능하며, 추가적인 모니터링 시스템이나 데이터 스토어의 호스팅, 운영 및 관리에 수반되는 비용과 복잡성이 제거됩 니다. 모든 텔레메트리 데이터가 한곳에 존재하기 때문에, 알려지지 않은 정보에 대해서도 확신을 가지고 조사할 수 있습니다.
풀 스택 옵저버빌리티
풀 스택 옵저버빌리티는 애플리케이션, 인프라, 로그, 서버리스 앱 등 전 자산에 걸쳐 간단하고 직관적이며, 체계적인 모니터링 경험을 제공 합니다. 텔레메트리 유형이나 스택에서의 데이터 생성 위치에 관계 없이, 데이터가 자동으로 연결되기 때문에 공통 스레드 사이를 탐색 하는 데 필요한 context를 빠르게 확보할 수 있습니다. 풀 스택 옵저버빌리티를 사용하면 다음의 기본적인 기능들을 통해 하나의 통합 환경에서 전체 소프트웨어 스택의 문제를 이해하고 해결 할 수 있습니다.
New Relic Explore
New Relic Explorer는 인프라 호스트, 모바일 앱, 분산 서비스, 클라우드 API 등 모든 소스에서 텔레메트리 데이터를 탐색하고 시각화할 수 있도록 해주는 직관적인 환경을 제공합니다. 사전 설정 된 정적 임계값이나 대시보드에 의존하지 않고, 새로운 문제를 실시 간으로 발견할 수 있기 때문에 고객이 문제를 인지하기 전에 시스템 의 운영을 완전하게 재개할 수 있습니다.
- 더 신속한 답변 확보. 사일로가 제거되고 팀이 전체 시스템을 한 곳 에서 관찰할 수 있기 때문에, 환경 전반의 상태와 변화를 빠르게 이해하고 문제를 더 빨리 해결할 수 있습니다. 별도의 설정이 필요 하지 않으므로, 즉시 인사이트를 확보하는 것이 가능합니다.
- 한 곳에서 모든 것을 확인. 운영 환경에 의도치 않은 변경 사항을 발견할 수 있도록 해주는 실시간 변화 분석을 통해, 모든 텔레 메트리 데이터에 대한 전체적인 뷰를 제공합니다.
- 간단하고 직관적. 모든 문제를 빠르게 이해하고 우선순위를 정할 수 있는 직관적인 시각화를 통해, 대규모 분산 시스템을 효율적 으로 관리할 수 있습니다. 모든 엔터티에 대한 포인트-앤-클릭 필터링 및 그룹화를 통해 엔터티유형, 또는 태그별로 모든 데이터를 쉽게 탐색할 수 있는 무한한 가능성을 확보할 수 있습니다.
APM은 개발 방법이나 실행 위치에 관계없이 최신 애플리케이션에 유연하고 심층적이며, 체계적인 뷰를 제공합니다. 또한, 즉시 사용 가능한 계측 기능과 자체적인 워크플로우는 이상 징후를 신속하게 감지하고, 결함을 발견하여 비즈니스에 핵심적인 애플리케이션 및 분산 서비스에 대한 주요 메트릭을 향상시킬 수 있게 합니다. APM 을 통해 팀은 다음과 같은 혜택을 얻을 수 있습니다.
- 새로운 기능의 신속한 배포. 단일 화면에서 체계적이고 포괄적 인 정보를 확인하여 복잡성과 위험을 감소하고, 서비스를 신속 하게 배포할 수 있습니다.
- 신속한 문제 및 가동 중단 해결. 앱의 규모나 복잡성에 상관없이 모든 앱의 외부 의존성과 정확한 메소드 호출 및 라인번호가 표시 되는 세부적인 트랜잭션 정보를 제공하여, 문제의 근본 원인을 신속하게 파악 및 해결할 수 있습니다.
- 서비스 성능 최적화. 모바일 및 브라우저 앱의 주요 메트릭을지원 서비스, 데이터스토어 및 호스트와 결합해 완전한 그림으로 제공 하여 총체적으로 성능을 최적화할 수 있습니다.
인프라 모니터링은 온프레미스에서 실행되는 서버, 클라우드에서 실행되는 VM, 쿠버네티스로오케스트레이션되는컨테이너등인프라 에서 발생하는 모든 상황을 신속하게 파악합니다. 애플리케이션을 지원하는 인프라를 직관적으로 모니터링, 관리, 확장, 상호 연결 및 최적화합니다. 인프라 모니터링을 통해 팀은 다음과 같은 혜택을 얻을 수 있습니다.
- Context별 모니터링을 통한 운영 중단 방지. 분산된 운영 환경의 복잡한 관계와 종속성을 명확하게 이해할 수 있습니다. 인프라의 텔레메트리 데이터를 로그, 설정 변경 사항 및 애플리 케이션 성능 데이터와 상호 연관시켜 올바른 context로 표시해 주기 때문에 인프라와 애플리케이션이 서로 어떻게 영향을 미치 는지 파악할 수 있습니다.
- 쿠버네티스 클러스터에 대한 다차원적 뷰 확보. 복잡한 환경을 간소화해주는 체계적인 UI를 통해 쿠버네티스 데이터 및 메타 데이터를 세부적으로 분석할 수 있습니다.
- 클라우드-레디 통합 기능 활용. 즉시 사용 가능한 통합 기능은 데이터베이스, 웹 서버, 네트워크 장치, 검색 엔진, 대기열 시스템, 클라우드 공급자 등의 서비스로부터 포괄적인 텔레메트리 데이터를 제공합니다.
- 전체 호스트 인프라 검색. 인프라 모니터링은 시스템 모듈, 설정 파일, 메타데이터, 패키지, 서비스, 사용자 세션 등 호스트 별 시스템 설정에 대한 세부적인 정보를 수집합니다.
서버리스 모니터링은 서버리스 애플리케이션의 가장 세부적인 행동에 대한 통합된 가시성을 제공합니다. 이 기능을 통해 팀은 서버리 스 아키텍처에 대한 확신을 가지고 더 신속하게 소프트웨어를 개발 및 배포할 수 있습니다. 서버리스 모니터링을 통해 팀은 다음과 같은 혜택을 얻을 수 있습니다.
- 지능적인 디버깅. 문제가 발생한 경우, 수백만 개의 실행 로그 를 거치지 않고 원인을 신속하게 파악해 서버리스 앱들을 안정 적으로 제공할 수 있습니다.
- 계측 시간 감소 및 구축 시간 증가. 코드를 변경하지 않아도 서버 리스 함수에 대한 모니터링 및 관찰성을 신속하게 자동으로 계측할 수 있습니다.
- 전체 에코시스템에 대한 통합 가시성. 레거시 애플리케이션의 구성 요소는 물론 백엔드 인프라에서 클라이언트측 앱까지, 모든 최신 서버리스 구성 요소의 성능을 자동으로 계측하고 추적할 수 있습니다.
엔드유저가 모바일 앱과 웹 브라우저를 어떻게 경험하는지 신속하게 파악할 수 있습니다. 실제 또는 시뮬레이션된 엔드유저의 행동을 분 석하여, 로드 시간, 가용성 및 오류 같은 메트릭을 개선하며, 이러한 중요한 디지털 경험을 지원하는 백엔드 서비스를 안정적으로 유지 할 수 있습니다. 디지털 경험 모니터링을 통해 팀은 다음과 같은 혜택을 얻을 수 있습니다.
- 모바일 앱 안정성 유지. 앱에 가장 큰 영향을 미치는 충돌을 식별하고 브레드크럼 및 이벤트 추적을 사용해 더 빠르게 수정 할 수 있습니다.
- 엔드포인트 성능 및 레이턴시 분석. 고객 및 직원 애플리케이션에 대한 서비스, URL 및 API 엔드포인트의 업타임 및 성능 문제를 감지하고 해결할 수 있습니다.
- 엔드유저의 상호작용 및 활동 탐색. 각 릴리스가 모바일 앱, 상위 사용자 및 전체 비즈니스의 성능 KPI에 미치는 영향을 이해할 수 있습니다.
- 고객 경험(CX) 최적화. 사이트 속도와 성능을 벤치마킹하고 개선하여 고객의 참여도, 만족도 및 비즈니스 성과를 높일 수 있습니다.
- 오류 디버깅. Javascript과 엔드-투-엔드 트랜잭션을 변경하는 경우, 교차기능팀은 오류, 레이턴시 및 이상을 신속하게 해결하는데 필요한 모든 tool과 context를 확보할 수 있습니다.
context 로그는 온프레미스, 또는 클라우드 텍스트로 변환될 수 있는 데이터나 모든 텍스트 기반 데이터에 대한 가시성을 제공합니다. context 로그를 사용하면 다음과 같은 혜택을 얻을 수 있습니다.
- 문제 해결 가속화. 로그를 다른 텔레메트리 데이터 유형과 결합하면 완전한 관찰성을 확보하는 것이 가능해집니다. 상호 연관된 대규모 로그에 대한 가시성을 통해 분산 시스템의 문제를 더 빠르게 해결하고, 평균감지시간(MTTD) 및 평균해결시간 (MTTR)을 감소시킬 수 있습니다. 한번의 클릭으로 오류, 트레이스 또는 스팬에서 상호연관된 로그로 이동이 가능하기때문에, 신속하게 근본 원인을 분석할 수 있습니다.
응용 인텔리전스
사용하기 쉽고, 강력한 응용 인텔리전스 기능은 문제를 더욱 빠르게 감지, 이해 및 해결할 수 있도록 지원하며, 데이터에서 머신 러닝이 없다면 놓칠 수 있는 인사이트를 찾아내고 알람 노이즈를 감소 시킵니다.
응용 인텔리전스의 주요 혜택 및 기능:
- 더 빠른 연결 및 가치 확보. 안내를 제공하는 설정 UI, 웹후크 및 API를 사용해, 클릭 몇 번으로 이미 사용 중인 tool(Slack, Pager Duty, Splunk, Grafana, Prometheus, Amazon CloudWatch)을 연결할 수 있으며, 모든 소스에서 알람, 인시던트 및 이벤트 데이터를 수집할 수 있습니다.
- context를 통한 이상 자동 감지. 레이턴시, 오류 및 트래픽 같은 사이트 안정성 엔지니어링(SRE)의 핵심 신호를 기반으로, 서비스의 이상 징후를 사전에 모니터링하고 실시간으로 장애에 대한 알람을 받아 분석함으로써 신속하게 문제를 해결할 수 있습니다.
- 알람 노이즈 및 피로 감소. 플래핑(경로의 잦은 변경) 감지 및 스마트 억제 등 인시던트 간의 관계를 수립하여, 우선순위가 낮은 자동 해결 알람의 발생을 최대 90%까지 줄여줍니다.
- 의사 결정 로직과 상호 연관 주입. 비교할 데이터, 상관 관계, 최대 고려 기간 및 상관 관계를 수립할 최소 알람 수를 AI에게 알려주는 직관적인 의사 결정 빌더를 사용해, 상호 연관 로직을 빠르게 구 축합니다. 사용할 유사 알고리즘을 선택하여 완전한 제어력을 확보할 수도 있습니다.
- 인시던트의 상호 연관에 대한 완전한 투명성. 상호 연관이 수행되는 이유와 방식에 대한 완전한 투명성과 신뢰를 제공하고, 노이즈는 줄이면서 중요한 신호는 간과되지 않도록 해줍니다.
- 인시던트 인텔리전스를 통한 진단 및 대응 가속화. 보다 심도 있는 문맥과 메타데이터로 상호 연관된 인시던트를 강화하여, 문제를 진단 및 이해하고 근본 원인을 파악하여 더 빠르게 해결합니다.
- 적절한 대응 팀에게 인시던트 신속하게 이관. 상호 연관된 인시 던트를 가장 적절한 대응 담당자에게 전달합니다.
- 기존 인시던트 대응 워크플로우 변경 불필요. PagerDuty, OpsGenie, ServiceNow 등과 같은 tool로 상호연관된 풍부한 인시던트를 제공해주기 때문에, 인시던트 대응 체계를 재구축할 필요가 없습니다.
텔레메트리 데이터 플랫폼
풀 스택 옵저버빌리티 및 응용 인텔리전스가 제공하는 역량, 기능 및 경험은 대규모로 확장 가능한 시계열 데이터베이스인 텔레메트리 데이터 플랫폼으로 지원됩니다. 이 플랫폼을 통하여 팀은 모든 메트릭, 이벤트, 로그 및 트레이스를 한곳에서 수집 및 탐색하고 알람을 설정할 수 있습니다.
텔레메트리 데이터 플랫폼의 혜택:
- SaaS 플랫폼. 장기 보관 기능, 고가용성, 복구력, 확장성을 제공하는 강력한 SaaS 플랫폼으로, 추가 시스템의 운영 및 관리가 필요 없습니다.
- 개방형 통합 텔레메트리 데이터베이스. 모든 메트릭, 이벤트, 로그 및 트레이스를 한곳에서 수집, 분석, 시각화 및 알람 설정할 수 있는 대시보드를 구축하여, 그 어느 때보다 빠르게 문제를 이해하고 해결할 수 있습니다.
- 엔터프라이즈 급. FedRAMP 중급 영향 레벨과 일반 개인정보 보호법(GDPR) 같은 규제 요구 사항을 충족할 수 있도록 저장 중 데이터의 암호화, 역할 기반 액세스 제어(RBAC) 등의 최고 보안과 암호화 수준으로 구축 및 운영됩니다. 전담 전문가가 연중 무휴 24시간 고객 지원을 제공합니다
- 포괄적 및 미래 지향적. 뉴렐릭의 전담 개발 팀의 혁신과 광범위한 솔루션을 구축하고 있는 오픈소스 커뮤니티를 활용할 수 있습니다.
New Relic One으로 복잡한 시스템에 대한 가시성 확보
New Relic One은 엔지니어가 문제 해결 시간을 줄이고 더 완벽한 소프트웨어를 구축하는데 많은 시간을 할애할 수 있도록 지원합니다. 확장성이 뛰어나고 포괄적인 이 SaaS 플랫폼은, 모든 인프라 및 애플리케이션 데이터를 수집하고, 수집된 데이터를 연결된 뷰로 빠르게 시각화 해주며, 머신 러닝 기술을 적용해 이상 감지, 이벤트 상호 연관, 알람 억제 같은 다양한 혜택을 제공합니다.
이제 모든 것에 대한 옵저버빌리티의 시대가 열린 것입니다. 지금 바로 무료 New Relic One 계정을 신청하십시오.