얼마 전까지 만해도 '배달 음식'하면, 피자나 자장면을 생각했습니다. 그러나 이제, 앱 기반의 음식 배달 업체들이 늘어나면서, 레스토랑 수준의 음식을 집에서도 쉽게 즐길 수 있게 되었습니다. 집에서 만들기가 귀찮을 때는 물론, 사람들로 북적이는 식당에 가는 게 꺼려질 때도, 휴대폰으로 간단하게 한끼 식사를 해결할 수 있게 되었습니다.

딜리버리 히어로(Delivery Hero)는 이러한 소비자 행동의 변화로부터 혜택을 받고 있는 기업입니다. 2011년 베를린에서 설립된 이 온라인 배달음식 주문 플랫폼은 이후 천문학적으로 성장했으며, 현재는 중국을 제외하고 세계에서 가장 큰 음식 배달 서비스로 자리 잡았습니다. 아시아, 유럽, 중동, 미국 등 40여개국에서 250,000개 이상의 레스토랑 파트너를 보유한 딜리버리 히어로는, 하루에 2백만 건 이상의 주문을 처리합니다.

딜리버리 히어로의 엔지니어링 부사장 마티아스 니체(Mathias Nitzsche)는 “2013년에 입사 당시, 딜리버리 히어로 브랜드 중 하나인 푸드팬더(foodpanda)는 하루에 수백 건의 주문을 처리하고 있었다”며 “현재 딜리버리 히어로는 하루에 수십만 건의 주문을 처리하고 있으며, 매년 100% 이상 성장하고 있다”고 말합니다.

이러한 성장세에서는 확장 역량이 가장 중요합니다. 그리고 이를 위해서는 인프라와 애플리케이션에서 무슨 일이 일어나고 있는지를 명확하게 파악할 수 있어야 합니다.

니체는 “딜리버리 히어로에게는 속도가 규모만큼 중요하지는 않다"며 "규모에는 반드시 가시성이 따라야 한다. 가시성 없이 딜리버리 히어로 같은 플랫폼을 운영하는 것은 불가능하다”고 설명합니다.

현재, 딜리버리 히어로의 엔지니어링 팀에는 플랫폼 15개를 담당하는 개발자가 1,000명이 넘습니다. 내부적으로 판도라(Pandora)라 불리는 가장 큰 플랫폼이 푸드팬더, 푸도라(foodora) 등 몇 가지 브랜드를 지원합니다.

비즈니스의 효율성을 알려주는 의미 있는 가시성

딜리버리 히어로는 수년 동안 뉴렐릭에 의존해 비즈니스에 대한 귀중한 인사이트를 확보해 왔습니다. 원래는 애플리케이션의 가용성과 성능을 모니터링하기 위해 뉴렐릭을 도입했지만, 이후 플랫폼 사용을 확장하여 지역당 요청된 레스토랑 수, 플랫폼 및 국가별 주문 수, 결제 공급업체별 차지백 비율 등 업무상 중요한 KPI를 모니터링하고 있습니다.

니체는 뉴렐릭 플랫폼에 포함된 Insights 기능을 가장 중요한 구성 요소로 꼽습니다. 모든 딜리버리 히어로 팀들이 일상적으로 플랫폼의 성능을 이해하는 데 이 기능을 사용하고 있기 때문입니다. 니체는 감독해야 할 애플리케이션이 500개가 넘기 때문에 각 애플리케이션을 자세히 살펴볼 시간이 없다며 “Insights를 사용해 수백 개의 애플리케이션들을 이해하고 있다”고 말합니다. 몇 개의 크로스 애플리케이션 대시보드를 통해, 애플리케이션들에 대한 개요를 확인하고, 전 세계적으로 처리된 주문 수, 애플리케이션에서 발견된 오류 수 같은 비즈니스 메트릭을 추적할 수 있습니다.

그는 “Insights가 없다면, 우리 모니터링 역량은 반쪽자리에 불과할 것이다. Insights는 뉴렐릭의 꽃이라고 할 수 있다”고 말합니다.

Insights는 뉴렐릭 플랫폼의 모든 제품과 연결되기 때문에, 엔지니어는 뉴렐릭 APM의 데이터를 스트리밍하고 추적하여, Insights 내에서 심도 있게 분석, 세분화 및 필터링을 할 수 있습니다.

뉴렐릭은 니체의 팀이 필요로 하는 디테일한 포커스와 광범위한 개요를 모두 제공합니다. 그는 “엔지니어, QA 및 제품 관리자가 생성한 100여 개의 대시보드가 사무실 곳곳의 여러 화면에 표시된다”고 말합니다. 이러한 대시보드들은 시간대별로 가장 중요한 정보를 표시하여, 다양한 비즈니스 지표에 대한 세부적인 인사이트를 제공합니다.

모놀리식에서 마이크로서비스, 그리고 데브옵스로의 전환

전 세계적인 판도라 IT 인프라는 엄청난 변화를 겪었습니다. 비즈니스 성장을 보다 잘 수용하기 위해, 판도라 팀은 인프라를 모놀리식 플랫폼에서 Amazon Web Services(AWS)에서 운영되는 마이크로서비스 아키텍처로 마이그레이션했습니다.

니체의 팀은 뉴렐릭을 사용해 실시간으로 마이크로서비스 마이그레이션을 모니터링할 뿐만 아니라, 새로운 기업 인수에 따른 마이그레이션이나 다른 지역 플랫폼의 글로벌 플랫폼 마이그레이션을 모니터링합니다. 예를 들어, 이 기업은 최근 핀란드어 및 스웨덴어 애플리케이션을 글로벌 플랫폼으로 마이그레이션하여, 해당 국가의 서비스 제공 팀이 검색, 결제 및 인프라 같은 핵심 딜리버리 히어로 서비스들을 보다 더 잘 활용할 수 있도록 만들었습니다. 이러한 마이그레이션과 롤아웃에도 뉴렐릭을 사용해, 속도, 요청 및 오류 수, 데이터베이스 쿼리 등을 모니터링하고 있습니다. 니체는 “이러한 롤아웃 도중에 트래픽을 두 배로 늘려서 어떻게 작동하는지 보고 싶었지만,

마이크로서비스로 마이그레이션한 후 복잡성 수준이 높아졌다”고 말합니다. 한때는 판도라 플랫폼에 저장소가 하나뿐이었지만, 이제 쿠버네티스 클러스터에서 실행되는 수십 개의 마이크로서비스에 수백 개의 저장소가 분산되어 있습니다.

그리고 플랫폼이 변화하면서 팀에게도 변화가 있었습니다. 오늘날, 딜리버리 히어로는 여러 다기능 팀들로 구성된 진정한 데브옵스 기업입니다. 팀은 IT 기능별로 구분되는 것이 아니라, 관리하는 서비스에 따라 구분이 되어 있습니다. 예를 들어, 결제 팀, 체크아웃 팀, 검색 및 발견 팀 등이 있습니다. 각 팀은 자체적으로 제품을 설계하고 프런트 엔드 및 백엔드를 개발하며 인프라 리소스를 관리합니다.

이러한 변화는 딜리버리 히어로가 엔지니어링 팀을 확장하는 데 도움을 주었고, 그 결과로 데브옵스 문화가 자리를 잡았습니다. 이제 모든 팀들은 교차 기능을 수행하며, 비즈니스의 직접적인 니즈를 충족하는 데 중점을 둘 수 있습니다.

니체는 “다른 팀들이 무엇을 하고 있는지 보여주기 위해, 모니터링을 하고 이전의 오류를 조사하는 측면에서 많은 세션을 수행한다”며 “그 정보를 사용하여 개발 프로세스와 의사 결정을 가속화한다”고 말합니다.

2020년까지 우선적인 목표는 엔지니어링 팀의 엔지니어 수를 수백 명으로 대폭 늘리는 것입니다. 단순히 숫자를 늘리는 것이 중요한 게 아니라, 올바른 사고 방식을 가진 엔지니어가 필요합니다. 엔지니어는 뉴렐릭을 사용해 알림과 대시보드를 생성할 수 있어야 하고, 발생한 장애에 대해 사후 대응만 할 줄 알아서는 안됩니다. 기업 데이터를 체계적으로 운영하는 것은 데브옵스 문화를 촉진하는 데 중요하기 때문입니다.

놀라운 가시성

Insights는 딜리버리 히어로가 기술 메트릭을 비용 최적화와 연결하는 데 도움을 주었습니다. 니체는 “많은 tool이 기술적으로 텔레메트리를 측정해주지만, 뉴렐릭은 측정된 데이터를 비즈니스 메트릭과 비용에 연결해준다”고 말합니다.

“많은 tool이 기술적으로 텔레메트리를 측정해 주지만, 뉴렐릭은 측정된 데이터를 비즈니스 메트릭과 비용에 연결해준다.”

마티아스 니체(Mathias Nitzsche) 엔지니어링 부사장, 딜리버리 히어로

니체는 팀의 인프라 소비량을 확인하고 그 데이터로 환경을 최적화 할 수 있다는 것을 뉴렐릭의 또 다른 장점으로 꼽습니다. 뉴렐릭을 사용해 판도라 쿠버네티스 클러스터의 크기를 최적화할 수 있다는 사실도 큰 수확입니다.

뉴렐릭을 사용하기 전에는 어떤 애플리케이션이 어떤 클러스터 리소스를 사용하는지 파악하기가 쉽지 않았습니다. 예를 들어, 2018년 7월 기준 판도라에서 가장 큰 앱은 70만 대의 분산 컴퓨팅 시스템을 사용하고 있었습니다. 하지만 뉴렐릭으로 모니터링을 시작한 후, 20만 대만 사용하도록 최적화되었습니다. 높은 비용의 리소스를 71%나 절감한 것입니다!

니체는 “뉴렐릭이 없었다면, 어디서부터 시작해야 할지 몰랐을 것”이라며 “컴퓨팅 장치 수를 1년 전 대비 절반 이상 줄였다. AWS 사용량에 대해 많은 가시성을 확보할 수 있게 되어 놀랐다”고 말합니다.

“뉴렐릭이 없었다면, 어디서부터 시작해야 할지 몰랐을 것이다. 컴퓨팅 장치 수를 1년 전 대비 절반 이상 줄였다. AWS 사용량에 대해 많은 가시성을 확보할 수 있게 되어 놀랐다.”

마티아스 니체(Mathias Nitzsche) 엔지니어링 부사장, 딜리버리 히어로