A equipe de orquestração de contêineres, responsável por fornecer uma plataforma Kubernetes de autoatendimento para equipes internas de engenharia, também usa a New Relic para monitorar e otimizar um ambiente multinuvem expansivo. Com uma escala impressionante de centenas de clusters Kubernetes e dezenas de milhares de nodes nos principais provedores de nuvem pública, a equipe conta com a New Relic para visibilidade de ponta a ponta, resolução proativa de problemas, otimização de custos e estímulo da colaboração entre equipes. A equipe de orquestração de contêineres também usa a New Relic para necessidades de observabilidade, integrando-a profundamente em suas operações de Kubernetes e multinuvem.
Funcionalidades da New Relic utilizadas
- Agente de infraestrutura: implantado em todos os nós do Kubernetes para coletar métricas em nível de host e de contêiner.
- Instrumentação personalizada: amplamente utilizada para expor métricas específicas de controladores Kubernetes, automação, CoreDNS e até mesmo detalhes do sistema operacional Linux para insights profundos.
- Integrações na nuvem: usadas para extrair métricas das principais APIs de provedores de nuvem pública, fornecendo uma visão holística dos serviços dos provedores de nuvem juntamente com a telemetria interna.
- Dashboards e criador de consultas: essenciais para visualizar a integridade da plataforma, tendências de desempenho e para exploração de dados ad hoc durante investigações de incidentes.
- Alerta: alertas proativos com base nos principais indicadores de integridade da plataforma.
- Plataforma de dados centralizada: a New Relic fornece um contexto de dados compartilhados que elimina os silos entre a equipe de orquestração de contêineres e as equipes de aplicativo e desenvolvedores às quais dão suporte.
A equipe se concentra na integridade e eficiência no nível da plataforma e está usando os seguintes principais indicadores de desempenho (KPIs):
- Integridade do Kubernetes
- Número de pods não programados
- Problemas relacionados ao dimensionamento do nó de trabalho
- Estados do pod (por exemplo, "CrashLoopBackOff")
- Servidor da API do Kubernetes, escalonador e métricas do CoreDNS

Integridade de pod do Kubernetes
- Utilização de recursos e otimização de custos
- Uso significativo da CPU em trabalhadores
- CPU e memória ociosas para nós (para melhorar o empacotamento em recipientes e reduzir o desperdício)

- Infraestrutura de nuvem
- Métricas de instância de máquina virtual (VM) (CPU, memória, E/S de disco, rede)
- Métricas do corretor Kafka (por exemplo, fator de replicação, quedas de rede)
- Monitoramento dos serviços subjacentes do provedor de nuvem e seu desempenho
Abaixo estão alguns dos resultados que a equipe de orquestração de contêineres alcançou usando a New Relic:
- Disponibilidade e confiabilidade aprimoradas
- Resolução proativa de problemas: ao observar continuamente a plataforma, a equipe pode identificar e resolver possíveis problemas antes que eles afetem os clientes.
- Rápida investigação e resolução de incidentes: os dashboards da New Relic, a instrumentação personalizada e a capacidade de correlacionar dados em várias camadas — de aplicativos e serviços a camadas do Kubernetes (pods, nós) e à infraestrutura de nuvem subjacente — reduzem significativamente o tempo médio de resolução (MTTR). Por exemplo, quando a equipe do navegador relatou um problema com o frontend, a equipe de orquestração de contêineres o vinculou a pods não programados e rapidamente rastreou o problema até um alerta do plano de controle do Istio antes de resolvê-lo dimensionando os pods do Istio.
- Identificação de dependências externas: a telemetria detalhada permitiu que a equipe identificasse um problema de rede nos servidores de armazenamento de um provedor de nuvem como a causa-raiz de certos picos de desempenho, mesmo quando as investigações iniciais apontavam para outro problema. Essa visibilidade profunda dos serviços de nuvem de terceiros é crucial para manter a confiabilidade da plataforma.
- Otimização de custos significativa
- Seleção de instâncias baseada em dados: por meio de benchmarking de desempenho com dados da New Relic, a equipe pode comparar a relação custo-benefício e o desempenho de diferentes tipos de instâncias e provedores de nuvem. Isso permite a seleção da infraestrutura financeiramente mais adequada para seus workloads.
- Melhoria na utilização de recursos: ao monitorar CPU e memória ociosas, a equipe pode identificar proativamente oportunidades para melhorar o "empacotamento em recipientes" de serviços nos nós, resultando em melhor utilização de recursos e redução de gastos com a nuvem. Isso também permite forçar a redução de nós subutilizados.
- Colaboração harmoniosa entre equipes
- Contexto de observabilidade compartilhado: a New Relic atua como uma linguagem comum e fonte de dados entre as equipes internas. O compartilhamento de dashboards e consultas NRQL facilita o compartilhamento rápido de contexto e reduz o atrito durante a resolução de problemas de incidentes, permitindo que as equipes colaborem efetivamente para identificar e resolver problemas.
- Transferência bidirecional de conhecimento: os dados compartilhados e o processo de investigação conjunta facilitam o aprendizado das equipes sobre workloads e funções de outras equipes, levando à melhoria das práticas gerais de engenharia.
Autoatendimento capacitado para clientes internos
A equipe de orquestração de contêineres fornece às equipes internas de desenvolvedores as ferramentas e os dados dentro da New Relic para monitorar seus próprios serviços no nível do aplicativo. Enquanto a equipe da plataforma se concentra na integridade da infraestrutura, as equipes de aplicativos têm autonomia para atender às suas próprias necessidades de observabilidade, reduzindo a dependência da equipe da plataforma para o monitoramento diário de seus serviços.
Tomada de decisão estratégica informada
Além da resolução de incidentes, a New Relic fornece os dados granulares necessários para decisões estratégicas de longo prazo, como expandir a presença na nuvem, comparar ofertas de provedores de nuvem e otimizar sua estratégia multinuvem com base em dados de desempenho e custo do mundo real.