A equipe de rede da New Relic monitora seu ambiente de rede global, que inclui centenas de células com clusters Kubernetes que se conectam a múltiplos ambientes de nuvem. Para alcançar uma visibilidade abrangente, os SREs e engenheiros de rede desenvolveram um código usando bibliotecas New Relic que são implantados em cada cluster para coletar telemetria essencial de rede.
A principal motivação para construir essa ampla observabilidade de rede foi fornecer aos clientes uma melhor compreensão da rede e aumentar a confiança. O objetivo é capacitar outras equipes a se autoatender e eliminar problemas de rede como o primeiro suspeito na resolução de problemas.
Os dashboards de rede personalizados fornecem insights profundos sobre uma ampla gama de métricas, incluindo:
- Desempenho da Rede: monitoramento da largura de banda, perda de pacotes, oscilação, latência e utilização do caminho.
- Integridade da Infraestrutura: usando o agente de infraestrutura com conectores Amazon e Azure para obter informações dessas plataformas e ingeri-las na New Relic.
- Validação de Conectividade: utilizando um script personalizado que faz ping de um local para outro para confirmar a conectividade.
- Otimização de Custos: monitoramento de um serviço de tradução de endereços de rede de saída (NAT) para sair da rede de um provedor de nuvem a um preço significativamente menor, e monitoramento de picos de custos inesperados.
A implementação da observabilidade desta rede teve um impacto profundo na confiabilidade e eficiência operacional da New Relic:
- Redução drástica no tempo de solução de problemas: a implementação reduziu o número de páginas que a equipe de rede recebe. Um exemplo de observabilidade de rede foi a identificação de um problema de roteamento em que o tráfego estava falhando e usando uma solução de backup subdimensionada devido à ausência de uma rota estática. Isso permitiu que as equipes de rede da New Relic corrigissem o problema rapidamente e, posteriormente, implementassem uma configuração ativa-ativa para as rotas dos provedores de nuvem para equilibrar o tráfego e evitar a saturação.
- Identificação proativa de configurações incorretas: ao identificar problemas como rotas estáticas ausentes, a New Relic otimiza o uso de recursos e melhora significativamente a confiabilidade do sistema, levando à eficiência de custos.
- Runbooks dinâmicos: o objetivo é capacitar outras equipes a se autoatender e eliminar problemas de rede como o primeiro suspeito na resolução de problemas.
- Insights de nível executivo: a equipe também usa a New Relic para otimizar custos monitorando um serviço NAT de saída. Ela também monitora picos de custos inesperados e ajuda outras equipes a identificar e resolver problemas que levam a aumentos desnecessários nas cobranças de tráfego de dados.