Somente para inscritos
Cadastre-se para acessar conteúdos exclusivos.
Success! Here it comes.
Content automatically in 3...

0
Ao se cadastrar, você concorda com os Termos de serviço e com o viso de privacidade dos serviços​.

A New Relic executa uma das principais implementações de Kafka do mundo e opera centenas de serviços que consomem e/ou produzem a partir do Kafka. Desde o início, a equipe de SRE de streaming investiu nas bases de um ambiente Kafka confiável para a New Relic atender nossos clientes. Por exemplo, um lapso do Kafka pode estar diretamente relacionado a atrasos ou quedas na ingestão de telemetria, o que pode levar à perda ou atraso de alertas para o cliente, evidenciando que a confiabilidade do Kafka continua essencial. 

Esta equipe é dedicada às operações do Kafka, e eles se concentraram na criação de um Nerdpack personalizado para a observabilidade do Kafka. Este Nerdpack New Relic altamente customizado, repleto de métricas personalizadas, tornou-se uma ferramenta indispensável, compartilhada internamente com mais de 50 equipes que contam com os serviços do Kafka. O valor derivado desses insights operacionais foi tão profundo que estimulou diretamente o desenvolvimento do Kafka voltado para o cliente e das funcionalidades de observabilidade.

A principal motivação para construir essa observabilidade extensa de Kafka foi superar os pontos cegos vivenciados durante os incidentes. Sem dados granulares, diagnosticar as causas-raiz e identificar rapidamente os problemas recorrentes era um desafio significativo. O objetivo era "adicionar várias e várias camadas de observabilidade" para entender o comportamento do Kafka de forma abrangente antes, durante e depois dos incidentes.

O Nerdpack personalizado do Kafka fornece insights profundos sobre uma ampla gama de métricas. A equipe de SRE de streaming usa esses insights para:

  • Alertar sobre atraso no Kafka para manter a integridade da ingestão: o principal uso da New Relic pela equipe é garantir a integridade da ingestão de telemetria usando alertas sobre métricas do Kafka, como o atraso no Kafka, que está diretamente relacionado a atrasos ou quedas na ingestão de telemetria, o que pode levar à perda ou atraso de alertas críticos para os clientes. Isso representa um risco significativo para os negócios, pois os clientes dependem de alertas oportunos para sua própria visibilidade operacional. Alertas abrangentes de atraso no Kafka permitem o dimensionamento da ingestão e a otimização do desempenho.
  • Maximizar a capacidade de resposta: a New Relic permite que a equipe seja altamente responsiva aos problemas de processamento do Kafka, facilitando a rápida correção e minimizando o impacto no cliente.
  • Entender o comportamento do cliente Kafka: identifique configurações incorretas, buffers sobrecarregados e clientes paralisados.
  • Monitorar a integridade do lado do servidor: monitorar o desempenho do broker e a utilização de recursos.
  • Observar padrões de solicitação: analisar mudanças nos padrões de solicitação do cliente para antecipar e mitigar possíveis problemas.

A implementação da observabilidade do Kafka teve um impacto profundo na confiabilidade e eficiência operacional da New Relic:

  • Redução drástica no tempo de resolução de problemas: com dados de observabilidade abrangentes na ponta dos dedos, a equipe de SRE de streaming pode diagnosticar incidentes do cliente Kafka em minutos, geralmente resolvendo problemas dentro de um tempo de impacto total de minutos e segundos. Isso contrasta fortemente com a hora ou mais que poderia ter sido necessária sem esses insights detalhados.
  • Nerdpacks como runbooks dinâmicos: uma inovação fundamental defendida pela equipe de SRE é o uso de Nerdpacks da New Relic como runbooks dinâmicos. Esses aplicativos personalizados integram instruções textuais com resultados de consultas e visualizações em tempo real. Por exemplo, problemas de paralisação do pipeline do Kafka podem ser diagnosticados com visualizações no Nerdlet, que também gera automaticamente o comando necessário para estender a retenção de dados, transformando um processo manual de várias etapas em uma única ação de copiar e colar. Isso reduz significativamente a alternância de contexto e acelera a resolução.
  • Insights de nível executivo: diretores e executivos da New Relic utilizam o nerdlet de observabilidade do Kafka para avaliar rapidamente o status geral do atraso em ambientes ou clusters inteiros do Kafka, fornecendo uma visão de alto nível do desempenho de ingestão e escalabilidade.
  • Dimensionamento automático inteligente para desempenho e custo otimizados: a equipe de SRE de streaming desenvolveu ferramentas sofisticadas de dimensionamento automático que usam telemetria e métricas personalizadas da New Relic. Por exemplo, eles usam métricas de CPU da New Relic para aumentar ou diminuir dinamicamente os recursos do Kubernetes com base nas demandas de tráfego. Isso permite que a equipe gerencie com eficiência os picos de tráfego ingerido, aumentando a escala para reduzir o atraso e, em seguida, reduzindo a escala durante períodos de baixo tráfego. Esse dimensionamento automático dinâmico evita o provisionamento excessivo de recursos, garantindo eficiência de custos e mantendo a capacidade de lidar com workloads flutuantes.
New Relic Now Experimente hoje mesmo as novas integrações de agentes.
Assistir agora.