A organização global de engenharia da New Relic, responsável pelo gerenciamento de logs, usa extensivamente seus próprios produtos para fornecer serviços excepcionais a clientes internos e externos. Quando se trata de gerenciamento de logs, a organização de engenharia da New Relic alcança uma escala significativa, manipulando dezenas de petabytes de logs, juntamente com bilhões de consultas focadas em logs, mensalmente. Esta organização opera em um verdadeiro modo de implantação contínua, realizando implantações frequentes — muitas vezes dezenas de vezes por dia — usando a New Relic para observabilidade. Devido a essas mudanças frequentes, a validação confiável das implantações é fundamental, e a New Relic fornece os insights necessários.
Ao usar a New Relic na New Relic e seu produto de registro em log, estamos alcançando resultados significativos:
- Qualidade de serviço: o principal valor é fornecer uma certa qualidade de serviço aos clientes, ajudando a garantir que o produto de registro em log funcione efetivamente internamente.
- Identificação proativa de problemas: o uso diário da New Relic permite que as equipes identifiquem e resolvam problemas proativamente antes que eles cheguem à produção, minimizando o impacto no cliente.
- Lançamentos mais seguros: a capacidade de identificar e resolver problemas antecipadamente permite lançamentos mais seguros de novos recursos e atualizações.
- Resposta mais ágil a incidentes: como parte da Força de Resposta a Emergências da New Relic (New Relic Emergency Response Force, NERF), as equipes contam com o produto de registro em log da New Relic para uma resposta eficaz a incidentes. Os alertas do PagerDuty vinculados aos alertas da New Relic fornecem gráficos de métricas importantes e links de runbook para etapas rápidas de diagnóstico e resolução, eliminando a alternância de contexto.
Embora muitas métricas sejam observadas, aqui estão algumas das mais úteis para manter alta confiabilidade:
- Indicadores de nível de serviço (SLIs): os SLIs de alto nível são revisados regularmente quanto a experiências importantes, como latência de endpoint para ingestão de log e conformidade em várias integrações (por exemplo, AWS Kinesis Firehose, TCP, syslog).
- Objetivos de nível de serviço: há uma meta elevada de disponibilidade da plataforma New Relic para seus clientes. Esta métrica reflete o compromisso da New Relic com a integridade e a confiabilidade dos dados.
- Erros de JavaScript: monitorados por ambiente, navegador, usuário e componente do produto para acompanhar a experiência do usuário e identificar possíveis problemas.
- Atraso de dados: monitorar o aumento e a diminuição do atraso é crucial para a resposta a incidentes, especialmente porque os clientes da New Relic dependem da alta disponibilidade da plataforma.
A organização de engenharia de gerenciamento de logs usa muitas funcionalidades da New Relic, incluindo:
- Níveis de serviço, APM, observabilidade de infraestrutura e logs: esses recursos e insights fundamentais da plataforma são usados para garantir que os principais serviços operem dentro do orçamento de erro designado e para solucionar problemas de forma proativa.
- Alertas proativos: engenheiros de plantão contam com o alerta como um componente crucial de sua resposta a incidentes, principalmente quando recebem uma chamada para problemas de alta gravidade. Esses alertas são vinculados diretamente aos alertas da New Relic, que fornecem gráficos para diagnóstico imediato. Esse processo de alerta integrado, juntamente com runbooks estabelecidos, reduz significativamente o tempo de resposta e os ajuda a identificar e resolver problemas de forma proativa.
- Integrações abrangentes: a integração com os serviços dos principais provedores de nuvem, ferramentas de código aberto, juntamente com agentes New Relic, permite a ingestão de dados e a correlação de logs entre ferramentas, potencializando a observabilidade abrangente.