O que é prontidão para observabilidade?

Sua prontidão para observabilidade envolve monitorar proativamente os principais indicadores de desempenho (Key Performance Indicators, KPIs) críticos para seus objetivos de negócios. Para atingir os objetivos de negócios, é crucial um equilíbrio entre a cobertura e a integridade do monitoramento do aplicativo. Alcançar o equilíbrio ideal ajuda a organização a corrigir, otimizar e melhorar os fluxos de processo de acordo com a experiência e demanda do usuário final, resultando em um aumento no retorno sobre o investimento (Return On Investment, ROI). A plataforma da New Relic ajuda as empresas de forma perfeita e integrada a atingir seus objetivos.

Por que agora?

  • A experiência do cliente é fundamental para se destacar em um mercado altamente competitivo.
  • O desenvolvimento ágil exige múltiplos lançamentos, até mesmo centenas, em um curto período de tempo.
  • Abstração, integração e complexidade da modernização de aplicativos.

A prontidão para observabilidade deve fazer parte do seu ciclo de lançamento ou sprint. Isso ajuda com: 

  • A equipe de aplicativos deve se alinhar com os objetivos dinâmicos de negócio. 
  • O DevOps e a equipe de suporte devem entender a gravidade e a prioridade de um problema. 
  • As empresas devem colaborar efetivamente com as equipes para alcançar seus objetivos.

Por outro lado, a preparação para picos — que é um subconjunto da prontidão para observabilidade — é importante em termos de ampliação dos seus recursos vertical ou horizontalmente.

Benefícios de observabilidade contínua 

A cada trimestre, sua empresa tem objetivos que se alinham com a meta anual. A observabilidade precisa estar alinhada com esses objetivos e ajudar as empresas a atingir a meta. Por exemplo:

  • Reduza o custo operacional: Os serviços na nuvem e a infraestrutura continuamente consomem dinheiro das empresas. As atualizações, implantação e alterações do sistema devem ser monitoradas para garantir a utilização ideal dos recursos. 
  • Satisfação dos clientes: Conquiste a confiança de seus clientes entendendo como eles interagem com seu aplicativo e quais são os gargalos.  
  • Produtividade do funcionário: Certifique-se de que sua equipe esteja familiarizada com a ferramenta de observabilidade, cobertura de observabilidade, integridade e pontos cegos. 
  • ROI: Os KPIs de negócios mais importantes devem estar correlacionados com o desempenho do aplicativo. Isso ajuda a equipe do aplicativo a se concentrar nas áreas críticas de problemas. 
  • Nível de serviço: Rastreie serviços que não apresentam desempenho esperado durante um período e que estão afetando a produtividade do funcionário e os KPIs de negócios.

Processo de prontidão para observabilidade da New Relic

Vejamos as etapas do ciclo de vida da prontidão para observabilidade. 

1

Metas de negócios

Qual é o foco do ano ou trimestre atual? É melhorar o tempo de atividade, reduzir o tempo de inatividade, obter mais visibilidade ou adotar uma nova iniciativa de negócios, como migração para a nuvem, consolidação de ferramentas, adotar o OpenTelemetry, e assim por diante?

2

Observabilidade de arquitetura 

Garantir que a arquitetura de observabilidade esteja alinhada com as metas de negócios é uma etapa crítica. Escolher a plataforma da New Relic proporciona liberdade em suas metas de negócios e decisões de arquitetura. A plataforma da New Relic possui uma matriz de recurso e integração que adota código aberto e oferece suporte a aplicativos personalizados para atender às necessidades específicas do seu negócio.

3

Monitoramento de entidades

Comece a monitorar seu aplicativo com a New Relic, que pode fornecer um relatório em tempo real de todo o seu ambiente atual e também visibilidade sobre a cobertura e completude da observabilidade.

4

Identifique lacunas                          

Nem sempre é viável monitor todos os seus aplicativos, serviços, infraestrutura e assim por diante. No entanto, o negócio precisa prosperar. E isso significa que aplicativos críticos não devem ter pontos cegos, dados de telemetria ausentes e pontos de dados de negócios. Esta é uma oportunidade para ser criativo e encontrar soluções. Nós vamos voltar a este ponto mais tarde na postagem do blog.

5

Implementar e adotar

A New Relic integra-se a sua integração contínua e implantação contínua (Continuous Integration e Continuous Deployment, CI/CD) e facilita a implementação. Os clientes têm criado modelos usando recursos da New Relic Terraform, formação de nuvens, convenções, etc. Isso abre caminho para focar na adoção. A equipe da New Relic e o ecossistema de parceiros trabalham com você para tornar essa jornada mais suave.

6

Medir resultados

Os recursos da New Relic, como jornada do usuário, gerenciamento a nível de serviço (Service Level Management, SLM) e gerenciamento de qualidade de alerta (Alert Quality Management, AQM), ajudam você a medir os resultados com base nos objetivos definidos.

7

Repita

Sua observabilidade deve crescer continuamente de acordo com as necessidades do seu aplicativo e do seu negócio.

Identificar lacunas: O que é mais importante!

Como encontramos as lacunas que são mais importantes para você? 

Lembre-se, “o diabo está nos detalhes”. Identificar aplicações críticas, serviços e outros é direto e é um bom ponto de partida. 

Para os próximos passos, o que faremos?

  • Entreviste diferentes personas, como desenvolvedores, usuários e clientes
  • Colete feedback
  • Obter relatórios sobre os tickets criados nos últimos x meses
  • Realize auditorias de aplicativos existentes
  • E assim por diante

Os pontos acima são significativos, baseados em evidências e experiência. Como podemos nos tornar mais eficientes e encontrar as lacunas? Você já ouviu falar de engenharia do caos, Game Day ou DiRT?

Com uma abordagem reconhecida na engenharia de software, “engenharia do caos é a disciplina de experimentar em um sistema para construir confiança na capacidade do sistema de suportar condições turbulentas em produção”. (Wikipedia)

Realize sessões de engenharia do caos 

Encontre as deficiências na resolução de problemas a partir das sessões de engenharia do caos. A engenharia do caos é como uma faca suíça, pois ela ajuda com:

  • Ativação e adoção do recurso e funcionalidade da plataforma da New Relic: Os membros da equipe envolvidos nessas sessões aprendem uns com os outros. Deve ser um ambiente livre de estresse, onde os membros da equipe podem revisar e compartilhar suas descobertas. Eles entendem o que é esperado deles, a quem contatar e as complexidades do processo de gerenciamento de incidentes. 
  • Identificação dos seus pontos cegos: Os pontos cegos levam a um maior tempo médio de resolução (Mean Time To Resolution, MTTR) e também exigem expertise específica na sessão de resolução de problemas. 
  • Otimização de dados de telemetria: A comunicação entre equipes, unidades de negócios e pessoas é crítica. A sessão de caos oferece uma oportunidade de ver se temos todos os dados e pontos de informação necessários. Por exemplo, a empresa pode perguntar por que as vendas caíram na última hora, o que pode ser o resultado de uma promoção alterada, uma interrupção no serviço de um fornecedor, uma degradação do desempenho ou algum outro motivo que não tenha nada a ver com o aplicativo em si. 
  • Análise do efeito cascata do desempenho: Uma sessão de engenharia do caos permite avaliar e compreender a cobertura e a completude da observabilidade. Sem uma cobertura adequada, torna-se tedioso decidir a questão, prioridade e gravidade. 
  • Gargalos: No início dos anos 2000, se tivéssemos um problema, geralmente o atribuíamos ao banco de dados ou à rede, e começávamos a apontar dedos. Hoje, temos o que há de melhor em abstração, seja na nuvem, nos microsserviços ou na infraestrutura. Os aplicativos agora são mais inter e intra dependentes.

Podemos realizar engenharia do caos usando ferramentas como Gremlin, Chaos Monkey e Chaos Mesh, ou podemos fazê-lo manualmente.

As sessões de engenharia do caos ajudam a determinar o que é crítico para resistir às condições turbulentas em produção. Uma vez que você determine o que é essencial, a plataforma da New Relic pode fornecer cobertura de lacunas, recomendações e entidades ausentes — prontas para uso e sem intervenção.

A plataforma da New Relic: fechando a lacuna

A lacuna identificada pode variar e ter um amplo espectro. Com a plataforma da New Relic, você pode implementar rapidamente e de forma orgânica as capacidades necessárias para a prontidão para observabilidade. Independentemente da sua abordagem preferida de resolução de problemas (primeiro log ou primeiro métrica), você pode aproveitar os recursos do New Relic, tais como:

  • Logs em contexto: Os logs em contexto oferecem uma visão unificada dos seus logs juntamente com outros pontos de dados de telemetria contextual. Isso garante que não haja troca de ferramentas, que não seja necessário vasculhar centenas de linhas de log e que a análise da causa raiz seja mais rápida.
  • Distributed traces: Os rastreamentos (traces) fornecem uma análise detalhada da jornada do usuário para que você possa identificar gargalos de desempenho, independentemente dos vários serviços envolvidos na jornada do usuário.
  • Rastreador de mudança/implantação: O rastreador de mudança/implantação permite que você monitore de perto e mitigue problemas durante e após um dos eventos mais importantes, “Implantação” ou “Go Live”, do ciclo de vida de desenvolvimento de software. 
  • Gerenciamento de vulnerabilidades: O gerenciamento de vulnerabilidades ajuda a identificar e corrigir vulnerabilidades em todo o seu patrimônio, para que você possa reduzir o risco de ataque.
  • OpenTelemetry: OpenTelemetry é um padrão aberto para coleta e exportação de dados de telemetria, portanto você pode usar a New Relic para coletar dados de qualquer aplicativo ou infraestrutura.
  • Gerenciamento a nível de serviço: A SLA/SLM ajuda você a definir e rastrear acordos de nível de serviço (SLAs) e objetivos de nível de serviço (SLOs). Isso o ajudará a garantir que seus objetivos de negócios sejam alcançados.
  • Workloads: O Workloads fornece visibilidade sobre o desempenho do seu grupo de serviços. Isso pode ajudar uma equipe a manter o foco e manter as operações em funcionamento. 

Implemente as práticas recomendadas de monitoramento conforme aplicável ao seu ambiente específico. Isso garantirá que a cobertura e a integridade da observabilidade funcionem onde são mais importantes e ajudará você a controlar os custos.

Resumo

Alcançar a prontidão para observabilidade é essencial para qualquer organização que busque manter uma abordagem proativa para monitorar e melhorar seus aplicativos e infraestrutura. Seguindo o processo de prontidão para observabilidade e aproveitando o poder da plataforma da New Relic, as empresas podem garantir que seus sistemas estejam preparados para quaisquer desafios e alinhados com seus objetivos. Não espere por uma temporada de pico ou um evento crítico; comece a trabalhar em direção à prontidão para observabilidade hoje mesmo.