Mesmo com todas as novidades, muitas equipes de DevOps e SRE tiveram problemas para transformar o sonho de AIOps em realidade. No caminho, encontraram curvas de aprendizado íngremes, implementações e treinamentos longos, preços proibitivos e falta de confiança em inteligência artificial (IA) e machine learning (ML). Quando analisamos os desafios enfrentados pelos atarefados engenheiros de plantão, eles costumam mencionar três complicações na manutenção dos serviços:
Por Guy Fighel, 17 de março de 2021
Mesmo com todas as novidades, muitas equipes de DevOps e SRE tiveram problemas para transformar o sonho de AIOps em realidade. No caminho, encontraram curvas de aprendizado íngremes, implementações e treinamentos longos, preços proibitivos e falta de confiança em inteligência artificial (IA) e machine learning (ML). Quando analisamos os desafios enfrentados pelos atarefados engenheiros de plantão, eles costumam mencionar três complicações na manutenção dos serviços:
- A dificuldade em descobrir problemas emergentes e incertezas quando dependem de alertas ou painéis estáticos para saber o que está mudando.
- O desafio de fazer a triagem de incidentes e saber como responder a uma falha sequencial quando várias ferramentas estão disparando alertas.
- A demora e a complexidade em diagnosticar as causas raízes quando é necessário alternar manualmente entre painéis para entender a causa e os efeitos dos problemas.
Resumindo: os engenheiros não podem mais desperdiçar tempo e recursos com debates e especulações para resolver incidentes. Ou pior, descobrir que há problemas porque os clientes avisaram. Mas isso acaba hoje, com o lançamento da nova geração da Applied Intelligence (Inteligência Aplicada) da New Relic, que facilita ainda mais:
- Detectar mudanças incomuns na hora: você perceberá anomalias automaticamente em seus aplicativos, serviços e logs para evitar potenciais problemas antes que afetem os clientes.
- Diminuir o ruído de alertas: você pode reduzir o volume de alertas e priorizar problemas facilmente agrupando alertas e eventos de diferentes fontes em um único problema correlacionado e acionável.
- Descobrir a causa raiz rapidamente: acabe com especulações e resolva problemas mais rapidamente com insights automáticos sobre a provável causa raiz de qualquer problema.
- Acelerar a resposta a incidentes: integre a Applied Intelligence da New Relic a ferramentas de ITSM, e otimize o gerenciamento de incidentes em diversas ferramentas mantendo tudo sincronizado.
Vejamos as novidades e o que está disponível na Applied Intelligence.
Detecte mudanças incomuns instantaneamente
Detecção de anomalias contínua, automática e sem custo adicional
A Applied Intelligence encontra anomalias automaticamente com base em sinais clássicos como taxas de transferência, erros e latência em todos os aplicativos e serviços. Agora, esse recurso é ativado automaticamente para todos os aplicativos e serviços instrumentados, sem configuração nem custo adicional. Ao detectar anomalias, a Applied Intelligence notifica você automaticamente pelo Slack e por outras ferramentas de colaboração, oferece um feed em tempo real de cada anomalia, além de análises aprofundadas para acelerar a resolução e impedir que potenciais problemas afetem os clientes.
Video
Padrões de log (Log Patterns)
Agora, a Applied Intelligence inclui um novo recurso que usa machine learning para detectar padrões e revelar anomalias nos dados de log, ajudando a acelerar a resolução de problemas. Explore milhões de mensagens de log com um único clique e reduza as consultas manuais, pois o recurso de padrões de log, o Log Patterns, agrupa automaticamente os dados de log para ajudar você a encontrar padrões anômalos e problemas rapidamente. No momento, o recurso Log Patterns está disponível para o público em versão beta. Se quiser ativá-lo em sua conta da New Relic, entre em contato com seu gerente de atendimento ao cliente.
Análise de alertas
Uma nova página inicial integrada destaca insights e análises sobre o desempenho de suas configurações de alertas.
Regras de silenciamento de alertas recorrentes
Defina horários recorrentes para as regras de silenciamento dos alertas da New Relic e controle melhor a supressão de alertas durante períodos de manutenção e de inatividade planejados. Defina horários recorrentes com frequência diária, semanal ou mensal para as regras de silenciamento usando a interface de usuário ou a API da New Relic.
Diminua ruído de alertas
Video
Correlação baseada em relacionamentos
Agora, você pode correlacionar alertas e eventos interligados com base em dados de relacionamento externos de BDGCs (CMDBs) e em relacionamentos de entidade da New Relic. Além da correlação de alertas com agrupamento baseado em tempo e contexto das mensagens de alerta, você pode ingerir dados de topologia dos seus bancos de dados de relacionamentos (BDGCs) para ter correlações mais precisas de alertas disparados de serviços conectados. Isso contextualiza os incidentes e como eles afetam o seu ambiente de forma geral e permite priorizar problemas com mais exatidão e eficiência.
Anomalias em problemas correlacionados
Correlacione proativamente as anomalias detectadas junto com alertas e eventos de qualquer fonte para gerar um quadro completo do problema em questão, acelerando o tempo de reação.
Tomada mais ágil de decisões com o assistente de correlações
Alguma correlação não ocorreu como o esperado? Você tem uma ideia do que correlacionar, mas não sabe por onde começar? Com o novo assistente de correlações, você só precisa selecionar os incidentes que devem ser correlacionados e deixar que a New Relic faça a análise e mostre o que eles têm em comum. Isso ajuda você a controlar melhor a redução do volume de alertas.
Além disso, a Applied Intelligence consegue simular a sua configuração e mostrar em tempo real como a correlação de incidentes pode reduzir os alertas e ampliar o contexto no futuro.
Descubra a causa raiz rapidamente
Descoberta das causas raízes prováveis de todos os problemas
A Applied Intelligence fornece insights automáticos da causa raiz provável de cada problema. Veja rapidamente por que cada problema em andamento ocorreu, quais implementações influenciaram e quais são os atributos e logs de erro relevantes para investigá-lo rapidamente. A Applied Intelligence analisa a distribuição de todos os atributos em cada dado de evento ingerido e revela as possíveis causas ao encontrar alterações significativas na distribuição. Por exemplo, para cada evento de transação gerado, você pode analisar e descobrir se um único usuário começa a ser responsável por uma parcela anormal das solicitações enviadas para o seu aplicativo.
Além do mais, a análise da causa raiz classifica automaticamente os problemas com base em sinais clássicos como erros, tráfego, latência e saturação. Assim, você pode entender rapidamente por que o problema aconteceu.
Video
Compreenda o impacto e o escopo de cada problema
Você pode ver quais entidades (hosts, contêineres, aplicativos) são afetadas e avaliar com rapidez e precisão o escopo, e determinar o que precisa ser resolvido. É possível isolar a fonte do problema com insights automáticos sobre como os serviços e componentes do seu ambiente são afetados por cada problema.
Responda a incidentes de forma mais rápida
Integração bidirecional com o ServiceNow para problemas correlacionados
Complementando nossa integração bidirecional existente com o PagerDuty, agora você pode eliminar o esforço de gerenciar incidentes em várias ferramentas sincronizando de forma bidirecional o status dos problemas correlacionados na Applied Intelligence com os incidentes do ServiceNow. Agora, conforme o status de cada problema correlacionado muda em uma plataforma, ele é atualizado automaticamente nas duas ferramentas. A Applied Intelligence também é compatível com um webhook para integração com VictorOps, OpsGenie e outras ferramentas da sua preferência.
Respondentes sugeridos para violações de alertas da New Relic
Receba recomendações automáticas sobre as pessoas da sua equipe mais capacitadas para lidar com um problema, seja por serem especialistas na falha do componente ou por já terem resolvido problemas semelhantes. Esse aprimoramento amplia nosso suporte existente para sugestão de respondentes com base em dados de incidente do PagerDuty ao indicar pessoas para problemas com origem em violações de alertas da New Relic. E o melhor? Esse recurso é totalmente automático e não exige configuração ou treinamento no modelo. Como a New Relic aprende com os comportamentos dos respondentes da sua equipe, o recurso oferecido já está pronto para o uso.
Como começar
Todos os clientes da Applied Intelligence da New Relic já podem acessar os novos recursos gratuitamente.
Se você tem interesse em adicionar os recursos de AIOps à sua implementação da New Relic, comece agora clicando no link “Alerts & AI” na sua conta da New Relic.
E se você ainda não conhece a New Relic, mas tem interesse em saber mais, experimente a simplicidade do New Relic One cadastrando-se para ter uma conta grátis para sempree descubra a Applied Intelligence da New Relic.
As opiniões expressas neste blog são de responsabilidade do autor e não refletem necessariamente as opiniões da New Relic. Todas as soluções oferecidas pelo autor são específicas do ambiente e não fazem parte das soluções comerciais ou do suporte oferecido pela New Relic. Junte-se a nós exclusivamente no Explorers Hub ( discuss.newrelic.com ) para perguntas e suporte relacionados a esta postagem do blog. Este blog pode conter links para conteúdo de sites de terceiros. Ao fornecer esses links, a New Relic não adota, garante, aprova ou endossa as informações, visualizações ou produtos disponíveis em tais sites.