New Relic

Quando a Crowdstrike lançou uma atualização da plataforma em 19 de julho de 2024, isso fez com que as máquinas com Windows falhassem. Um incidente como esse faz com que percebamos o quão dependentes do mundo digital somos. Companhias aéreas, centros de chamadas de emergência, hospitais, bancos e muitos outros que damos por garantido por serem online, falharam rapidamente, deixando organizações tentando entender o alcance do seu impacto e identificando quais dependências existem nos seus sistemas afetados. Essa não foi a primeira vez que vimos uma interrupção com um efeito dominó generalizado, e não será a última. 

A observabilidade é uma ferramenta vital para lidar com interrupções de sistemas

A observabilidade pode ajudar durante uma interrupção, uma vez que oferece insights em tempo real do desempenho e saúde do seu sistema. As ferramentas de observabilidade como a New Relic oferecem uma visão clara das interdependências em seu ecossistema de TI, chamando atenção para onde as falhas acontecem e seus impactos em outros componentes. 

Nesse caso, nossos clientes que monitoram ativamente sua propriedade recebem notificações imediatas caso seus sistemas falhem ou observem dependências de terceiros que estejam falhando. Aqui estão algumas coisas que você pode fazer para restaurar rapidamente as operações normais e garantir a resiliência da sua infraestrutura de TI: 

  • Utilize os logs monitorados do sistema Windows, a síntese de entidade e o mapeamento: utilize os logs monitorados do sistema Windows, a síntese de identidade e o mapeamento de relações para descobrir exatamente quais servidores foram afetados.
  • Investigue a responsabilidade: depois de saber quais sistemas foram afetados, descubra quem são os responsáveis e notifique-os quanto às etapas de reparação.
  • Monitoramento contínuo: após as correções e validação dos sistemas, continue monitorando para garantir que tudo está completamente recuperado e restaurado de volta às operações normais. 

A seguir está uma consulta usando a New Relic Query Language (NRQL) que lhe permite ver quais hosts do Windows têm o Falcon funcionando e rapidamente determinar se a versão da plataforma Windows foi afetada. 

Dashboard da New Relic

Dashboard da New Relic

 

Ter esse tipo de visibilidade ao seu alcance permite que você entenda o problema por completo, priorize os recursos e retorne às operações normais.  

As interrupções ficarão cada vez mais complexas

Nos anos 1980 e início dos anos 1990, as piores interrupções foram com a Telcos, que causou uma confusão com a capacidade de se comunicar e acessar serviços essenciais como o serviço de emergência e o suporte de atendimento ao cliente. No final dos anos 1990 e início dos anos 2000, a internet se voltou completamente para o comércio eletrônico. Nessa época, a maioria das interrupções apenas pausava as compras online, causando um pouco de inconveniência para as pessoas.  

Voltando para os dias atuais, mais de 5 bilhões de pessoas, cerca de dois terços da população mundial, dependem da internet diariamente. Desde pedir um café até pegar um Uber, há um software por trás de todos esses momentos.  

Tenho que dar um salve à equipe da Crowdstrike por seu trabalho maravilhoso na recuperação do incidente desta semana. Eles estão acostumados a serem bombardeados com situações de alta pressão e urgentes, e a resposta deles foi excelente. Como um negócio com milhões de agentes em workloads críticos, sabemos o esforço necessário para que essas coisas funcionem perfeitamente. 

Com o tempo, isso vai apenas se tornar mais importante e complexo por duas razões principais:

  1. Digitalização contínua: muitos países ainda estão, rapidamente, digitalizando sua economia. Por exemplo, a Índia ainda tem 50% da sua população sem conexão à internet e algumas partes da África têm até 80% das suas populações sem conexão. 
  2. Maior integração da IA: estamos trazendo mais inteligência mais próxima às pessoas e IA interconectada nos seus cotidianos, nos tornando cada vez mais dependentes de software para o trabalho e para as atividades pessoais. A digitalização está em todo lugar: 45% da visualização de TV é por streaming, mais de 4 bilhões de pessoas compram online e mais de 70% das propagandas passaram para o ambiente online, entre outros.

Os negócios podem monitorar tudo e, mesmo assim, verem nada

Nosso mundo está, de fato, movido e interconectado com softwares, tornando a proteção das nossas experiências digitais uma missão crítica. 

Mesmo que os negócios pensem que estão monitorando tudo, sem as ferramentas corretas, eles ainda podem deixar passar muita coisa. As ferramentas de observabilidade como a New Relic podem ser revolucionárias para manter os negócios digitais confiáveis. Pense nisso como ter um superpoder que lhe permite ver tudo o que acontece em seu mundo digital. 

Nossa plataforma junta todos os seus dados de telemetria (métrica, eventos, logs, traces, vulnerabilidades de segurança e muito mais), dando a você um caminho claro, unificado e rápido para resolução. Você tem, a seu alcance, uma entidade ampla e um mapa de dependência de relações, detalhando as interações entre as tecnologias, incluindo servidores, processos e aplicativos nos data centers e ambientes com várias nuvens. 

Em momentos de interrupções, apoie-se na observabilidade. Não é apenas consertar o que está quebrado. É obter um entendimento mais profundo dos seus sistemas. Apesar de esse evento e outras interrupções no futuro serem desagradáveis e não programadas, com a observabilidade, sua resposta pode ser precisa e rápida, com a maior oportunidade de verificar que suas operações e o desempenho são reparados no menor tempo possível.