New Relic

Cuando Crowdstrike lanzó una actualización de su plataforma el 19 de julio de 2024, muchas máquinas basadas en Windows fueron afectadas. Un incidente como este pone de manifiesto hasta qué punto dependemos del mundo digital. Líneas aéreas, centros de llamadas de emergencia, hospitales, bancos y muchos otros servicios en línea que damos por sentado se quedaron a oscuras en un instante. Las organizaciones que sufrieron este apagón informático hicieron lo posible para comprender el alcance de su impacto e identificar dónde existen dependencias dentro de sus sistemas afectados. No es la primera vez que se produce una interrupción con un efecto dominó generalizado, y no será la última.

La observabilidad es una herramienta esencial para hacer frente a las interrupciones del sistema

La observabilidad puede ayudar durante una interrupción, ya que proporciona información valiosa en tiempo real sobre el rendimiento y el estado del sistema. Las herramientas de observabilidad como New Relic ofrecen una visión clara de las interdependencias dentro de su ecosistema de TI, lo que permite señalar el lugar donde se producen los fallos y su impacto en otros componentes.

En este caso, nuestros clientes que monitoreaban activamente su patrimonio recibían inmediatamente notificaciones si sus sistemas fallaban u observaban dependencias de terceros que estaban fallando. Aquí verás algunas cosas que puedes hacer para restablecer rápidamente la normalidad y garantizar la resistencia de tu infraestructura informática:

  • Usar los logs del sistema Windows monitoreados, la síntesis de entidades y el mapeo: usa tanto los registros monitorizados del sistema Windows como la síntesis de entidades y el mapeo de relaciones para averiguar exactamente qué servidores se han visto afectados.
  • Investigar la propiedad: una vez que sepas qué sistemas están afectados, averigua quién es el responsable y notifícale los pasos a seguir para remediar la situación.
  • Monitoreo continuo: después de aplicar parches y validar los sistemas, sigue vigilando para asegurarte de que todo se ha recuperado por completo y se ha restablecido el funcionamiento normal.

La siguiente es una consulta utilizando el New Relic Query Language (NRQL), que te permite ver qué hosts de Windows tienen Falcon ejecutándose para determinar rápidamente si la versión de la plataforma Windows está afectada.

Dashboard de New Relic

Dashboard de New Relic

 

Tener este tipo de visibilidad al alcance de la mano te permite comprender el alcance total del problema y priorizar los recursos y la vuelta a la normalidad de las operaciones.

Las interrupciones serán cada vez más complejas

En los años 80 y principios de los 90, los peores cortes se producían en las empresas de telecomunicaciones, que causaban estragos en la capacidad de comunicación y en el acceso a servicios esenciales, como la policía y los centros de atención telefónica. A finales de los 90 y principios de los 2000, Internet se trataba más que nada de comercios electrónicos. En la mayoría de los casos, las interrupciones solo pausaban las compras en línea, lo que causaba algunas molestias a los usuarios.

Hoy en día, más de 5000 millones de personas, casi dos tercios de la población mundial, dependen de Internet todos los días. Desde pedir un café hasta tomar un Uber, el software está detrás de todos estos momentos.

Quiero felicitar al equipo de Crowdstrike por su increíble trabajo de recuperación tras el incidente de esta semana. Están acostumbrados a soportar situaciones de alta presión en las que el tiempo apremia, y su respuesta siempre es excelente. Como empresa con millones de agentes en cargas de trabajo críticas, sabemos el esfuerzo que supone mantener las cosas funcionando sin problemas.

Con el tiempo, esto va a ser cada vez más importante y complejo por dos motivos principales:

  1. Digitalización continua: muchos países siguen digitalizando su economía rápidamente. Por ejemplo, en la India más del 50 % de la población sigue sin estar conectada a Internet, y en algunas partes de África hasta el 80 % no lo está. 
  2. Integración cada vez mayor de la IA: al disponer de mayor inteligencia e incorporar la IA en nuestra vida cotidiana, somos aún más dependientes del software tanto para el trabajo como para las actividades personales. La digitalización está en todas partes: el 45 % de la televisión se ve en streaming, más de 4000 millones de personas compran por Internet y más del 70 % de la publicidad se ha trasladado a la Red, entre otras cosas.

Las empresas pueden monitorearlo todo y seguir sin ver nada

De hecho, nuestro mundo está potenciado y entrelazado con software, lo que hace que la protección de nuestras experiencias digitales sea una misión fundamental.

Aunque las empresas piensen que lo monitorean todo, pueden perderse muchas cosas sin las herramientas adecuadas. Las herramientas de observabilidad como New Relic pueden cambiar las reglas del juego para mantener la confiabilidad de los negocios digitales. Es como tener un superpoder que te permite ver todo lo que ocurre en tu mundo digital.

Nuestra plataforma reúne todos tus datos de telemetría (métricas, eventos, logs, trazas, vulnerabilidades de seguridad, etc.) para ofrecerte una vía de resolución clara, unificada y rápida. Tienes un mapa completo de dependencias de entidades y relaciones a tu alcance que detalla las interacciones entre tecnologías, incluidos servidores, procesos y aplicaciones, a través de centros de datos y entornos en múltiples nubes.

En tiempos de interrupciones, apóyate en la observabilidad. No se trata solo de arreglar lo que no funciona, sino de comprender mejor nuestros sistemas. Si bien esto que sucedió y las interrupciones que puedan producirse en el futuro son desafortunados e imprevistos, con la observabilidad, puedes responder de forma rápida y precisa y tener la mayor oportunidad de verificar que tus operaciones y tu rendimiento se restauren en el menor tiempo posible.