A pesar de la gran publicidad, muchos equipos de DevOps y SRE han tenido dificultades para hacer de la promesa de los AIOps una realidad. Factores como curvas de aprendizaje empinadas, tiempos de implementación y capacitación prolongados, precios prohibitivos y la falta de confianza en la inteligencia artificial y el aprendizaje automático se han interpuesto como obstáculos en el camino. Los ingenieros de turno (los que tienen que lidiar con los problemas de inmediato) siempre mencionan tres factores que entorpecen el funcionamiento correcto de los servicios

Por Guy Fighel, 17 de marzo de 2021

A pesar de la gran publicidad, muchos equipos de DevOps y SRE han tenido dificultades para hacer de la promesa de los AIOps una realidad. Factores como curvas de aprendizaje empinadas, tiempos de implementación y capacitación prolongados, precios prohibitivos y la falta de confianza en la inteligencia artificial y el aprendizaje automático se han interpuesto como obstáculos en el camino. Los ingenieros de turno (los que tienen que lidiar con los problemas de inmediato) siempre mencionan tres factores que entorpecen el funcionamiento correcto de los servicios:

  1. Detectar los problemas y las incógnitas que van surgiendo cuando se depende de alertas o paneles estáticos para saber qué es lo que está cambiando es difícil.
  2. Clasificar los incidentes y saber cómo responder cuando ocurre una cascada de fallas con alertas que se disparan en un sinnúmero de herramientas no es nada fácil.
  3. Diagnosticar la raíz de los problemas es difícil y quita mucho tiempo cuando hay que examinar manualmente panel tras panel para poder comprender por qué ocurrió el problema y qué repercusiones trae.

En pocas palabras, los ingenieros ya no pueden darse el lujo de encerrarse en una sala de guerra para analizar estrategias o teorías para resolver los incidentes. O lo que es peor aún: enterarse de un incidente por los clientes. Todo eso se acaba hoy, con el lanzamiento de New Relic Applied Intelligence de próxima generación que le permitirá hacer las siguientes cosas como nunca antes lo ha hecho:

  • Detectar cambios inusuales al instante. Podrá detectar anomalías automáticamente en todas las aplicaciones, los servicios y los registros para prevenir problemas antes de que lleguen a afectar a los clientes.
  • Reducir el exceso de alertas. Podrá reducir el exceso de alertas a la vez que prioriza los problemas con más facilidad agrupando las alertas y los eventos provenientes de cualquier fuente en un problema único, correlacionado y que se puede procesar.
  • Ir a la raíz del problema sin perder tiempo. Podrá eliminar las conjeturas y resolver los problemas con más rapidez gracias a que se sugiere automáticamente la causa probable de cada problema.
  • Responder a los incidentes con más rapidez. Podrá integrar New Relic Applied Intelligence con las herramientas ITSM y ahorrarse el esfuerzo de tener que administrar incidentes en un sinnúmero de herramientas gracias a que todo se puede mantener sincronizado.

Veamos qué hay de nuevo y qué hay disponible en Applied Intelligence.

Detectar cambios inusuales al instante

Detección de anomalías automática y continua ahora sin costos adicionales

anomaly detection example screenshot

Applied Intelligence detecta anomalías automáticamente en función de señales inequívocas como el rendimiento, los errores y la latencia en todas las aplicaciones y servicios; y ahora está activada automáticamente para todas las aplicaciones y los servicios instrumentados sin configuración ni costos adicionales. Cuando se detecte una anomalía, se le notificará inmediatamente a través de Slack y otras herramientas de colaboración y se le suministrará información en tiempo real acerca de cada anomalía y un análisis a fondo para ayudarle a resolver los problemas más rápidamente y evitar que problemas potenciales afecten a los clientes.

Video

 

Log Patterns

log patterns beta overview

Applied Intelligence incluye ahora una nueva capacidad que utiliza el aprendizaje automático para detectar patrones y mostrar los valores atípicos en los datos de registros (logs) reduciendo así el tiempo necesario para resolver problemas. Puede explorar millones de mensajes de registros con un solo clic y reducir las solicitudes manuales porque Log Patterns agrupa automáticamente los datos de registro para ayudarle a ubicar rápidamente los patrones anómalos y cualquier aguja en el pajar que sea problemática. Log Patterns se encuentra en versión beta pública. Si le interesa activar esta función para su cuenta de New Relic, póngase en contacto con el administrador de éxito del cliente.

 

Análisis de alertas

alert analytics

Una nueva página de aterrizaje integrada destaca la información valiosa y el análisis del rendimiento de las configuraciones de alerta.

Reglas de silenciamiento de alertas recurrentes

alerts recurring muting rules

Defina horarios recurrentes para las reglas de silenciamiento para New Relic Alerts para tener más control sobre la supresión de alertas durante los periodos de mantenimiento y de inactividad programados. Establezca horarios recurrentes de periodicidad diaria, semanal o mensual para las reglas de silenciamiento a través de la interfaz de usuario o la API de New Relic.

Reducir el exceso de alertas

Video

 

Correlación basada en la relación

relationship based correlation

Ahora puede correlacionar las alertas y los eventos relacionados en función de los datos de relación externos de las CMDB así como las relaciones de entidad de New Relic. Además de correlacionar las alertas usando un clúster temporal y el contexto de los mensajes de alerta, ahora también puede ingerir los datos de topología de los mensajes de alerta de los almacenes de datos de relaciones (CMDB) lo que permite una correlación más fiable de las alertas que se disparan desde los servicios conectados. Esto le permitirá gozar de un mejor contexto de los incidentes que ocurren y la manera en que afectan el entorno más amplio para poder priorizar los problemas con más precisión y eficiencia.

Anomalías en problemas correlacionados

alert noise reduction

Puede correlacionar las anomalías detectadas proactivamente junto con las alertas y los eventos provenientes de cualquier fuente para crear un panorama completo del problema en cuestión reduciendo así el tiempo necesario para comprender y actuar.

Crear decisiones de correlación más rápidamente con el asistente de correlaciones

correlation assistant

¿Falta alguna correlación? ¿Tiene nociones de cómo correlacionar pero no está muy seguro de cómo comenzar? Con la nueva función del asistente de correlaciones, puede simplemente comenzar a seleccionar los incidentes que deberían estar correlacionados y dejar que New Relic los analice para mostrarle lo que tienen en común. Así podrá tener más control para reducir las alertas de prioridad baja.

Además, Applied Intelligence es perfectamente capaz de simular su configuración y de mostrarle en tiempo real cómo la correlación de incidentes puede reducir el exceso de alertas de prioridad baja y aumentar el contexto en el futuro.

Ir rápidamente a la raíz del problema

Identificar la causa probable de cada problema

root cause analysis example screenshot

Applied Intelligence le sugiere automáticamente la causa probable de cada uno de los problemas. Puede ver rápidamente por qué ocurrió cada problema presentado, qué despliegues tuvieron algo que ver, y los registros de errores y atributos pertinentes que le pueden ayudar a investigar el problema con una agilidad nunca vista. Applied Intelligence examina la distribución de cada atributo dentro de los datos de eventos ingeridos y muestra las causas posibles identificando cambios importantes en la distribución. Por ejemplo, por cada evento de transacción generado, es posible investigar si un usuario en particular comienza a ser responsable de una cantidad inusual de solicitudes enviadas a la aplicación.

Además, el análisis de la raíz del problema clasifica los problemas automáticamente en función de señales inequívocas como el rendimiento, el tráfico, la latencia y la saturación, algo que puede servir de guía rápida del porqué del problema.

Video

 

Comprender el impacto y la magnitud de cada problema

Puede ver qué entidades (hosts, contenedores, aplicaciones) se verán afectadas para evaluar rápida y fielmente la magnitud de los problemas y determinar qué debe remediarse. Puede aislar el origen del problema ya que se sugiere automáticamente cómo los servicios y componentes del entorno se verán afectados por cada problema.

Responder a los incidentes con más rapidez

Integración bidireccional con ServiceNow para los problemas correlacionados

servicenow integration

Además de la integración bidireccional existente con PagerDuty, ahora puede ahorrarse el esfuerzo de tener que administrar incidentes en un sinnúmero de herramientas gracias a que puede sincronizar el estado de los problemas correlacionados en Applied Intelligence con los incidentes de ServiceNow de una manera bidireccional. Cada vez que el estado de un problema correlacionado cambia en una de las plataformas, se actualiza automáticamente en ambas herramientas. Applied Intelligence también admite un webhook para integrarse con VictorOps, OpsGenie y otras herramientas que desee.

Recomendación de personas para ocuparse de violaciones de New Relic Alerts

suggested responders

Reciba recomendaciones automáticas sobre los integrantes de su equipo que están mejor preparados para responder a un problema determinado, ya sea porque son expertos en el componente que está dando problemas o porque han resuelto problemas similares en el pasado. Esta mejora aprovecha nuestro soporte existente para recomendar personas que pueden responder al problema basándose en datos de incidentes de PagerDuty, y sugiere a esas personas para los problemas que se originan en violaciones de New Relic Alerts. Lo mejor es que esta función es completamente automática y no necesita ningún tipo de configuración ni requiere capacitación en el modelo: es una función que está lista para usar a medida que New Relic va aprendiendo más sobre los comportamientos de las personas encargadas de responder en su equipo.

Cómo comenzar

Todos los clientes de New Relic Applied Intelligence tienen acceso a las nuevas capacidades anunciadas hoy, sin costo adicional.

Si le interesa agregar capacidades de AIOps a la implementación de New Relic, puede comenzar ahora haciendo clic en el vínculo “Alerts & AI” en su cuenta de New Relic.

Y si New Relic es una tecnología nueva para usted, pero le interesa conocerla más a fondo, lo invitamos a que conozca de primera mano lo fácil que es trabajar con New Relic One con solo registrarse para una cuenta gratuita a perpetuidad, y aproveche también para darle una mirada a New Relic Applied Intelligence.