El área global de Ingeniería de New Relic, responsable de la administración de logs, utiliza ampliamente sus propios productos para ofrecer un servicio excepcional tanto a clientes internos como a externos. En lo que respecta a la administración de logs, el área de Ingeniería de New Relic opera a una escala impresionante: gestiona decenas de petabytes de registros y miles de millones de consultas centradas en logs cada mes. Esta área trabaja en un verdadero entorno de despliegue continuo, con publicaciones frecuentes —en muchos casos, decenas de veces por día— y emplea New Relic para garantizar la observabilidad. Debido a estos cambios frecuentes, la validación fiable de los despliegues es fundamental, y New Relic proporciona la información necesaria para ello.
Gracias al uso de New Relic on New Relic y su producto de logging, estamos obteniendo resultados significativos:
- Calidad de servicio: el principal valor es ofrecer un nivel de calidad de servicio a los clientes, asegurando que el producto de logging funcione correctamente a nivel interno.
- Identificación proactiva de problemas: el uso diario de New Relic permite a los equipos identificar y resolver problemas de forma proactiva antes de que lleguen a Producción, minimizando así el impacto en los clientes.
- Lanzamientos más seguros: la capacidad de identificar y resolver problemas de forma temprana permite realizar lanzamientos más seguros de nuevas características y actualizaciones.
- Respuesta más rápida ante incidentes: como parte de la New Relic Emergency Response Force (NERF), los equipos utilizan el producto de logging de New Relic como herramienta clave para responder de forma eficaz ante incidentes. Las alertas de PagerDuty vinculadas a las alertas de New Relic proporcionan gráficos con métricas clave y enlaces a runbooks para acceder rápidamente a pasos de diagnóstico y resolución, eliminando así la necesidad de cambiar de contexto.
Si bien se monitorean muchas métricas, estas son algunas de las más útiles para mantener un alto nivel de fiabilidad:
- Indicadores de nivel de servicio (SLI): los SLI de nivel superior se revisan periódicamente para asegurar la calidad de experiencias esenciales, como la latencia de los extremos para la ingesta de logs y el cumplimiento en diversas integraciones (por ejemplo: AWS Kinesis Firehose, TCP, syslog).
- Objetivos de nivel de servicio: existe un objetivo elevado de disponibilidad de la plataforma de New Relic para sus clientes. Esta métrica refleja el compromiso de New Relic con la integridad de los datos y la fiabilidad.
- Errores de JavaScript: se monitorean por entorno, browser, usuario y componente del producto para rastrear la experiencia del usuario e identificar posibles problemas.
- Retraso de datos: monitorear el aumento y la disminución del retraso es crucial, especialmente para la respuesta ante incidentes, ya que los clientes de New Relic dependen de la alta disponibilidad de la plataforma.
El área de ingeniería responsable de la administración de logs aprovecha muchas funcionalidades de New Relic, como:
- Niveles de servicio, APM, observabilidad de infraestructura y logs: esta información valiosa y las características esenciales de la plataforma se utilizan para garantizar que los servicios clave operen dentro de los presupuestos de error establecidos, y para diagnosticar y resolver problemas de forma proactiva.
- Alertas proactivas: los ingenieros de guardia dependen de las alertas como un componente crucial de su respuesta ante incidentes, especialmente cuando reciben notificaciones por posibles problemas de alta gravedad. Estas alertas se vinculan directamente con las alertas de New Relic, que proporcionan gráficos para un diagnóstico inmediato.Este proceso de alertas integrado, junto con runbooks ya establecidos, reduce considerablemente su tiempo de respuesta y les ayuda a identificar y resolver problemas de forma proactiva.
- Integraciones completas: la integración con los servicios de los principales proveedores de nube, junto con herramientas de código abierto y los agentes de New Relic, permite la ingesta de datos y la correlación de logs en las herramientas utilizadas, lo que impulsa una observabilidad completa.