El equipo de Redes de New Relic monitorea su entorno de red global, que incluye cientos de celdas con clústeres de Kubernetes que se conectan a varios entornos en la nube. Para lograr una visibilidad integral, los SRE y los ingenieros de redes desarrollaron código utilizando bibliotecas de New Relic que se despliegan en cada clúster, con el fin de recopilar telemetría clave de la red.
La principal motivación detrás de la creación de esta extensa observabilidad de red fue proporcionar a los clientes una mejor comprensión de la red y generar confianza. El objetivo es permitir que otros equipos se autogestionen y descarten los problemas de red como primera causa posible al resolver problemas.
Los dashboards personalizados de red proporcionan información detallada sobre una amplia variedad de métricas, entre ellas:
- Rendimiento de la red: monitoreo del ancho de banda, pérdida de paquetes, jitter, latencia y uso de rutas.
- Salud de la infraestructura: uso del agente de infraestructura con conectores de Amazon y Azure para obtener información de esas plataformas e ingresarla en New Relic.
- Validación de conectividad: uso de un script personalizado que hace ping de una ubicación a otra para confirmar la conectividad.
- Optimización de costos: monitoreo de un servicio de traducción de direcciones de red de salida (NAT) para salir de la red de un proveedor de nube a un precio considerablemente menor, y monitoreo de picos de costos inesperados.
La implementación de la observabilidad de esta red ha tenido un impacto profundo en la eficiencia operativa y la fiabilidad de New Relic, a saber:
- Reducción considerable del tiempo dedicado a la resolución de problemas: la implementación ha reducido la cantidad de notificaciones que recibe el equipo de Redes. Un ejemplo de observabilidad de red fue la identificación de un problema de enrutamiento, donde el tráfico se redirigía a una solución de respaldo insuficiente debido a la falta de una ruta estática. Esto permitió a los equipos de Redes de New Relic resolver rápidamente el problema y luego implementar una configuración activa-activa para las rutas de los proveedores de nube, con el fin de equilibrar el tráfico y evitar la saturación.
- Identificación proactiva de configuraciones incorrectas: al identificar problemas como rutas estáticas faltantes, New Relic optimiza el uso de recursos y mejora significativamente la fiabilidad del sistema, lo que permite optimizar los costos.
- Runbooks dinámicos: el objetivo es permitir que otros equipos se autogestionen y descarten los problemas de red como primera causa posible al resolver problemas.
- Información valiosa para ejecutivos: el equipo también utiliza New Relic para optimizar costos mediante el monitoreo de un servicio NAT de salida. Además, monitorean picos de costos inesperados y ayudan a otros equipos a identificar y resolver problemas que generan cargos innecesarios por tráfico de datos.