Kubernetes a gran escala

Prev Next

El equipo de Container Fabric, responsable de ofrecer una plataforma Kubernetes de autoservicio para los equipos internos de Ingeniería, también utiliza New Relic para monitorear y optimizar un amplio entorno multinube. Con una escala impresionante de cientos de clústeres de Kubernetes y decenas de miles de nodos distribuidos en los principales proveedores de nube pública, el equipo confía en New Relic para obtener visibilidad de extremo a extremo, resolver problemas de forma proactiva, optimizar costos y fomentar la colaboración entre equipos. El equipo de Container Fabric también utiliza New Relic para cubrir sus necesidades de observabilidad, y lo integra de forma sólida en sus operaciones de Kubernetes y en su entorno multinube.

Funcionalidades de New Relic utilizadas

Agente de infraestructura: se despliega en todos los nodos de Kubernetes, a fin de que recopile métricas a nivel de host y de contenedor.
Instrumentación personalizada: se utiliza ampliamente para exponer métricas específicas de los controladores de Kubernetes, la automatización, CoreDNS e, incluso, detalles del sistema operativo Linux para obtener información detallada.
Integraciones en la nube: se utilizan para extraer métricas desde las API de los principales proveedores de nube pública, lo que proporciona una visión integral de sus servicios, además de la telemetría interna.
Dashboards y generador de consultas: son fundamentales para visualizar la salud de la plataforma, las tendencias de rendimiento y para realizar exploraciones de datos puntuales durante la investigación de incidentes.
Alertas: alertas proactivas basadas en indicadores clave del estado de salud de la plataforma.
Plataforma de datos centralizada: New Relic proporciona un contexto de datos compartido que elimina los silos entre el equipo de Container Fabric y los equipos de aplicaciones y desarrollo a los que brindan soporte.

El equipo se centra en la salud y la eficiencia de la plataforma, y utiliza los siguientes indicadores de rendimiento clave (KPI):

Salud de Kubernetes
- Número de pods no planificados
- Problemas relacionados con el escalado de nodos worker
- Estados de los pods (por ejemplo, “CrashLoopBackOff”)
- Métricas del servidor API de Kubernetes, de Scheduler y de CoreDNS

Salud de los pods de Kubernetes

Uso de recursos y optimización de costos
- Uso significativo de CPU en nodos worker
- CPU y memoria inactivas en los nodos (para mejorar el bin packing y reducir el desperdicio)

Infraestructura de la nube
- Métricas de instancias de máquinas virtuales (VM) (CPU, memoria, Disk I/O, red)
- Métricas de brokers de Kafka (por ejemplo, factor de replicación o caídas de red)
- Monitoreo de los servicios subyacentes del proveedor de nube y su rendimiento

A continuación, algunos de los resultados que el equipo de Container Fabric obtiene utilizando New Relic:

Mayor disponibilidad y fiabilidad
- Resolución proactiva de problemas: al observar continuamente la plataforma, el equipo puede identificar y abordar posibles problemas antes de que afecten a los clientes.
- Investigación y resolución más rápidas de incidentes: los dashboards de New Relic, la instrumentación personalizada y la capacidad de correlacionar datos entre capas—desde las aplicaciones y los servicios hasta las capas de Kubernetes (pods, nodos), pasando por la infraestructura en la nube—reducen significativamente el tiempo medio de resolución (MTTR). Por ejemplo, cuando el equipo de Browser informó de un problema en el frontend, el equipo de Container Fabric lo vinculó a pods no planificados y rápidamente determinó que el origen estaba en una alerta en el control plane de Istio, que resolvieron escalando los pods de Istio.
- Identificación de dependencias externas: la telemetría detallada permitió al equipo detectar un problema de red en los servidores de almacenamiento de un proveedor de nube como la causa raíz de ciertos picos anómalos en el rendimiento, incluso cuando las investigaciones iniciales apuntaban a otros factores. Esta visibilidad profunda en los servicios en la nube de terceros es clave para mantener la fiabilidad de la plataforma.
Optimización significativa de costos
- Selección de instancias basada en datos: a partir de pruebas comparativas de rendimiento realizadas con datos de New Relic, el equipo puede evaluar el costo-beneficio y el rendimiento de distintos tipos de instancias y proveedores de nube. Esto les permite elegir la infraestructura más adecuada desde el punto de vista económico para sus cargas de trabajo.
- Mejor uso de los recursos: al monitorear la CPU y la memoria inactivas, el equipo puede identificar de forma proactiva oportunidades para mejorar el "bin packing" de los servicios en los nodos, lo que se traduce en un mejor aprovechamiento de los recursos y una reducción del gasto en la nube. Esto también les permite forzar la reducción de escala de los nodos infrautilizados.
Colaboración fluida entre equipos
- Contexto compartido de observabilidad: New Relic actúa como un lenguaje común y una fuente unificada de datos entre los equipos internos. Compartir dashboards y consultas NRQL facilita la transferencia rápida de contexto y reduce obstáculos durante la resolución de incidentes, lo que permite a los equipos colaborar eficazmente para identificar y solucionar los problemas.
- Transferencia bidireccional de conocimiento: los datos compartidos y el proceso de investigación conjunta facilitan que los equipos comprendan las cargas de trabajo y funciones de otros equipos, lo que contribuye a mejorar las prácticas de ingeniería en general.
Clientes internos con capacidad de autoservicio
El equipo de Container Fabric proporciona a los equipos internos de Desarrollo las herramientas y los datos dentro de New Relic para monitorear sus propios servicios en la capa de aplicación. Mientras el equipo de Plataforma se centra en la salud de la infraestructura, los equipos de Aplicaciones tienen la autonomía para cubrir sus propias necesidades de observabilidad, lo que reduce la dependencia del equipo de Plataforma para el monitoreo diario de sus servicios.
Toma de decisiones estratégicas fundamentadas
Más allá de la resolución de incidentes, New Relic proporciona los datos detallados necesarios para tomar decisiones estratégicas a largo plazo, como expandir la infraestructura en la nube, comparar las ofertas de distintos proveedores y optimizar su estrategia multinube en función de datos reales de rendimiento y costos.

Excelencia en el Frontend Administración de logs a hiperescala

Kubernetes a gran escala

Cómo el equipo de Container Fabric de New Relic alcanza una escala masiva y optimiza los costos

Plataforma de observabilidad inteligente

Plataforma de observabilidad inteligente

Categorías

Destacado

Monitoreo del rendimiento de aplicaciones (APM)

Monitoreo de la experiencia digital

IA y automatización inteligente

Monitoreo de infraestructura

Administración de logs

Capacidades de la plataforma

Soluciones

Soluciones

Casos de uso

Tecnologías

Industrias

Modelos de precios

Para equipos pequeños

Para equipos en crecimiento

Para organizaciones de misión crítica

Modelos de precios

Para equipos pequeños

Para equipos en crecimiento

Para organizaciones de misión crítica

Clientes

Clientes

Destacado

Sectores

Recursos

Recursos

Primeros pasos

Guías

Eventos y contenido on-demand