Kubernetes à l'échelle

Prev Next

L'équipe d'orchestration des conteneurs — également appelée « équipe Container Fabric » — est chargée de fournir une plateforme Kubernetes en libre-service pour les équipes d'ingénierie internes. Elle utilise aussi New Relic pour monitorer et optimiser un vaste environnement multicloud. Avec un volume impressionnant de centaines de clusters Kubernetes et de dizaines de milliers de nœuds sur les principaux prestataires cloud publics, l'équipe compte sur New Relic pour une visibilité de bout en bout, une résolution proactive des problèmes, l'optimisation des coûts et l'encouragement à une collaboration interéquipe. L'équipe Container Fabric utilise également New Relic pour ses besoins d'observabilité en l'intégrant profondément dans ses opérations Kubernetes et multicloud.

Les fonctionnalités New Relic utilisées

Agent d'infrastructure : déployé sur tous les noeuds Kubernetes pour collecter les métriques au niveau des hôtes et des conteneurs.
Instrumentation personnalisée : largement utilisée pour exposer des métriques spécifiques provenant des contrôleurs Kubernetes, de l'automatisation, de CoreDNS et même de détails du SE Linux afin d'obtenir des informations approfondies.
Intégrations cloud : utilisées pour extraire les métriques des API des principaux prestataires de services cloud publics en fournissant une vue holistique des services de ses prestataires et la télémétrie interne.
Dashboards et générateur de requêtes : essentiels à la visualisation de l'état de santé de la plateforme, des tendances des performances et de l'exploration ponctuelle des données au cours de l'examen des incidents.
Notifications d'alertes : alertes proactives basées sur les indicateurs d'intégrité de la plateforme.
Plateforme de données centralisée : contexte des données partagées fourni par New Relic qui élimine les silos entre l'équipe Container Fabric et les équipes d'application et de développement prises en charge.

L'équipe se focalise sur la santé et l'efficacité au niveau de la plateforme et utilise les indicateurs de performance clés (KPI) suivants :

Santé/Intégrité de Kubernetes
- Nombre de pods non planifiés
- Problèmes associés à la scalabilité des nœuds travailleurs actifs
- État des pods (par exemple, « CrashLoopBackOff »)
- Serveur d'API Kubernetes, Scheduler et métriques CoreDNS

Vue sur la santé/l'intégrité de Kubernetes

Santé des pods Kubernetes

Utilisation des ressources et optimisation des coûts
- Utilisation importante du CPU sur les travailleurs
- Temps d'inactivité du CPU et de la mémoire pour les nœuds (afin d'améliorer le bin packing et de réduire le gaspillage)

Infrastructure cloud
- Métriques d'instance de machine virtuelle (CPU, mémoire, E/S de disque, réseau)
- Métriques du broker Kafka (par exemple, facteur de réplication, pertes de réseau)
- Monitoring des services sous-jacents de prestataires cloud et de leurs performances

Découvrez ci-dessous quelques-uns des résultats obtenus par l'équipe Container Fabric avec New Relic :

Une disponibilité et une fiabilité améliorées
- Résolution proactive des problèmes : en observant continuellement la plateforme, l'équipe peut identifier et gérer les problèmes potentiels avant qu'ils n'impactent les clients.
- Examen et résolution plus rapide des incidents : les dashboards New Relic, l'instrumentation personnalisée et la capacité à corréler les données de différentes couches — depuis l'application et les services, jusqu'aux couches Kubernetes (pods, nœuds), en passant par l'infrastructure cloud sous-jacente — réduisent de manière drastique le temps moyen de résolution (MTTR). Par exemple, lorsque l'équipe Browser a signalé un problème avec le frontend, l'équipe Container Fabric l'a relié aux pods non planifiés et a pu remonter rapidement la trace du problème à une alerte de plan de contrôle Istio avant de la résoudre en effectuant le scaling des pods Istio.
- Identification des dépendances externes : la télémétrie détaillée a permis à l'équipe de repérer un problème de réseau sur des serveurs de stockage d'un prestataire de services cloud comme étant la cause profonde de certains pics de performance, même lorsque l'examen initial pointait ailleurs. Cette visibilité approfondie sur les services cloud d'un tiers est cruciale pour maintenir la fiabilité de la plateforme.
L'optimisation significative des coûts
- Sélection d'instances data-driven : grâce à l'évaluation des performances en utilisant les données de New Relic; l'équipe peut comparer l'efficacité des coûts et les performances de différents types d'instances et prestataires de services cloud. Ceci leur permet de sélectionner l'infrastructure la plus optimale financièrement pour leurs workloads.
- Utilisation améliorée des ressources : en monitorant le temps d'inactivité du CPU et de la mémoire, l'équipe peut proactivement identifier les possibilités d'amélioration du bin packing des services sur les noeuds, et entraîner ainsi une meilleure utilisation des ressources et des frais réduits. Cela lui permet aussi d'imposer le scaling à la baisse des nœuds sous-utilisés.
Une collaboration interéquipe aisée
- Contexte d'observabilité partagé : New Relic agit en tant que source de données et langage communs pour toutes les équipes internes. Le partage des dashboards et des requêtes NRQL facilite le partage rapide du contexte et réduit les frictions lors du dépannage des incidents, ce qui permet aux équipes de collaborer efficacement pour repérer et résoudre les problèmes.
- Transfert bidirectionnel des connaissances : les données partagées et le processus d'examen conjoint permettent aux équipes de facilement en savoir plus sur les workloads des autres équipes, ce qui permet aussi l'amélioration des pratiques d'ingénierie globales.
Un libre-service puissant pour les clients internes
L'équipe Container Fabric fournit aux équipes de développeurs internes les outils et les données New Relic leur permettant de monitorer leurs propres services au niveau de l'application. Et pendant que l'équipe Plateforme se concentre sur l'état de santé de l'infrastructure, les équipes Applications peuvent répondre à leurs besoins en observabilité grâce au libre-service, ce qui réduit leur dépendance vis-à-vis de l'équipe Plateforme pour le monitoring quotidien de leurs services.
Une prise de décision stratégique et éclairée
Au-delà de la résolution des incidents, New Relic fournit les données granulaires nécessaires pour prendre des décisions stratégiques à long terme, telles que l'expansion de l'empreinte cloud, la comparaison des offres des prestataires de services cloud et l'optimisation de la stratégie multicloud en fonction des données réelles sur les performances et sur les coûts.

Excellence du frontend Hyperscaling de la gestion des logs

Kubernetes à l'échelle

Comment l'équipe Container Fabric apporte une très grande scalabilité et d'énormes économies

Plateforme d’observabilité intelligente

Plateforme d’observabilité intelligente

Catégories

En vedette

Monitoring des performances des applications

Monitoring de l'expérience numérique

IA et automatisation intelligente

Monitoring d’infrastructure

Gestion des logs

Capacités de la plateforme

Solutions

Solutions

Études de cas

Technologies

Secteurs

Tarification

Petites équipes

Équipes évolutives

Grandes organisations

Tarification

Petites équipes

Équipes évolutives

Grandes organisations

Clients

Clients

En vedette

Secteurs

Ressources

Ressources

Démarrer

Guides

Événements et vidéos à la demande