Réservé aux abonnés
Inscrivez-vous pour accéder au contenu exclusif.
Success! Here it comes.
Content automatically in 3...

0
En vous inscrivant, vous acceptez nos Conditions de service et Politique de confidentialité.

New Relic exécute l'une des principales implémentations Kafka dans le monde et exécute des centaines de services produisant et/ou consommant depuis Kafka. Très tôt dans ce processus, l'équipe SRE Streaming a investi pour poser les bases d'un environnement Kafka fiable pour New Relic au service de ses clients. Par exemple, le délai de Kafka peut être directement corrélé aux retards ou aux abandons dans l'ingestion des métriques, ce qui peut entraîner des alertes envoyées par les clients qui sont ratées ou retardées, prouvant ainsi à quel point la fiabilité de Kafka est essentielle. 

La mission de cette équipe est dévouée aux opérations Kafka et elle se concentre sur la création d'un Nerdpack personnalisé pour l'observabilité Kafka. Ce Nerdpack New Relic sur mesure déborde de métriques personnalisées et est devenu un outil indispensable partagé en interne avec plus de 50 équipes qui comptent sur les services Kafka. L'importance dérivée de ces insights opérationnels est tellement profonde qu'elle a directement incité le développement de fonctionnalités Kafka et d'observabilité côté client.

La principale motivation derrière le développement de l'extensive observabilité Kafka était d'éliminer les inconnues et les angles morts lors des incidents. Sans les données granulaires, le diagnostic des causes profondes et l'identification rapide des problèmes récurrents présentaient un important défi. L'objectif était d'ajouter de nombreuses couches d'observabilité pour comprendre le comportement de Kafka dans son entièreté avant, pendant et après les incidents.

Le Nerdpack Kafka fournit des insights approfondis sur une large gamme de métriques. L'équipe SRE Streaming utilise ces insights pour :

  • Envoyer des alertes sur la latence de Kafka afin de maintenir l'intégrité de l'ingestion : pour l'équipe, l'utilisation la plus critique de New Relic est d'assurer l'intégrité de l'ingestion télémétrique en utilisant les notifications d'alertes sur les métriques Kafka, telles que la latence de Kafka. Cette dernière se corrèle directement aux retards ou abandons de l'ingestion télémétrique, ce qui peut entraîner des alertes clients critiques ratées ou retardées. Le risque commercial qui en découle est important, car les clients se servent des alertes pour leurs propres interventions opérationnelles. Les alertes complètes sur la latence de Kafka permettent la scalabilité de l'ingestion et l'optimisation des performances.
  • Optimiser la réactivité : New Relic permet à l'équipe d'être hautement réactive aux problèmes de traitement de Kafka, ce qui facilite une remédiation rapide et minimise l'impact sur le client.
  • Bien comprendre le comportement client Kafka : en identifiant les mauvaises configurations, les tampons surchargés et les clients bloqués.
  • Monitorer l'état de santé côté serveur : en monitorant les performances du broker et l'utilisation des ressources.
  • Observer les schémas de requêtes : avec l'analyse des changements dans les schémas de requêtes client pour anticiper et atténuer les problèmes potentiels.

L'implémentation de l'observabilité Kafka a eu un profond impact sur l'efficacité et la fiabilité opérationnelle de New Relic :

  • Une réduction drastique des temps de dépannage : en ayant un accès aux données d'observabilité complètes toujours à portée de mains, l'équipe SRE Streaming peut diagnostiquer les incidents du client Kafka en quelques minutes et souvent résoudre les problèmes avec un temps d'impact total qui se compte en minutes et secondes.Cet accomplissement contraste nettement avec les heures qu'il fallait souvent sans ces insights détaillés.
  • Des Nerdpacks utilisés en tant que runbooks dynamiques : une grande innovation soutenue par cette équipe SRE est l'utilisation des Nerdpacks New Relic en tant que runbooks dynamiques. Ces applications personnalisées intègrent des instructions textuelles en direct aux résultats et visualisations de requêtes. Par exemple, les problèmes de ralentissement du pipeline Kafka peuvent être diagnostiqués avec des vues sur un Nerdlet, qui génère aussi automatiquement la commande nécessaire pour prolonger la rétention des données, transformant ainsi un processus manuel à plusieurs étapes en un seul copier-coller,tout en réduisant grandement le besoin de changement de contexte et en accélérant la résolution.
  • Des insights pour les cadres : les directeurs et les cadres supérieurs chez New Relic utilisent le Nerdlet d'observabilité Kafka pour rapidement évaluer l'état global de la latence sur tous les clusters ou environnements Kafka, ce qui fournit un haut niveau de visualisation de la scalabilité et des performances d'ingestion.
  • L'autoscalabilité intelligente pour l'optimisation des performances et des coûts : l'équipe SRE Streaming a développé des outils d'autoscalabilité sophistiqués qui utilisent à la fois la télémétrie de New Relic et des métriques personnalisées. Par exemple, elle se sert des métriques sur le CPU New Relic pour faire fluctuer dynamiquement les ressources Kubernetes en fonction des demandes du trafic. Ainsi, l'équipe peut gérer efficacement les pics du trafic ingéré en augmentant les ressources pour éliminer les ralentissements puis en le réduisant lors des périodes de faible trafic. Cette autoscalabilité dynamique empêche le surprovisionnement des ressources ce qui assure l'efficacité des coûts tout en maintenant la capacité à gérer des workloads fluctuants.
New Relic Now Regardez la démo des intégrations agentiques dès aujourd'hui.
Regarder.