New Relic

La mise à jour par Crowdstrike de sa plateforme le 19 juillet 2024 a causé de nombreux écrans noirs sur les ordinateurs basés sur Windows. Un incident comme celui-ci a eu un impact direct qui nous a fait réfléchir à notre dépendance du monde numérique. Les compagnies aériennes, les centres d'appel d'urgence, les hôpitaux, les banques et bien d'autres organisations qui prennent pour acquis le fait d'être en ligne se sont éteints en un instant et se sont vus dans l'impossibilité de comprendre la portée de cet impact et d'identifier où se trouvaient les dépendances au sein des systèmes touchés. Ce n'est ni la première ni la dernière fois qu'une panne aux effets multiples et répandus a lieu. 

L'observabilité est un outil crucial pour gérer les pannes système

L'observabilité peut aider lors de pannes, car elle fournit des informations détaillées en temps réel sur les performances et l'intégrité de votre système. Les outils d'observabilité comme New Relic offrent une vue claire des interdépendances au sein de votre écosystème informatique, et attirent votre attention sur les échecs qui se produisent et leurs impacts sur les autres composants. 

Dans ce cas, nos clients monitorent activement leur domaine et reçoivent immédiatement des notifications en cas de défaillances de leurs propres systèmes ou de ceux appartenant à des tiers. Vous trouverez ci-dessous des mesures que vous pouvez prendre pour rapidement restaurer les opérations normales et assurer la résilience de votre infrastructure informatique : 

  • Utilisez les logs système Windows monitorés, la synthèse d'entité et le mappage : utilisez les logs système Windows monitorés, la synthèse d'entité et le mappage des relations pour savoir exactement quels sont les serveurs impactés.
  • Examinez qui a le contrôle : une fois que vous savez quels sont les systèmes touchés, examinez qui est responsable et envoyez-leur une notification sur les étapes de remédiation.
  • Assurez un monitoring continu : après avoir corrigé et validé les systèmes, continuez le monitoring pour garantir que tout est bien récupéré et que les opérations normales sont restaurées. 

Vous trouverez ci-dessous une requête en langage de requêtes New Relic (NRQL) qui vous permet de voir quels sont les hôtes Windows qui exécutent Falcon et de rapidement déterminer si la plateforme Windows est touchée. 

Dashboard New Relic

Dashboard New Relic

 

Avec ce type de visibilité à portée de main, vous pouvez comprendre toute l'étendue du problème, prioriser les ressources et assurer le retour aux opérations normales.  

Les pannes vont devenir de plus en plus complexes

Dans les années 80 et au début des années 90, les pires pannes se sont produites avec Telcos. Elles ont semé le désordre au niveau des capacités de communiquer et d'accéder aux services essentiels comme les services d'urgence (le 911 aux États-Unis) et les centres d'appels. À la fin des années 90 et au début des années 2000, l'internet s'est focalisé sur l'e-commerce. Les pannes ne faisaient alors qu'interrompre temporairement les achats en ligne et ne gênaient que les personnes.  

Si l'on avance jusqu'à aujourd'hui, plus de 5 milliards de personnes — presque les deux tiers de la population mondiale — dépendent d'Internet chaque jour. Qu'il s'agisse de commander un café ou de prendre un Uber, des logiciels se cachent derrière tous ces moments.  

Je tire mon chapeau à l'équipe Crowdstrike pour le travail impressionnant qu'ils ont fourni pour se remettre de l'incident cette semaine. Ils ont l'habitude d'être catapultés dans des situations d'urgence à très forte pression et leur intervention a été de premier ordre. En tant qu'entreprise avec des millions d'agents dans des workloads critiques, nous savons les énormes efforts qu'il faut fournir pour assurer le bon fonctionnement de tout. 

Avec le temps, cette situation va devenir de plus en plus importante et complexe pour deux raisons principales :

  1. Numérisation continue : de nombreux pays sont encore en train de rapidement numériser leur économie. En Inde, par exemple, plus de 50 % de la population ne sont toujours pas connectés à Internet. Certaines régions du continent africain comptent jusqu'à 80 % de leur population sans aucune connexion. 
  2. Intégration accrue de l'IA : nous rapprochons une plus grande intelligence des gens et intégrons l'IA à notre vie quotidienne, ce qui nous rend plus dépendants des logiciels pour nos activités professionnelles et personnelles. La numérisation est partout : 45 % de l'audience télévisuelle s'effectuent en streaming, plus de 4 milliards de personnes font leurs achats en ligne, plus de 70 % des publicités sont passées sur Internet, etc.

Les entreprises peuvent tout soumettre au monitoring sans pour autant voir quoi que ce soit

Notre monde est en effet alimenté et interconnecté avec les logiciels, ce qui rend les protections de nos expériences numériques absolument critiques. 

Même si les entreprises pensent qu'elles effectuent le monitoring de tout, elles peuvent toujours rater beaucoup de choses si elles n'ont pas les outils qu'il leur faut. Les outils d'observabilité comme New Relic peuvent changer la donne en ce qui concerne la fiabilité des activités numériques. C'est un peu comme un super-pouvoir qui vous permet de voir tout ce qui se passe dans votre monde numérique. 

Notre plateforme extrait et regroupe toutes vos données télémétriques — métriques, événements, logs, traces, vulnérabilités de la sécurité, etc. — ce qui vous donne un moyen clair, unifié, uniformisé et rapide de résoudre les problèmes. Vous avez à portée de main le mappage complet des entités et des dépendances de relations, qui détaillent les interactions entre les technologies y compris les serveurs, les processus et les applications sur tous les centres de données et les environnements multicloud. 

Lors de pannes, appuyez-vous sur l'observabilité. Il ne s'agit pas simplement de réparer ce qui est cassé, il s'agit aussi de mieux comprendre vos systèmes. Bien que cet événement et les autres interruptions futures sont regrettables et imprévus, votre réponse avec l'observabilité peut être exacte et rapide, et vous pouvez vérifier que vos opérations et les performances sont restaurées le plus rapidement possible.