New Relic

2024年7月19日、Crowdstrike社がリリースしたプラットフォームのアップデートが原因で、多くのWindows機器に不具合が生じました。このようなインシデントは、現代社会がいかにデジタルに依存しているかを浮き彫りにします。航空会社、緊急コールセンター、病院、銀行など、日常生活に欠かせないオンラインサービスが一瞬のうちに麻痺し、組織は大規模障害の全容を把握して、被害を受けているシステムの特定に奔走することになりました。しかし、今回のような大規模障害は初めて生じたものではなく、今後も発生することが想定されます。

オブザーバビリティは、システム障害への備えに欠かせないツール

大規模障害の発生時にも、システムのパフォーマンスや正常性のインサイトをリアルタイムに提供することで、オブザーバビリティが活躍します。New Relicに代表されるオブザーバビリティツールは、不具合が起きている場所や他のコンポーネントへの影響を特定し、ITエコシステム内の相互依存関係を明らかにします。

今回の場合、弊社の顧客はアクティブな監視により、システムの不具合やサードパーティーの依存による問題が検知されると、即時に通知を受け取ることができました。ここでは、迅速に通常運営を再開し、ITインフラストラクチャの回復力を維持する方法をご紹介します。

  • 監視されたWindowsシステムログ、エンティティ合成、マッピングの使用:監視されたWindowsシステムログとエンティティ合成、関係性のマッピングを使用して、障害の影響を受けているサーバーを特定します。
  • オーナーシップの調査:影響を受けているシステムが特定できたら、そのシステムの責任者に対処策を通知します。
  • 継続的な監視:パッチとシステムのバリデーションの完了後も、すべてが完全に修復され、通常運営が再開されたことを確認するために監視を続けます。

以下のクエリでは、New Relic Query Language(NRQL)を使用して、Falconを作動していたWindowsホストを表示し、使用されたWindowsプラットフォームのバージョンに影響が発生しているかを迅速に判断することができます。

New Relicのダッシュボード

New Relicのダッシュボード

 

このような可視性にアクセスできれば、問題の全容を把握し、リソースを優先的に振り分け、通常運営を再開することが可能です。

障害はますます複雑化する

1980年代から1990年代初頭にかけて、最も深刻な障害は通信事業者によるもので、110番などの緊急電話やコールセンターサポートといった日常生活に欠かせないサービスを遮断し、大混乱を引き起こしました。しかし、1990年代後半から2000年代初頭にかけて、インターネットが電子商取引を牽引するようになりました。それ以来、システム障害はオンラインショッピングを停止させ、個人の生活にも影響を与えるようになりました。

今日では、50億を超える人々(世界の人口の約3分の2)の生活が、インターネットに依存しています。コーヒーの注文から、Uberの予約まで、日々の小さな行動がソフトウェアに支えられているのです。

今週のインシデント後、システムを見事に復旧させたCrowdstrike社のチームの献身は賞賛に値します。同社は、プレッシャーや時間との戦いによる重圧に置かれることには慣れていて、そのような状況下でも一流の対応を提供しています。重要なワークロードを司るエージェントを何百万も抱える企業として、すべてを円滑に進めることの難しさを私たちは十分理解しています。

今後その重要性と複雑性が増すと考えられる2つの理由:

  1. 継続するデジタル化:多くの国で、経済のデジタル化が急速に加速しています。例えば、インドでは人口の50%以上がインターネットにアクセスしていません。また、アフリカの一部地域ではその数は80%に達します。
  2. AIインテグレーションの加速:生活に寄り添う人工知能が数多く発展し、AIが社会に組み込まれていくことで、仕事や個人の活動はソフトウェアへの依存度をより高めていきます。全方面でのデジタル化:TV視聴の45%がストリーミング経由で、また40億を超える消費者はオンラインで買い物をし、70%以上の広告はオンラインへ移行しているなど。

企業はすべてを監視しても、何も見えていないことがある

私たちの世界は確かにソフトウェアによって動かされ、絡み合っています。そのため、デジタル体験を守ることは非常に重要なミッションです。

企業がすべての活動を監視しているつもりでも、適切なツールを使用していなければ、多くを見逃してしまうことがあります。New Relicに代表されるオブザーバビリティツールは、デジタルビジネスの信頼性を確保する、画期的なツールです。デジタルの世界のすべてを見通せる、まるで超能力のようなものと考えられるかもしれません。

New Relicのプラットフォームは、メトリクス、イベント、ログ、トレース、セキュリティ脆弱性など、すべてのテレメトリーデータを統合し、迅速な対処策への明確で統一された道を提供します。簡単な操作で、複数のデータセンターやマルチクラウド環境を網羅するサーバー、プロセス、アプリケーションなどのテクノロジー間のインタラクションを詳細に示す包括的なエンティティと依存関係マップを表示します。

障害発生時にはオブザーバビリティをご活用しましょう。壊れたものを修復するだけではなく、システムの状況を深く理解することができます。今回の事象や将来起こり得るその他の障害は、不運であり予期せぬ時に起こるものですが、オブザーバビリティを活用することで、対応を正確かつ迅速に行い、運用とパフォーマンスが最短時間で復旧することができます。