2024.11.01
ユーザー企業の損失54億ドル以上/世界中のWindows端末がダウンした未曾有の障害から考えるサイバーセキュリティ製品利用のリスクマネジメント
EDR製品のユーザー企業が取り得る対策とは
窪田 曉 城 健人
近年多くの企業がDXを推進し社内のあらゆる機器がネットワークに接続していることに伴い、セキュリティ脆弱性を突いたサイバー攻撃も日々進化・巧妙化している。企業がサイバー攻撃の被害に遭うリスクを軽減するための対策として、クラウドサービス型のEDR(Endpoint Detection and Response)製品を導入することが主流の選択肢の一つになっている。2024年7月、世界中の多くの企業が特定のEDR製品に依存していることが顕在化する形で、世界規模のシステム障害が発生した。今回、なぜこの障害が世界規模で発生したのか。Windowsセキュリティソフトウェアアーキテクチャの特徴や、導入企業のIT組織の事情を踏まえて考察し、今後同様の事象の再発を見据えてユーザーが取り得る対策を解説する。
世界規模で発生した未曾有のWindows障害
日本時間2024年7月19日14時頃、各地の企業のSOC(Security Operation Center)宛に同様の問い合わせが立て続けに発生していた。
「Windows端末でブルースクリーン事象が大量発生している」
SOC内部ではすぐに緊急対策室が設置され、原因究明のために情報収集を開始した。米匿名SNS Redditには推察も含まれた投稿が散見された。同時多発的にMicrosoftの障害が発生していたため、Windows OSが原因なのか、あるいはOSではなく何らかのソフトウェアが原因なのかが判然とせず、原因不明を告げる速報のニュースばかりが飛び交っていた。時間が経過し、新たな事実が明らかとなった。「障害はEDRソフトの“CrowdStrike”、中でも特定バージョン以上をインストールした端末で発生している」という情報が出たことから、CrowdStrike社の Tech Alert(テクニカルレポートの一種)が待たれた。日本時間2024年7月19日15:30頃に発報されたTech Alertにより、それが決定づけられた。
障害発生から収束までの経緯
2024年7月9日13:09、CrowdStrike社は、Windows端末にインストールされているCrowdStrike Falconセンサーに対して、ラピッドレスポンスコンテンツチャネルファイル(CrowdStrikeの設定ファイルの一種)を配信した。この後、CrowdStrikeを導入する世界中のWindows端末において、 BSoD(Blue Screen of Death:青い背景のエラー画面が表示され、端末が起動できなくなる事象)が発生し、航空、ヘルスケア、金融業界等さまざまな業界で利用されている端末約850万台に影響を与えることとなった。同日14:27、CrowdStrike社により修正版の設定ファイルが配信され、オンライン状態の端末から順次復旧した。ただし、一部端末ではBSoDが解消せず、OSが起動不能の状態であった。その後CrowdStrike社から、Windowsをセーフモードで起動して該当チャネルファイルを削除するワークアラウンド*が公開された。
*問題が発生した際の暫定対策
また7月26日には、セーフモードで起動できないデバイスに対し、CrowdStrikeブータブルリカバリーイメージを作成して復旧するワークアラウンドが公開されたが、その手順は複雑であり、USBメモリなどの外部機器も必要だった。すべての端末を障害から復旧し、業務を再開させるまでに時間を要する企業も見られたものの、CrowdStrike社によれば世界中でCrowdStrikeをインストールしているWindows端末のFalconセンサーのうち、約99%が7月29日時点までにオンラインになったという。
CrowdStrike社は本障害が起きた要因として、チャネルファイルの一つであるラピッドレスポンスコンテンツに実装されるFalconセンサーのプログラム(データの入力フィールド参照部)に問題があったと結論付け、再発防止策としてリリース前のソフトウェアテストの強化や、ユーザーがラピッドレスポンスコンテンツの展開を制御できる機能を追加したと発表した。今回発生したCrowdStrikeの障害により、世界中の企業活動が停滞した事実が連日報道されたため、多くの企業がCrowdStrikeを導入しているという事実が顕在化することとなった。クラウドベンダーのダウンタイム保険を提供する米サイバー保険会社Parametrix Solutionsは、本障害がもたらした経済的影響の規模の推計を発表している。同社によると、米Microsoftを除いた米フォーチュン500社の経済損失額の合計は54億ドル(約8300億円)に達するという。[1][2][3][4][5]
なぜ世界規模の障害になったか
今回のシステム障害が、なぜ世界規模で発生したか。3つの背景から考察する。
IT組織におけるEDR製品の立ち位置
EDR製品は、しばしばそれを運用するセキュリティ組織の構築とセットで考えられる。日本においてもあらゆる企業がDXを推進する中、サイバー攻撃も複雑化している。一方セキュリティ人材が不足する中、アジリティの高いシステム開発を推進しながらDevSecOps(開発チーム・セキュリティチーム・運用チームが協業し、開発のスピード感とセキュリティの安全面を両立させるという概念)のような機能を、各組織のDX/IT担当者が個々に備えることは容易ではない。
そこで、あらゆるエンドポイントを一元的に管理できるEDR製品を用いながら、SOC/CSIRT(Computer Security Incident Response Team)といったセキュリティ組織を社内に一元集約する形で設置することで、全社的な統制がとりやすくなる上、組織横断的かつ効率的な脅威検知やインシデント発生時の迅速な対応が可能となる。また、個々の組織でセキュリティ製品を運用するコストも軽減されるため、コストメリットも大きいという利点が挙げられる。このような背景により、セキュリティリスクへの対応を講じている企業では、SOC/CSIRT組織の設立・運用とともに、社内のあらゆるデバイスに一元的にEDRがインストールされていることが多い。[6]
EDR市場におけるCrowdStrikeの優位性
各OSに依存しない独立系セキュリティベンダーであるCrowdStrikeは成熟したEDR機能と豊富な実績を有するソリューションであり、他社競合製品より優位な評価を得ている。一方Microsoft社のMicrosoft Defender for EndpointはLinuxベースのシステム等へのOS対応がWindowsと比較し均一でなかったり、Cybereason社の製品であるCybereasonはユーザーニーズに対して十分な機能が提供できていなかったりという課題が挙げられていた。CrowdStrikeはこれら競合製品と比べて高い市場評価を得ていることで、EDR製品を導入している多くの企業はCrowdStrikeを採用していると考えられる。
Windowsエコシステムにおけるセキュリティソリューションのソフトウェアアーキテクチャ
EDR製品を代表とするWindowsエコシステムにおけるセキュリティ製品では、セキュリティ機能を堅牢にするためにカーネルドライバーを使用した開発が主流となっており、CrowdStrikeもその一つである。カーネルドライバーを使用することにより、ユーザーモードアプリケーションの前に読み込まれる可能性のあるマルウェアをセンサーが監視・防御できるようになる。一方でカーネルドライバーを使用したアーキテクチャは、アプリケーションレベルでの制御を実行するユーザーモードとは異なり、Windowsのシステムレベルでの制御となるため、システムクラッシュのリスクとのトレードオフが生じる。そのためカーネルでの動作を最小限に抑え、極力ユーザーモード内で実行できるアーキテクチャが採用されることとなるが、カーネル内での実装が行われる部分が残る以上テストを慎重に行う必要が生じ、ユーザー側もシステムクラッシュの可能性を考慮して運用する必要がある。 [7]
以上述べてきたように、CrowdStrikeは他社の追随を許さない機能面の優位性とあらゆる企業におけるセキュリティ強化の重要性の高まりから、今日ではあらゆる企業に欠かせないインフラストラクチャーとして世界中の多くのデバイスにインストールされている。加えて、カーネルドライバーを使用したアーキテクチャを採用するセキュリティソフトウェアであることから、BSoDの発生を回避できずに世界規模の障害に発展したと考えられる。
ユーザーが検討すべき対策
この未曾有の障害を踏まえ、EDR製品のユーザー企業が取り得る対策を以下3点記載する。
システム障害に備える
CrowdStrikeに代表されるEDR製品を導入する以上、システムクラッシュへの対策は考慮しなければいけない。今回CrowdStrike社は、万が一BSoDから復旧できなくなった際の対応策として、ブータブルリカバリーイメージを利用したワークアラウンドを公開したものの、手順が複雑かつUSBメモリが必要であったため、早期復旧の選択肢として実行できない場合もあっただろう。このような事態の発生を予期した事前の対策として、バックアップを取っておくことが重要である。サーバーに対しては、チャネルファイルが配信される前のデータにロールバックすることで、容易に環境を復旧することができた。クライアントに関しても、バックアップさえ取っておけば、代替機にデータをリカバリーして業務を継続することが可能である。障害が発生した端末の復旧についても、複雑な手順を実行せずにOSを初期化する方が素早く復旧できるケースもあることは留意しておくべきだろう。
経済的損害に備える
今回のような障害が再発した場合に備え、経済的な損害リスクを考慮した対策も検討しておく必要がある。
デルタ航空社は、今回の障害から復旧するまでに航空便の遅延や欠航が相次ぎ、損害額が5億ドル(約750億円)に上ったことから、CrowdStrike社に損害賠償を請求するという。しかし、CrowdStrike社のWebサイトに記載されるCrowdStrike利用規約には、責任の制限に関する記述に、“CrowdStrikeに支払われた合計料金を超える金額に対する責任からは制限される”旨の記載が見られる。今回、デルタ航空社の請求が希望通りとなることは難しいと予想する記事も散見されるが、今後の動向に注視したい。
また、保険会社が提供するサイバー保険に加入する方法もある。ただし、今回のようなCrowdStrike基盤障害が補償対象となるかを確認した上で活用を検討する必要があることに加え、ほとんどの場合、補填額には上限が設けられている。そのため今回のように被害が大規模に及ぶ場合は、これだけで経済的損失額を全てカバーすることは難しいだろう。 システムクラッシュが避けられない以上、CrowdStrikeはある程度ダウンタイムが許容できるシステムに向いているといえる。しかしそれでもCrowdStrikeを利用してセキュリティ強化を図る場合は、ユーザー責任で障害が起こるチャネルファイルが配信される前の状態へロールバックできるような冗長化対策を行い、障害時の早期復旧対策を検討しておくか、そもそもEDR製品を用いずセキュリティ対策の強化を図るなどの検討が必要だろう。[8][9][10]
EDR依存にならないよう、別のセキュリティ対策も検討する
2で記載したように、ミッションクリティカルなシステムや障害発生時の経済的損害が大きいシステムの場合、システムクラッシュのリスクを回避するために代替策でセキュリティリスクの軽減を検討する必要がある場合がある。しかしEDRが導入されていない端末にランサムウェアのようなセキュリティ攻撃が行われた場合、ネットワークに繋がるあらゆる端末に感染拡大のリスクが生じる。そのため、EDRを導入しないのであれば、単純にアンチウィルス製品の導入だけでなく、インターネット接点に対する検知防御としてのIDS(Intrusion Detection System, 侵入検知システム)/IPS(Intrusion Prevention System, 侵入防止システム)の導入、侵入されても拡大を防ぐためにネットワーク構成を見直す等さまざまな対策をとりながら、EDRを導入せずともセキュリティ脅威への対策が十分といえる状態を実現する必要がある。また、システム担当者による個別施策を行った場合は、EDRを運用するSOCやCSIRTに頼らず、セキュリティ人材の確保やシステム担当者の教育などを図ることで、自らインシデントに対応しなければならなくなる場合もあるだろう。そのため、多くの企業および各組織のユーザーはEDR製品の利便性とリスクのバランスを考えながら、EDRを継続利用するのか、脱EDRするか慎重に検討する必要がある。
(補足)突然のチャネルファイル配信再開通知とその背景
今回のCrowdStrike障害が収束する過程で発生した、もう一つのトラブルがある。
2024年8月1日10:41頃、CrowdStrike社からTech Alertが発報された。今回の障害の要因であり、障害発生以降配信を停止していたラピッドレスポンスコンテンツチャネルファイルと、センサーオペレーションチャネルファイル(OSのカーネル更新に合わせて互換性を担保するファイル)の2種類のファイルの配信を8月7日以降、再開するというものだった。ユーザー企業の多くは、これらのファイルの配信を停止していた事実をここで初めて知ることとなった。また、センサーオペレーションチャネルファイルの配信停止により、ユーザーが利用するWindows端末が7月23日~7月25日に配信されたWindow Updateを適用した場合、FalconセンサーがRFM(Reduced Functionality Mode, 機能縮退モード)になっていたことが判明した。RFMとは、本来CrowdStrikeに期待する機能、すなわちサイバー攻撃などの脅威の検知と、マルウェアなどに感染したおそれのある端末のネットワーク隔離がほぼ機能しない状態を意味する。
CrowdStrike社は、RFM端末の大量発生によるユーザーとのトラブルが拡大する前に、突然の再開を発表したものと推察される。結果的に8月7日以降のチャネルファイル配信再開に伴い、CrowdStrikeのRFMは順次解消した。なお、通常Windows Updateの適用(カーネルの更新)が行われると、システムクラッシュを防止するために一時的にRFM状態となるが、対応するチャネルファイルが数日後に配信されて解消する。もし正常なステータスに戻らない場合、CrowdStrike運用の専門チームが状態を把握し、ステータスの是正対応を行うことが重要となる。
最近でも、10月初旬に配信されたFU(Feature Update, 機能更新)と呼ばれるWindows11の大型アップデート(バージョン24H2)により、CrowdStrikeがRFMとなった。その後、Windows 24H2へ対応するCrowdStrikeのリリースが約1カ月先となることがアナウンスされた。このような事象が度々発生することが、CrowdStrike運用上の恒常的な課題となっている(我々はCrowdStrike運用におけるさまざまなRFM是正対応パターンのナレッジを蓄えてきたが、それはまた別の機会で述べることとしたい)。
おわりに
本記事では、2024年7月に発生したEDR製品起因の基盤障害を踏まえ、EDR製品の特徴と、基盤障害が発生した際にユーザーが取れる対策を解説した。EDR製品を導入することで、あらゆるエンドポイントをセキュリティ強化できる点で利便性が高いことは間違いない。一方、今回の障害を踏まえ、EDRのソフトウェアは改善を図ると思われるものの、ソフトウェアアーキテクチャそのものを考慮すると、少なくとも現時点ではEDRによるセキュリティ保護の恩恵と引き換えに、システムクラッシュ発生のリスクは避けられず、それと向き合い続けることが求められるだろう。本記事に記載したEDR基盤の特徴を踏まえながら、今後多くの企業はEDRを導入するメリットとリスクのバランスを考えながらEDR製品をうまく活用し、運用していく必要がある。
- [1] Bloomberg(2024), “システム障害で世界的大混乱、救急電話も不通-航空は2万便余り遅延”, https://www.bloomberg.co.jp/news/articles/2024-07-19/SGUZA3T1UM0W00(参照2024年8月23日)
- [2] Bloomberg(2024), “世界的なシステム障害、ウィンドウズOS端末850万台に影響”, https://www.bloomberg.co.jp/news/articles/2024-07-21/SGY8HIT1UM0W00(参照2024年8月23日)
- [3] CrowdStrike(2024), “Windowsホスト向けFalconコンテンツ更新に関する技術情報”, https://www.crowdstrike.jp/technical-details-on-todays-outage(参照2024年8月23日)
-
[4]
CrowdStrike(2024), “Remediation and Guidance Hub:
Channel File 291 Incident” ,https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/(参照2024年8月23日) - [5] CrowdStrike(2024), “Building CrowdStrike Bootable Recovery Images”, https://www.crowdstrike.com/wp-content/uploads/2024/07/Building-CrowdStrike-Bootable-Recovery-Images-2.pdf(参照2024年8月23日)
- [6] IPA 独立行政法人 情報処理推進機構(2024), “DX動向2024”, https://www.ipa.go.jp/digital/chousa/dx-trend/eid2eo0000002cs5-att/dx-trend-2024.pdf(参照2024年8月23日)
- [7] Microsoft(2024), “Windows Security best practices for integrating and managing security tools”, https://www.microsoft.com/en-us/security/blog/2024/07/27/windows-security-best-practices-for-integrating-and-managing-security-tools/#why-do-security-solutions-leverage-kernel-drivers(参照2024年8月23日)
- [8] Reuters(2024), “デルタ航空、世界的システム障害で補償請求へ=CNBC”, https://jp.reuters.com/markets/commodities/IKOCHLHVXRNI3NUB3WQXPJ3S3U-2024-07-30/(参照2024年8月23日)
- [9] CrowdStrike(2024), “CROWDSTRIKE利用規約”, https://www.crowdstrike.com/terms-conditions-jp/(参照2024年8月23日)
- [10] ITmedia Inc.(2024), “CrowdStrikeの障害は日本円換算で7900億円の大損失 サイバー保険ではカバーできず”, https://www.itmedia.co.jp/enterprise/articles/2408/12/news034.html(参照2024年8月23日)