Cloudflare: Outage not caused by security incident, data is safe

Cloudflareは、昨日発生した大規模なサービス停止はセキュリティ・インシデントによるものではなく、データの消失もないことを確認した。

この問題はほぼ緩和された。昨日17時52分(UTC)にWorkers KV(Key-Value)システムが完全にオフラインになったのが始まりで、複数のエッジコンピューティングとAIサービスにおいて広範なサービス損失を引き起こした。

Workers KVは、同社のサーバーレス・コンピューティング・プラットフォームであるCloudflare Workersで使用される、グローバルに分散された一貫性のあるKey-Valueストアだ。多くのCloudflareサービスにおける基本的な部分であり、障害が発生すると多くのコンポーネントで問題が連鎖する可能性がある。

この障害は、Google Cloud Platformを筆頭に、数百万人が利用する他のサービスにも影響を与えた。

Workers KV error rate during the incident
インシデント発生時の Workers KV のエラー率
Source:クラウドフレア

Cloudflareは事後調査において、この障害は約2.5時間続き、根本的な原因はサードパーティクラウドプロバイダーの障害によるWorkers KVの基礎となるストレージインフラの障害であったと説明している。

「この障害の原因は、多くのCloudflare製品にとって重要な依存関係であり、影響を受けるサービス全体の設定、認証、およびアセットデリバリに依存している、当社のWorkers KVサービスで使用されている基礎となるストレージインフラの障害によるものです」と Cloudflareは述べている。

「このインフラストラクチャの一部はサードパーティのクラウドプロバイダーによってバックアップされており、本日障害が発生し、KVサービスの可用性に直接影響を与えました。

Cloudflareは各サービスへの影響を調査しました:

  • Workers KV– バックエンドストレージの使用不能により90.22%の障害率が発生し、キャッシュされていないすべての読み取りと書き込みに影響。
  • Access、WARP、Gateway– Workers KVに依存していたため、IDベースの認証、セッション処理、ポリシー実施に重大な障害が発生し、WARPでは新規デバイスの登録ができず、Gatewayではプロキシ処理とDoHクエリが中断。
  • ダッシュボード、ターンスタイル、チャレンジログインと CAPTCHA 検証に広範な障害が発生し、ターンスタイルでキルスイッチが有効化されたため、トークンの再利用リスクが発生した。
  • ブラウザの分離とブラウザのレンダリング– アクセスとゲートウェイで障害が連鎖したため、リンクベースのセッションとブラウザのレンダリングタスクを開始または維持できなかった。
  • ストリーム、画像、ページ– 重大な機能障害が発生:ストリームの再生とライブ・ストリーミングに失敗し、画像のアップロードは成功率が0%に低下。
  • Workers AI & AutoRAG– モデルのコンフィギュレーション、ルーティング、インデックス作成機能をKVに依存していたため、完全に利用不能。
  • Durable Objects、D1、Queues– KVと同じストレージレイヤー上に構築されたサービスは、メッセージキューイングとデータ操作において、最大22%のエラー率、または完全な利用不能に見舞われた。
  • Realtime & AI GatewayWorkers KVからコンフィギュレーションを取得できないため、ほぼ全面的なサービスの中断に直面し、Realtime TURN/SFUとAI Gatewayのリクエストに大きな影響が出た。
  • ZarazとWorkers Assetsエンドユーザーへの影響は限定的であったが、コンフィギュレーションと静的アセットのロードやアップデートに全面的または部分的な障害が発生した。
  • CDN、Workers for Platforms、Workersビルド– 一部のロケーションで遅延の増加や地域エラーが発生し、インシデント発生中に新しいWorkersビルドが100%失敗しました。

この障害を受けてCloudflareは、主にWorkers KVのバックエンドストレージにおける単一のサードパーティクラウドプロバイダーへの依存をなくすなど、回復力に焦点を当てたいくつかの変更を加速させると述べている。

徐々にKVのセントラルストアをクラウドフレア独自のR2オブジェクトストレージに移行し、外部への依存を減らしていく。

Cloudflareはまた、クロスサービスセーフガードを実装し、ストレージ停止中にサービスを徐々に復旧させる新しいツールを開発する予定であり、復旧システムを圧倒し、二次障害を引き起こす可能性のあるトラフィック急増を防止する。

.ia_ad { background-color:#width: 95%; max-width: 800px; margin: 15px auto; border-radius: 8px; border:1px solid #d6ddee; display: flex; align-items: stretch; padding: 0; overflow: hidden; }:0; overflow: hidden; } .ia_lef { flex: 1; max-width: 200px; height: auto; display: flex; align-items: stretch; } .ia_lef a { display: flex; width: 100%; height: 100%; } .ia_lef a img { width: 100%; height: 100%; object-fit: cover; border-radius: 8px 0 0 8px; margin: 0; display: block; } .ia_rig { flex: 2; padding:display: flex; flex-direction: column; justify-content: center; } .ia_rig h2 { font-size: 17px !important; font-weight: 700; color:#line-height: 1.4; font-family:margin: 0 0 14px 0; } .ia_rig p { font-weight: bold; font-size: 14px; margin: 0 0 clamp(6px, 2vw, 14px) 0; } .ia_button { background-color:#border:1px solid #3b59aa; color: black; text-align: center; text-decoration: none; border-radius: 8px; display: inline-block; font-size: 16px; font-weight: bold; cursor: pointer; padding:10px 20px; width: fit-content; } .ia_button a { text-decoration: none; color: inherit; display: block; } @media (max-width: 600px) { .ia_ad { flex-direction: column; align-items: center; text-align: center; } .ia_lef { max-width: 100%; } .ia_lef a img { border-radius: 8px 8px 0 0; } .ia_rig { padding:15px; width: 100%; } .ia_button { width: 100%; } .

ITチームが手作業によるパッチ管理をやめる理由

かつてはパッチ適用といえば、複雑なスクリプト、長時間の作業、終わりのない消火訓練が必要でした。今は違います。

この新しいガイドでは、Tines氏が最新のIT組織が自動化によってどのようにレベルアップしているかを解説している。複雑なスクリプトは必要ありません。