昨日、CloudflareのR2オブジェクト・ストレージ・プラットフォームでフィッシングURLをブロックしようとした試みが裏目に出て、複数のサービスが1時間近くダウンする大規模な障害が発生した。
Cloudflare R2はAmazon S3に似たオブジェクトストレージサービスで、スケーラブルで耐久性があり、低コストのデータストレージとして設計されている。コストフリーのデータ検索、S3との互換性、複数拠点へのデータ複製、Cloudflareサービスとの統合を提供している。
障害発生は昨日、従業員がCloudflareのR2プラットフォームでフィッシングURLに関する不正使用報告に対応した際に発生した。しかし、この従業員は特定のエンドポイントをブロックするのではなく、誤ってR2 Gatewayサービス全体をオフにしてしまいました。
「Cloudflareは事後報告書の中で、「定期的な不正利用の修復中に、報告された特定のエンドポイント/バケットではなく、R2 Gatewayサービスを誤って無効にしてしまった。
「これは複数のシステムレベルのコントロール(まず第一に)とオペレーターのトレーニングの失敗でした。
インシデントはUTC 08:10から09:09の間、59分間続き、R2 Object Storage自体とは別に、以下のようなサービスにも影響を与えた:
- ストリーム – 動画のアップロードとストリーミング配信に100%の障害。
- 画像 – 画像のアップロード/ダウンロードに100%の障害。
- キャッシュ・リザーブ– オペレーションで100%の障害が発生し、オリジン・リクエストが増加した。
- Vectorize – クエリで75%、挿入、アップサート、削除操作で100%の障害。
- ログ配信– 遅延とデータ損失:R2関連のログで最大13.6%のデータ損失、R2以外の配信ジョブで最大4.5%のデータ損失。
- Key Transparency Auditor(鍵の透明性監査)– 署名の発行と読み取り操作で100%の障害。
また、回復後の再接続によりエラー率が0.09%増加したDurable Objects、エラー(HTTP 5xx)が1.8%増加し、待ち時間が10倍に急増したCache Purge、R2バインディングを持つプロジェクトのみに影響を与え、デプロイメントに0.002%の失敗が発生したWorkers & Pagesなど、間接的に部分的な障害が発生したサービスもありました。

クラウドフレア
Cloudflareは、人為的ミスと、影響の大きいアクションに対する検証チェックなどのセーフガードの不在の両方が、このインシデントの鍵であったと指摘している。
インターネット大手のクラウドフレアは現在、不正利用のレビューインターフェイスでシステムをオフにする機能を削除したり、内部アカウントでのサービス無効化を防ぐために管理者APIで制限を設けるなど、早急な修正を実施している。
今後実施される追加措置としては、アカウント・プロビジョニングの改善、アクセス・コントロールの厳格化、リスクの高い行為に対する二者間承認プロセスなどがある。
2024年11月、Cloudflareは3.5時間にも及ぶ重大な障害に見舞われ、サービス内の全ログの55%が不可逆的に失われました。
この事故は、Cloudflareのロギングパイプラインの重要なコンポーネントに誤ったコンフィギュレーションをプッシュしたことが引き金となり、Cloudflareの自動ミティゲーションシステムに連鎖的な障害が発生したことが原因でした。
Comments