複数の人工知能モデルのトレーニングに使用されたCommon Crawlデータセットから、APIキーとパスワードを含む12,000件近い有効な秘密が発見された。
Common Crawlという非営利団体は、2008年以降に収集されたペタバイトのウェブデータを巨大なオープンソースリポジトリとして管理しており、誰でも無料で利用できる。
大規模なデータセットのため、多くの人工知能プロジェクトは、OpenAI、DeepSeek、Google、Meta、Anthropic、Stabilityのものを含む大規模言語モデル(LLM)のトレーニングのために、少なくとも部分的にはデジタルアーカイブに依存している可能性がある。
AWSルートキーとMailChimp APIキー
Truffle Security(機密データのためのオープンソーススキャナーTruffleHogを開発した会社)の研究者は、Common Crawl December 2024アーカイブの26億7000万ウェブページから400テラバイトのデータをチェックした後、有効な秘密を発見した。
彼らは、認証に成功した11,908の秘密を発見したが、それは開発者がハードコーディングしたものであり、LLMが安全でないコードで訓練されている可能性を示している。
LLMの訓練データは生のまま使用されるわけではなく、無関係なデータ、重複、有害、または機密情報などの不要なコンテンツをクリーニングし、フィルタリングする前処理段階を経ていることに留意すべきである。
このような努力にもかかわらず、機密データを除去することは困難であり、このような大規模なデータセットから個人を特定できる情報(PII)、財務データ、医療記録、その他の機密コンテンツをすべて取り除く保証はない。
スキャンされたデータを分析した結果、Truffle SecurityはAmazon Web Services (AWS)、MailChimp、WalkScoreサービスの有効なAPIキーを発見しました。

source:Truffle Security
全体として、TruffleHog は Common Crawl データセットで219の異なるシークレットタイプを特定し、最も一般的なものは MailChimp API キーでした。
「約1,500のユニークなMailchimpのAPIキーは、フロントエンドのHTMLとJavaScriptでハードコーディングされていた” –Truffleセキュリティ
研究者は、開発者のミスはHTMLフォームやJavaScriptスニペットにハードコードしたことであり、サーバ側の環境変数を使用しなかったことだと説明している。

ソースはこちら:Truffle Security
攻撃者は、これらのキーをフィッシングキャンペーンやブランドなりすましなどの悪意のある活動に使用する可能性があります。さらに、このような秘密の漏えいは、データの流出につながる可能性があります。
このレポートのもう一つのハイライトは、発見された秘密の再利用率の高さである。そのうちの1つ、WalkScoreのAPIキーは、”1,871のサブドメインにわたって57,029回出現した”。
研究者はまた、17のユニークなライブSlackウェブフックを持つ1つのウェブページを発見した。
「秘密にしておけば安全だ。ウェブフックのURLには秘密が含まれています。公開バージョン管理リポジトリ経由も含め、オンラインで共有しないでください」とSlackは警告している。
調査後、Truffle Securityは影響を受けたベンダーに連絡し、ユーザーの鍵を失効させるために協力した。「私たちは、これらの組織が合計で数千のキーを回転/取り消すのを助けることに成功しました」と研究者は言う。
たとえ人工知能モデルが、研究者がスキャンしたデータセットよりも古いアーカイブを使用していたとしても、Truffle Securityの発見は、安全でないコーディングのやり方がLLMの動作に影響を与える可能性があるという警告になる。
Comments