あなたの自動ペンテストツールが壁にぶつかった理由

Picus Securityのセキュリティ・リサーチ・エンジニア、Sila Ozeren Haciogluによる。

セキュリティ・コミュニティではよく知られた話だ。ピカピカの新しい自動ペネトレーション・テスト・ツールを持ち込んで、最初の “実行 “をしてみると、それは驚くべきことだった。ダッシュボードは重大な発見、あなたが存在すると知らなかった横方向の移動経路、そしてレガシー・サービス・アカウントに関わる「ガチャ！」の瞬間で光り輝く。

レッド・チームは戦力増強剤を見つけたように感じ、CISOはセキュリティの「人的要素」をついに自動化したように感じる。

しかし、その後、ハネムーンは終わる。

平均して、4回目か5回目の実行までには、「新しい」発見がなくなってしまう。ツールは同じような陳腐な問題を報告し始め、かつては輝いていたダッシュボードも、ノイズを配信する単なる画面の一つになる。これは単なる活動の停滞ではなく、バリデーション・ギャップ、つまり組織が実際にバリデーションした内容と、バリデーション済みとして報告する内容との間に広がる距離なのである。

もし、あなたの自動ペンテストツールが、過大な期待をし、過小な期待をしているように感じ始めたとしたら、あなたは市場の変化を経験していることになります。業界は、自動化されたペンテストは強力な機能であるが、単独で使用される場合には、ますます危険な戦略であるという事実に目覚めつつある。

Table of contents

POCの崖：ディスカバリーの行き着く先
一つのツールが道を見つける。Picusは残りをテストする。
誤解を解くBASと自動ペンテストの比較
単純さ」の罠：なぜペンテストはBASではないのか
現代のアタック・サーフェスの6つの盲点
1. インテリジェンス層暴露の検証と優先順位付け
問うべき3つの質問
結論

POCの崖：ディスカバリーの行き着く先

最初の実行はエキサイティングだが、実行4回目にはリターンが著しく減少するというこのパターンは、逸話的なものではありません。

セキュリティの専門家は、これを概念実証（PoC）の崖と呼んでいます。ツールが固定された範囲を使い果たした時点で、新たな発見件数が急減することです。これは、チューニングの問題ではありません。

設計上、自動ペンテスト・ソリューションは、最初の実行で最高の結果をもたらします。数サイクル以内に、そのスコープ内の悪用可能なパスは使い尽くされてしまう。しかし、それはあなたの環境が安全であることを意味しない。それは、ツールが限界に達したことを意味するだけであり、より深い問題は未検証のままです。

これは、決定論的な表面に対して動作するツールの構造的な限界である。これはアーキテクチャ上の限界であり、運用上の限界ではない。

自動ペンテストはステップを連鎖させる。ステップBはステップAに依存し、ステップCはステップBに依存する。ツールが好む特定のパスにパッチを当てると、 それはステップAでブロックされ、ステップBからステップZは決して実行されない。ツールは20の横移動テクニックをテストできるかもしれないが、連鎖の早い段階で引っかかると、それらのテクニックは闇に葬られてしまう。ミッションが達成された」という誤った感覚を得る一方で、攻撃対象の残りの部分は調査されないままなのだ。

そこで、Breach and Attack Simulation（BAS）が一線を画す。

BASは連鎖することなく、何千もの独立したアトミックなシミュレーションを実行する。BASは連鎖させず、何千もの独立したアトミック・シミュレーションを実行します。DNS 経由での流出テストがブロックされたとしても、次に HTTPS 経由で流出テストが行われることはありません。横方向への移動が失敗したからといって、他の19の手法のテストが中断されることはない。

1つは経路をテストする。もう1つはシールドをテストする。

a.fl_button { background-color：#border：1px solid #3b59aa; color：#text-align: center; text-decoration: none; border-radius: 8px; display: inline-block; font-size: 16px; font-weight: bold; margin：4px 2px; cursor: pointer; padding：12px 28px; } .fl_ad { background-color：#width: 95%; margin: 15px auto 15px auto; border-radius: 8px; border：1px solid #d6ddee; box-shadow: 2px 2px #728cb8; min-height: 200px; display: flex; align-items: center; } .fl_lef>a>img { margin-top: 0px !important; } .fl_rig>p { font-size: 16px; } .grad-text { background-image: linear-gradient(45deg, var(–dawn-red), var(–iris)54%, var(–aqua)); -webkit-text-fill-color: transparent; -webkit-background-clip: text; background-clip: text; } .fl_rig h2 { font-size: 18px!important; font-weight: 700; color：color: #333; line-height: 24px; font-family：font-family: Georgia, times new roman, Times, serif; display: block; text-align: left; margin-top: 0; } .fl_lef { display: inline-block; min-height: 150px; width: 25%; padding：10px 0 10px 10px; } .fl_rig { padding：10px; display: inline-block; min-height: 150px; width: 100%; vertical-align: top; } .fl_lef>a>img { border-radius: 8px; } .cz-news-title-right-area ul { padding-left: 0px; } @media screen and (max-width: 1200px) { .fl_ad { min-height: 184px; } .fl_rig>p { margin: 10p10px; } .fl_rig { padding：0 10px 10px 10px; width: 100%; } } @media screen and (max-width: 400px) { .cz-story-navigation ul li:first-child { padding-left: 6px; } .cz-story-navigation ul li:last-child { padding-right: 6px; } } }.

一つのツールが道を見つける。Picusは残りをテストする。

自動ペンテストは攻撃経路をマッピングします。Picusは、検出ルール、防御コントロール、アイデンティティ、クラウド、AIの5つのサーフェスを検証する。

既存のツールから得られた結果は、優先順位付けされた単一のキューに正規化されます。そのまま置き換える必要はありません。ライブでご覧ください。

デモをリクエスト

誤解を解くBASと自動ペンテストの比較

PoCクリフの「なぜ」をよりよく理解するためには、業界で拡大しつつある混乱に対処する必要がある。Breach and Attack Simulation（BAS）と自動ペネトレーション・テストは、検証という大まかな目標は共有しているものの、異なる質問に異なる方法で答えている。

BASを一連の独立した測定と考える。BASは、敵対的な手法、マルウェアのペイロード、横方向への移動、流出を継続的かつ安全にエミュレートし、特定のセキュリティ・コントロール（ファイアウォール、WAF、EDR、SIEM）が実際にその役割を果たしているかどうかを検証します。

その主な使命は、既知の脅威行動に対して防御がブロックまたは警告しているかどうかをテストすることです。各テストは、防御力のチェックとして単独で実施されます。

これとは対照的に、自動化された侵入テストは方向性を持っています。実際の攻撃者が行うような方法で脆弱性や設定ミスを連鎖させることで、より外科的で敵対的なアプローチを取ります。Active DirectoryのKerberoastingや、ドメイン管理者アカウントに到達するための権限のエスカレーションなど、複雑な攻撃経路を明らかにすることを得意とします。

どちらも「検証方法」と思われがちですが、この2つはミッションも結果も根本的に異なります。一方は、個々の防御がどれだけ強固かを示すものであり、もう一方は、それにもかかわらず攻撃者がどこまで侵入できるかを示すものである。

単純さ」の罠：なぜペンテストはBASではないのか

最近、一部のベンダーは、自動化されたペンテストがBASに取って代わることができ、またそうすべきだという考えを提唱している。紙の上では、それは素晴らしいことのように聞こえる。

現実には、これはアップグレードではなく、単純化を装ったカバレッジの後退である。

今見てきたように、自動ペンテストとBASツールは、根本的に異なる問題に答えるものです。最新の企業のセキュリティを確保するためには、両方の答えが必要です：

BASは問いかける：BASは、”私のファイアウォール、EDR、WAF、SIEMは、MITRE ATT&CKフレームワーク全体にわたって、実際にその役割を果たしているか？“と問いかけます。これは、防御コントロールの有効性に焦点を当てています。
自動ペンテストは、次のように問いかけます： 「攻撃者は既知のエクスプロイトを使用して、A地点からB地点に到達できるか？これは、特定の攻撃経路の成功に 焦点を当てます。

Example Attack Chain Scenario: What Automated Pentesting & BAS Validates — **図 1.攻撃チェーンのシナリオ例自動ペンテストとBASが検証するもの**

BAS 評価を自動ペンテストと入れ替えると、予防と検出のスタックの検証をやめてしまうことになる。

攻撃者がある特定のエクスプロイトを利用してデータベースに到達できないことは分かっても、攻撃者が別の、エクスプロイトではないテクニックを試した場合に、EDRがまばたきすらしないかどうかについては、可視性がゼロです。

現代のアタック・サーフェスの6つの盲点

マーケティング資料では「包括的な」カバレッジが約束されていますが、現実には、自動化されたペンテストは通常、インフラストラクチャとアプリケーション・パスの表面をかすめるにすぎません。

Six Layers of an Organization’s Attack Surface — **図2.組織のアタック・サーフェスの6つのレイヤー**

上に示したように、2つのサーフェスは自動ペンテストによるカバレッジがありません。4つのサーフェスは、せいぜい部分的にカバーされる程度です。完全にカバーされているサーフェスは1つもありません。つまり、完全に検証されたのは6層中0層ということになる。これは、今日の侵害が実際に発生している場所での大規模な検証ギャップを生み出している：

ネットワークとエンドポイントのコントロールだ：ネットワークとエンドポイントのコントロール：エクスプロイトの経路は特定されているが、ファイアウォール、WAF、IPS、DLP、EDRが、阻止するように設定された脅威を実際にブロックしているかどうかは確認されていない。コントロールは無言のまま失敗し、”設定済み “が “有効 “と誤解される。
検知とレスポンスのスタック： 自動化されたペンテストでは、SIEMのルールやEDRの検知ロジックが実際に機能しているかどうかを可視化することができません。ツールは攻撃者として実行され、防御者を観察することはできません。検知範囲は測定されるのではなく、想定される。
インフラストラクチャとアプリケーションの攻撃経路これらのテストはしばしば「POC の崖」に直面する。インフラ経路はマッピングされているが、複雑なアプリケーション層の攻撃チェーンはカバレッジにばらつきがあり、敵対者にオープンなまま利用されることが多い。
アイデンティティと特権： 既存のパスは通過しているが、Active Directoryの設定、IAMポリシー、権限の境界の体系的な検証は行われていない。
クラウドとコンテナ環境：動的なKubernetesのポリシーとクラウドのセキュリティコントロールは、構成が変化するにつれて、検証されずに暗いままであることが多い。
AIと新技術：ジェイルブレイク、プロンプトインジェクション、敵対的な操作に対する内部LLMの重要なガードレールが完全に検証されていない。

インテリジェンス層暴露の検証と優先順位付け

この横断的なレイヤーは、これらのサイロを統合する。理論的なCVEと実際のセキュリティ・コントロールのパフォーマンスを照合することで、ノイズを除去し、誤って高いまたはクリティカルと分類された60%以上の発見を、本当に悪用可能な10%程度に減らし、誤った緊急性を80%以上低減し、防御可能で優先順位をつけたアクション・リストを作成します。

問うべき3つの質問

このギャップを理解することは1つのことであり、これを解決するには、検証ベンダーにより高い基準を課す必要がある。マーケティングの誇大広告を切り抜け、ツールが実際に 何を提供するのかを知るには、3つの基本的な診断の質問に集約される。

ベンダーのミーティング、更新時の会話、予算の見直しのたびに、この3つの質問を持参すること。これらは主観的なものではなく、構造的なものだからだ。この3つすべてに具体的な根拠をもって答えられるツールは、真摯な評価に値する。

あなたのツールは、私の6つの検証面のうちどれをカバーし、それぞれの中でどの範囲をカバーしていますか？
あなたのプラットフォームは、悪用可能な脆弱性と理論的な脆弱性をどのように区別しますか。
貴社のプラットフォームは、他のツールで発見された事項を、どのようにして、単一の、重複排除された、優先順位付けされたビューとアクションリストに正規化しますか？

このサーフェスを検証しないことにした」と「検証されていないことに気づかなかった」の違いは、リスク管理と暴露の違いです。

結論

攻撃対象サーフェスは、ツールにどのベンダーのロゴが入っているかは気にしない。

気にするのは、それがテストされているかどうかだけです。現在の自動ペンテスト・デプロイメントが、クリティカルなサーフェスを闇に葬り去っているのであれば、戦略を再構築する時です。

私たちの最新の実務者向けガイド「バリデーション・ギャップ：自動化されたペンテストだけでは見えないもの」は、あなた自身のカバレッジを監査し、カバレッジがどこで停滞しているかを診断し、統一されたバリデーション・アーキテクチャを構築するために必要な完全な診断フレームワークを提供します。

まず、6つのサーフェスから始めよう。自分のカバレッジを採点する。ツールがどこで止まっているかを知ることで、次に進むべき道を決めることができる。

Picus Securityがスポンサーとなり、執筆しました。