ChatGPT

OpenAIのChatGPTプラットフォームは、LLMのサンドボックスへの高度なアクセスを提供し、プログラムやファイルのアップロード、コマンドの実行、サンドボックスのファイル構造の閲覧を可能にします。

ChatGPTサンドボックスは、他のユーザーやホストサーバーから隔離された環境で、ユーザーは安全にLLMと対話することができます。

これは、機密ファイルやフォルダへのアクセスを制限し、インターネットへのアクセスをブロックし、欠陥を悪用したりサンドボックスから抜け出す可能性のあるコマンドを制限しようとすることで実現する。

Mozillaの0-day調査ネットワーク「0DIN」のMarco Figueroa氏は、Pythonスクリプトのアップロードと実行、LLMのプレイブックのダウンロードなど、サンドボックスへの広範なアクセスが可能であることを発見した。

出版前に独占的に共有されたレポートの中で、フィゲロアは5つの欠陥を示し、OpenAIに責任を持って報告した。AI企業はそのうちの1つにしか関心を示さず、さらにアクセスを制限する計画は示さなかった。

ChatGPTサンドボックスの探索

ChatGPTでPythonプロジェクトに取り組んでいたとき、Figueroaは “ディレクトリが見つかりません “というエラーを受け取り、ChatGPTユーザーがサンドボックスとどの程度やりとりできるかを知ることになった。

すぐに、この環境はサンドボックスへの多くのアクセスを許可していることが明らかになり、ファイルのアップロードとダウンロード、ファイルとフォルダーのリスト、プログラムのアップロードと実行、Linuxコマンドの実行、サンドボックス内に保存されているファイルの出力などができるようになった。

研究者は、「ls」や「list files」などのコマンドを使用して、設定やセットアップ情報が格納されている「/home/sandbox/.openai_internal/」を含む、サンドボックスの基礎となるファイルシステムのすべてのディレクトリのリストを取得することができた。

Listing files and folders in the ChatGPT sandbox
ChatGPTサンドボックス内のファイルとフォルダのリスト
Source:Marco Figueroa

次に、彼はファイル管理タスクの実験を行い、/mnt/data フォルダにファイルをアップロードしたり、アクセス可能な任意のフォルダからファイルをダウンロードできることを発見した。

‘sの実験では、サンドボックスは/rootフォルダや/etc/shadowのような様々なファイルのような特定の機密フォルダやファイルへのアクセスを提供しないことに注意すべきである。

ChatGPTサンドボックスへのこのアクセスの多くは、すでに過去に公開されており、他の研究者も同様の方法を見つけて探索している。

しかし、この研究者は、カスタムPythonスクリプトをアップロードし、サンドボックス内で実行することもできることを発見した。例えば、Figueroa氏は “Hello, World!”というテキストを出力するシンプルなスクリプトをアップロードし、それを実行したところ、出力が画面に表示された。

Executing Python code on the sandbox
サンドボックス上でPythonコードを実行
出典:Figueroa:Figueroa

また、サンドボックス内のすべてのテキストファイルを再帰的に検索するPythonスクリプトをアップロードして、この能力をテストした。

法的な理由から、研究者は、サンドボックスから脱出しようとしたり、より悪質な動作を実行するために使用できる「悪意のある」スクリプトをアップロードすることはできなかったと述べている。

上記のすべてが可能であったが、すべてのアクションはサンドボックスの境界内に限定されていたため、環境は適切に隔離されているように見え、ホストシステムへの「脱出」を許さないことに留意すべきである。

Figueroa氏はまた、プロンプト・エンジニアリングを使ってChatGPTの “playbook “をダウンロードできることも発見した。”playbook “は、一般的なモデルやユーザーが作成したアプレット上でチャットボットがどのように振る舞い、応答するかを管理するものである。

研究者は、プレイブックへのアクセスは透明性を提供し、回答がどのように作成されるかを示すことでユーザーとの信頼関係を築くことができると言う。

「指示の透明性は有益ですが、モデルの回答がどのように構成されているかが明らかになり、ユーザーがガードレールをリバースエンジニアリングしたり、悪意のあるプロンプトを挿入したりできる可能性があります」とフィゲロア氏は説明する。

「機密の指示や機密データで構成されたモデルは、ユーザがアクセスを悪用して独自の設定や洞察を収集した場合、リスクに直面する可能性があります」と研究者は続ける。

Accessing the ChatGPT playbook
ChatGPTプレイブックへのアクセス
ソースはこちら:フィゲロア

脆弱性か、設計上の選択か?

Figueroa氏は、ChatGPTの内部環境との相互作用が可能であることを示しているが、これらの相互作用から安全性やデータプライバシーに関する直接的な懸念は生じない。

OpenAIのサンドボックスは十分に安全であるように見え、すべてのアクションはサンドボックス環境に制限されています。

とはいえ、サンドボックスとの相互作用の可能性は、OpenAIの設計上の選択の結果かもしれません。

というのも、ファイルの移動はサンドボックスを破壊する可能性があるからです。

さらに、コンフィギュレーションの詳細にアクセスすることで、悪意のあるアクターがAIツールの仕組みや、危険なコンテンツを生成させるために防御を迂回する方法をより深く理解できるようになる可能性もある。

プレイブック」には、モデルのコアとなる命令と、その中に組み込まれたカスタマイズされたルール(独自の詳細やセキュリティ関連のガイドラインを含む)が含まれており、リバースエンジニアリングや標的型攻撃のベクトルを開く可能性がある。

火曜日にOpenAIに問い合わせたところ、広報担当者がこの問題について調査中であると回答した。