Time machine

Time Bandit」と名付けられたChatGPTの脱獄の欠陥は、武器の作成、核の話題に関する情報、マルウェアの作成など、機密性の高いトピックに関する詳細な指示を求める際に、OpenAIの安全ガイドラインを回避することを可能にする。

この脆弱性は、サイバーセキュリティとAIの研究者であるDavid Kuszmar氏によって発見された。ChatGPTは「時間的混乱」に苦しんでおり、LLMを過去なのか現在なのか未来なのかわからない状態にすることが可能であることを発見した。

この状態を利用して、クシュマーはChatGPTを騙して、通常は保護されているトピックに関する詳細な指示を共有させることができた。

自分が発見したことの重大さと、それが引き起こす可能性のある危害に気づいた後、研究者は不安になってOpenAIに連絡を取ったが、バグを公表するために誰とも連絡を取ることができなかった。バグを開示するためにBugCrowdを紹介されたが、彼はその欠陥とそれが明らかにする可能性のある情報の種類は、第三者に報告するには機密すぎると感じた。

しかし、CISA、FBI、政府機関に連絡しても助けてもらえなかったため、クシュマーはますます不安になったと語った。

「恐怖。落胆。不信感。何週間も、物理的に押しつぶされて死んでいくような気分だった」とクズマールはインタビューで語った。

「体のあちこちがいつも痛かった。何かできる人に耳を傾けさせたい、証拠を見てもらいたいという衝動に駆られた”

12月に研究者の代理としてOpenAIに連絡を取ろうと試みたが返答がなかったため、私たちはKuzmar氏にCERT Coordination CenterのVINCE脆弱性報告プラットフォームを紹介し、OpenAIとの連絡を開始することに成功した。

Time Bandit脱獄

潜在的に危険なトピックに関する情報の共有を防ぐために、OpenAIはChatGPTにセーフガードを組み込み、LLMがセンシティブなトピックに関する回答を提供するのをブロックしています。これらのセーフガードされたトピックには、武器の作り方、毒物の作り方、核物質についての情報を求めること、マルウェアの作成、その他多数が含まれます。

Safeguards built into ChatGPT
ChatGPTに組み込まれたセーフガード

LLMの台頭以来、人気のある研究テーマはAIジェイルブレイクで、AIモデルに組み込まれた安全制限を回避する方法を研究している。

デイヴィッド・クスマーは2024年11月、AIモデルがどのように意思決定を行うかを研究する解釈可能性研究を行った際に、新しい “タイムバンディット “脱獄を発見した。

「ChatGPTの4oモデルに時間的混乱があることに気づいたとき、私は解釈可能性研究という全く別のことに取り組んでいました」とクズマールは語った。

「このことは、私が持っていた創発的知性と認識に関する仮説と結びついていました。そこで私はさらに調査を進め、このモデルは、コードベースのクエリを実行して何時であるかを確認する以外には、現在の時間的コンテキストを確認することが全くできないことに気づきました。その認識は、完全にプロンプト・ベースであり、極めて限定的であった。したがって、その基本的な認識に対する攻撃から身を守る能力はほとんどないだろう。

タイムバンディットは、ChatGPTの2つの弱点を突くことで機能する:

  • タイムラインの混乱:時間軸の混乱:LLMに時間の認識を持たせず、過去なのか現在なのか未来なのか判断できない状態にする。
  • 手続きの曖昧さ: LLMが規則、方針、安全機構をどのように解釈し、実施し、従うかについて、不確実性や矛盾を引き起こすような質問をすること。

これを組み合わせると、ChatGPTは過去にいるつもりだが、未来の情報を使うことができ、仮定のシナリオでセーフガードを回避することができる。

コツは、ChatGPTにある質問をすることです。

そしてLLMに、特定の年の時間枠内で、現在のツール、リソース、情報を使って、デリケートなトピックに関する情報を共有するよう求めるのです。

これによって、LLMは混乱し、あいまいなプロンプトを出されると、通常は保護されているトピックに関する詳細な情報を共有するようになる。

例えば、Time Banditを使用してChatGPTを騙し、1789年のプログラマが現代の技術やツールを使用してポリモーフィックマルウェアを作成するための指示を提供することができました。

Time Bandit jailbreak allowing ChatGPT to create polymorphic malware
ChatGPTがポリモーフィックマルウェアを作成できるようにするTime Bandit脱獄

ChatGPTはその後、自己修正コードの作成からメモリ内でのプログラムの実行まで、これらの各ステップのコードの共有を進めた。

また、CERT Coordination Center の研究者は、1800 年代と 1900 年代の時間枠で質問をしたときに最も成功したテストにおいて、Time Bandit が機能したことを確認しました

KuzmarとChatGPTが行ったテストでは、ChatGPTを騙して、核に関する話題や武器の製造、マルウェアのコーディングなどの機密情報を共有させた。

Kuzmarはまた、GoogleのGemini AIプラットフォーム上でTime Banditを使用し、セーフガードを迂回しようと試みましたが、ChatGPTのように具体的な詳細まで掘り下げることはできませんでした。

この欠陥についてOpenAIに問い合わせたところ、次のような声明が送られてきた。

「我々のモデルを安全に開発することは非常に重要です。私たちのモデルが悪意のある目的に使用されることは望んでいません。

「我々は、研究者が発見を公表してくれたことに感謝している。我々は、モデルの有用性とタスクのパフォーマンスを維持しながら、ジェイルブレイクを含む悪用に対して、より安全で堅牢なモデルを作るために常に取り組んでいます。

しかし、昨日のさらなるテストでは、欠陥を悪用しようとするプロンプトを削除するなど、いくつかの緩和策を講じただけで、まだ脱獄が機能することが示された。しかし、我々が知らない更なる緩和があるかもしれない.

OpenAIはこの脱獄や他のためにChatGPTに改善を統合し続けているが、特定の日付までに欠陥を完全にパッチすることを約束することはできないと言われた.