August 22, 2025

ChatGPTに「ダウングレード攻撃」脆弱性 ― GPT-5を回避する新手法「PROMISQROUTE」


ChatGPTに「ダウングレード攻撃」脆弱性 ― GPT-5を回避する新手法「PROMISQROUTE」

■ 攻撃の概要

セキュリティ企業Adversaの研究者が、ChatGPTのモデル選択を操作して古いLLM(大規模言語モデル)を呼び出す手法を発表しました。
この手法は「PROMISQROUTE(Prompt-based Router Open-Mode Manipulation Induced via SSRF-like Queries, Reconfiguring Operations Using Trust Evasion)」と名付けられています。

研究によれば、攻撃者はプロンプトに「軽く会話風で」「早く簡単に」などの指示を追加するだけで、GPT-5ではなく簡易版や旧モデル(GPT-4互換モードなど)にルーティングさせることが可能です。これにより、通常なら拒否される悪用的リクエストが通ってしまう危険性があります。


■ ChatGPTの仕組みと問題点

  • ChatGPTはマルチモーダルで、プロンプトの内容に応じて異なるモデルに振り分けるルーターを搭載。
  • 単純な質問はnano/miniモデル、高度なリクエストはGPT-5 Proなどが応答。
  • 一部の処理では旧モデルも使用されるため、セキュリティ強度が低下する可能性がある。

Adversaは2023〜24年頃の古いジェイルブレイク手法を試したところ、GPT-5本体は拒否したが、軽量モデルに誘導することで突破に成功しました。


■ 実験結果

  • プロンプトの冒頭に「Quick, light, conversational」などを入れるだけでルーターが軽量モデルを選択
  • さらに単語「keep quick」を繰り返すだけでも効果を確認。
  • 「GPT-4互換モードを使って」と指定すれば、旧モデル利用にも成功。

これらは技術的というより「簡単な言葉遊び」に近い方法で、実行は非常に容易とされています。


■ セキュリティ上のリスク

  • GPT-5より防御力の低いモデルを意図的に使わせることで、**不正な指示(例:政府システムのハッキング方法)**を通してしまう危険性。
  • Guardrail(入力・出力のフィルタリング)は存在するが、Adversaの検証では「比較的シンプル」で突破可能。
  • 旧モデルは安価に運用できるため、OpenAIは年間20億ドル近いコストを節約していると試算。

■ 防御策の方向性

  1. ユーザープロンプトをルーティングに使わない → しかし計算コストが膨大に。
  2. ルーター前後に高度なガードレールを設置 → 現在の最も現実的な選択肢。
  3. 各モデル自体をジェイルブレイク耐性強化 → Guardrailが「最後の砦」ではなく補助的役割になる理想形。

✅ まとめ

  • 「PROMISQROUTE」攻撃は、わずかな言葉の工夫でChatGPTを古い不完全モデルにダウングレード可能にする脆弱性。
  • 背景には、OpenAIが計算コスト削減のため軽量モデルを多用している現実がある。
  • 防御策は存在するが不完全で、AIセキュリティと効率性の両立が今後の大きな課題。

ChatGPTに「ダウングレード攻撃」脆弱性 ― GPT-5を回避する新手法「PROMISQROUTE」コンテンツ終わり

参考記事

1 thought on “ChatGPTに「ダウングレード攻撃」脆弱性 ― GPT-5を回避する新手法「PROMISQROUTE」”

Leave a Comment