まとめ記事:OpenAI、AI幻覚・AI誤情報の原因を「スコアリング方式の偏り」と指摘
幻覚(ハルシネーション(Hallucination))とは?
AIがもっともらしいが事実とは異なる回答を生成する現象を「幻覚(ハルシネーション(Hallucination))」と呼びます。例として「世宗大王がMacBook Proを投げた」と『朝鮮王朝実録』に記載されていると答えるようなケースです。AI普及を阻む大きな課題として長らく問題視されてきました。
OpenAIの新研究:幻覚の根本原因
OpenAIが9月5日に公開した論文「Why Language Models Experience Hallucinations」によれば、AIの学習過程におけるスコアリング方式が幻覚の主要因とされています。
- 現在の仕組み:
- 正答 → 得点
- 「わからない」 → 0点
- 誤答 → 0点
このため、AIは「知らない」と答えるよりも、推測して当たる可能性に賭けるほうが有利になります。
→ 例:誕生日を聞かれた際、「知りません」と答えるよりも日付を当てずっぽうで答える方が、365分の1の確率で得点につながる。
モデル比較:GPT-5 Thinking Mini vs o4-Mini
OpenAIがベンチマークテストを実施したところ、以下の違いが確認されました:
- GPT-5 Thinking Mini
- 正答率:22%
- 「わからない」と回答:52%
- 誤答率:26%
- o4-Mini
- 正答率:24%
- 「わからない」と回答:1%
- 誤答率:75%
👉 GPT-5は正答率がわずかに低いものの、誤答を大幅に減らし、正直に「わからない」と答える傾向を示しました。
提案される解決策
OpenAIは評価方法の見直しを提案しています。
- 誤答(特に自信を持った誤答)には大きなペナルティを与える
- 「わからない」と答えた場合には部分的な得点を与える
これにより、AIが無理に答えを捻り出すよりも、誠実に「知らない」と伝える設計が可能になるとしています。
人間との共通点
研究者は「AIは、人間がテストや仕事で“知らない”と正直に言うよりも推測してしまう傾向を反映している」と指摘。
今後は、不確実性を認められるAIこそが信頼性と実用性を高め、新たな進歩をもたらすと期待されています。
✅ まとめ
- 幻覚の原因は「正答>誤答=無回答」というスコアリング方式の歪み
- GPT-5は「わからない」と答える頻度が高く、誤答を大幅に減少
- 評価基準を「誤答を重く罰し、正直さを評価」へ変更すべき
- 誠実に“不確実”を表明できるAIが次世代の信頼性向上に直結
