gpt-realtimeとRealtime API正式版リリース ─ 音声エージェントを本番環境へ
OpenAIは、音声エージェントの本番運用を可能にする Realtime APIの正式版 を発表。同時に、最も高度な音声モデル gpt-realtime を公開した。これにより、開発者や企業は自然で表現豊かな音声対話エージェントを、低遅延・高信頼で展開できるようになる。
gpt-realtimeモデルの特徴
- 自然な音声生成
- 感情・イントネーション・話速を制御可能
- 新ボイス「Marin」「Cedar」を追加、既存の8ボイスも改善
- 理解力と知性の向上
- 笑いや非言語表現を認識
- 言語を途中で切り替える能力(例:英語+日本語混在)
- 異言語での数字・アルファベット認識精度が大幅向上
- Big Bench Audioで 82.8% の精度(従来モデル65.6%)
- 指示遵守性能の改善
- 細かい開発者指示に従える精度が向上
- MultiChallenge評価で 30.5% → 過去モデルより大幅改善
- ツール呼び出しの精度強化
- 関数呼び出しの適切さ・タイミング・引数精度が向上
- 非同期呼び出し対応で会話を中断せず継続可能
Realtime APIの新機能
- MCPサーバー対応:外部サーバーを指定するだけで新機能を即利用可能
- 画像入力対応:スクリーンショットや写真を会話に組み込み、内容を解釈可能
- SIP(電話回線接続)対応:PBXや電話機と接続でき、コールセンター用途に有効
- プロンプト再利用機能:セッション間で統一した会話設計が可能
安全性とプライバシー
- 不正利用を防ぐためのアクティブ分類器を導入し、違反検出時には会話を停止
- エンドユーザーにAI利用を明示する義務付け
- EUデータレジデンシー対応、企業向けプライバシー規約に準拠
料金と提供開始
- 従来プレビュー版より20%安価
- 入力音声: $32 / 100万トークン
- 出力音声: $64 / 100万トークン
- 開発者は Playgroundやドキュメント で即利用可能
まとめ
- gpt-realtime は、自然な会話音声と高精度な理解・指示遵守・関数呼び出しを実現。
- Realtime API はMCP・画像入力・電話接続を含む多機能化で、本番環境対応の音声エージェント開発を可能にした。
- コスト削減と柔軟な拡張性により、カスタマーサポート・教育・音声アシスタントなど幅広い分野で導入が加速すると見られる。
