August 29, 2025

gpt-realtimeとRealtime API正式版リリース ─ 音声エージェントを本番環境へ

gpt-realtimeとRealtime API正式版リリース ─ 音声エージェントを本番環境へ

OpenAIは、音声エージェントの本番運用を可能にする Realtime APIの正式版 を発表。同時に、最も高度な音声モデル gpt-realtime を公開した。これにより、開発者や企業は自然で表現豊かな音声対話エージェントを、低遅延・高信頼で展開できるようになる。


gpt-realtimeモデルの特徴

  1. 自然な音声生成
    • 感情・イントネーション・話速を制御可能
    • 新ボイス「Marin」「Cedar」を追加、既存の8ボイスも改善
  2. 理解力と知性の向上
    • 笑いや非言語表現を認識
    • 言語を途中で切り替える能力(例:英語+日本語混在)
    • 異言語での数字・アルファベット認識精度が大幅向上
    • Big Bench Audioで 82.8% の精度(従来モデル65.6%)
  3. 指示遵守性能の改善
    • 細かい開発者指示に従える精度が向上
    • MultiChallenge評価で 30.5% → 過去モデルより大幅改善
  4. ツール呼び出しの精度強化
    • 関数呼び出しの適切さ・タイミング・引数精度が向上
    • 非同期呼び出し対応で会話を中断せず継続可能

Realtime APIの新機能

  • MCPサーバー対応:外部サーバーを指定するだけで新機能を即利用可能
  • 画像入力対応:スクリーンショットや写真を会話に組み込み、内容を解釈可能
  • SIP(電話回線接続)対応:PBXや電話機と接続でき、コールセンター用途に有効
  • プロンプト再利用機能:セッション間で統一した会話設計が可能

安全性とプライバシー

  • 不正利用を防ぐためのアクティブ分類器を導入し、違反検出時には会話を停止
  • エンドユーザーにAI利用を明示する義務付け
  • EUデータレジデンシー対応、企業向けプライバシー規約に準拠

料金と提供開始

  • 従来プレビュー版より20%安価
    • 入力音声: $32 / 100万トークン
    • 出力音声: $64 / 100万トークン
  • 開発者は Playgroundやドキュメント で即利用可能

まとめ

  • gpt-realtime は、自然な会話音声と高精度な理解・指示遵守・関数呼び出しを実現。
  • Realtime API はMCP・画像入力・電話接続を含む多機能化で、本番環境対応の音声エージェント開発を可能にした。
  • コスト削減と柔軟な拡張性により、カスタマーサポート・教育・音声アシスタントなど幅広い分野で導入が加速すると見られる。

参考記事

gpt-realtimeとRealtime API正式版リリース ─ 音声エージェントを本番環境へ コンテンツ終わり

Leave a Comment