
OpenAIは新たなAI音声モデル「gpt-realtime」を発表しました。このモデルは、より自然で表現力豊かな音声生成を実現し、「速くプロらしく話して」「フランス語訛りで共感的に」など細かな指示にも正確に対応できるようになっています。また、リアルタイム音声処理API「Realtime API」も正式にリリースされました。
「gpt-realtime」は音声の品質向上だけでなく、知能面でも大幅な改善を果たしました。特に非言語的要素の理解に優れ、ユーザーの笑い声を認識できるほか、異なる言語間を滑らかに切り替えて会話することも可能です。また、日本語を含む多言語での電話番号や英数字の検出精度も向上しています。
具体的には、音声を用いた推論力を測る評価テスト「Big Bench Audio」で、従来モデルの65.6%から82.8%へと大幅に精度が改善されました。

また、複数のターンを要する複雑な会話における指示遵守能力を評価する「MultiChallenge audio」でも、従来の20.6%から30.5%へとスコアを伸ばしています。

さらに、外部ツールを適切なタイミングで呼び出す「ファンクションコーリング」の性能も向上しており、精度が従来の49.7%から66.5%になりました。

これにより、企業がAI音声モデルを本番環境でより安定的かつ高度に活用できるようになったとしています。
併せて、昨年10月からベータ版として提供されていたリアルタイム音声処理API「Realtime API」も正式にリリースされました。APIはMCPサーバー対応や、画像入力を使った会話、SIP経由での電話連携にも対応するなど、大幅なアップデートが行われました。新たに提供された高品質な音声「Marin」と「Cedar」を含め、既存の音声もアップグレードされています。
また、Realtime APIは複数の音声モデルを連結する従来型の処理とは異なり、単一のモデル内で音声を直接処理・生成することで、遅延の少ない自然な会話が実現できるようになっています。さらに、安全性を高めるためにアクティブ分類機能や、再利用可能なプロンプト機能も追加されました。
OpenAIは今回の正式リリースに伴い、「gpt-realtime」の価格を従来モデルよりも20%引き下げ、企業が導入しやすい環境を整えています。リアルタイムで音声を利用する企業向けAI市場の拡大が期待されます。
出典:Introducing gpt-realtime and Realtime API updates for production voice agents | OpenAI