OpenAIの音声モデル「gpt-realtime」とは？使い方と性能

2025年9月22日

gpt-realtimeとは、OpenAIが新たに発表した音声モデルです。

音声の入力に対し、テキスト化をすることなく直接音声を生成する方式を取ることにより、以前のモデルと比べて低遅延なやり取りが可能となりました。

この記事では、gpt-realtimeの概要や性能、使い方について解説します。

なお、この記事ではPlaygroundを使用した方法をご紹介します。

gpt-realtimeとは？新モデルの全体像

gpt-realtimeは、OpenAIが発表した最新の音声対話に特化したAI音声モデルです。

このモデルは、人間同士の会話のように自然で、極めて低い遅延（レイテンシ）でのやり取りを実現することを目指して開発されました。

従来のモデルがテキストベースの対話から音声を生成していたのに対し、gpt-realtimeは音声から直接音声を生成するアプローチを採用しています。

これにより、応答の速さだけでなく、感情や抑揚といった非言語的なニュアンスも豊かに表現できるようになりました。

開発者はRealtime APIを通じて、この高度な音声対話機能を自身のアプリケーションやサービスに組み込むことが可能です。

何が新しいのか

gpt-realtimeの最大の新しさは、音声から音声への一体型処理にあります。

これにより、文字起こしと音声合成のプロセスを挟まないため、人間と話しているかのような低遅延でスムーズな会話が可能になりました。

さらに、会話の途中でユーザーが割り込んで話すことへの対応精度が向上し、よりスムーズな対話が実現されています。

また、機能も大幅に拡張され、新たに画像入力に対応し、ユーザーが見ているものをAIが認識して対話できます。

他にも、電話網と直接連携できるSIP（Session Initiation Protocol）や、AIが自律的に外部ツールを連続して操作するMCP（Model Context Protocol）にも対応し、単なる対話ツールを超えた実用的なAIエージェントの構築が可能になっています。

従来のモデルとの違いと料金

gpt-realtimeは従来のモデルであるgpt-4o-realtime-previewと比較して、性能とコスト効率の両面で大きく進化しています。

最も大きな違いは、応答速度と表現力です。

テキストを介さないため、会話のテンポが人間同士のそれに近づき、声のトーンや感情の表現も格段に豊かになりました。

また、Function Calling（関数呼び出し）の精度も向上しており、外部ツールとの連携がよりスムーズになっています。

料金面では、gpt-realtimeは従来のモデルと比較して約20%安価に設定されています。

We’re reducing prices for gpt-realtime by 20% compared to gpt-4o-realtime-preview—$32 / 1M audio input tokens ($0.40 for cached input tokens) and $64 / 1M audio output tokens (see detailed pricing⁠(opens in a new window)).
出典：Introducing gpt-realtime and Realtime API updates for production voice agents

2025年9月現在の具体的な料金表を以下に示します。

スクロールできます

種類	入力トークン (100万トークンあたり)	キャッシュされた入力トークン (100万トークンあたり)	出力トークン (100万トークンあたり)
テキスト	$4.00	$0.40	$16.00
音声	$32.00	$0.40	$64.00
画像	$5.00	$0.50	–

出典：API 料金

これにより、高性能な音声AIをより低コストで本番環境に導入しやすくなりました。

主なユースケース

gpt-realtimeの能力が最も活かされるのは、リアルタイム性が重視される対話型のサービスです。

例えば、24時間365日対応可能なカスタマーサポートのAIエージェントや、ハンズフリーで操作できる高機能な音声アシスタントなどが代表例です。

SIP連携が可能になったことで、従来の電話システムとAIを直接接続し、予約受付や問い合わせ対応を自動化できます。

また、多言語に即座に対応できる能力を活かしたリアルタイム翻訳ツールとしても活用が期待されます。

教育分野においては、対話形式で学習を進めるAIチューターや、言語学習の発音練習パートナーとしての応用可能です。

gpt-realtimeの性能｜認識精度や音声品質

ここでは、gpt-realtimeの性能について詳しく解説していきます。

ベンチマーク概要

gpt-realtimeの性能は、複数のベンチマークで旧モデルを大幅に上回っています。

例えば、音声による高度な推論能力を測る「Big Bench Audio」では、正解率が旧モデルの65.6%から82.8%へと向上しました。

出典：Introducing gpt-realtime and Realtime API updates for production voice agents

また、複雑な指示にどれだけ正確に従えるかを示す「MultiChallenge」では、スコアが20.6%から30.5%に、外部ツールを呼び出す関数呼び出しの精度を測る「ComplexFuncBench」では、49.7%から66.5%へとそれぞれ大きく改善しました。

これらの数値は、AIがユーザーの要求をより深く、かつ正確に実行できるようになったことを客観的に示しています。

多言語での英数字認識／非言語信号の理解

このモデルはグローバルな利用を想定しており、多様な言語において高いパフォーマンスを発揮します。

OpenAIの社内評価では、日本語を含む複数の言語で電話番号や車両識別番号といった英数字の羅列を、より正確に認識できることが確認されました。

According to internal evaluations, the model also shows more accurate performance in detecting alphanumeric sequences (such as phone numbers, VINs, etc) in other languages, including Spanish, Chinese, Japanese, and French.
出典：Introducing gpt-realtime and Realtime API updates for production voice agents

さらに、会話の中の笑い声や間の取り方といった非言語的な信号を認識し、応答に反映させることができます。

これにより、単なる情報伝達に留まらない、感情的な文脈を汲み取った対話が実現可能になっています。

音声品質と新ボイスの特徴

gpt-realtimeでは音声品質が全体的に向上し、より人間らしく自然なイントネーションや感情表現が可能になりました。

このアップデートに伴い、新たに2種類のボイス「Marin」と「Cedar」が追加されています。

さらに、従来の8つのボイスもアップデートされました。

これらのボイスは、従来の音声よりもさらに表現力と明瞭さが追求されており、プロフェッショナルな顧客対応から親しみやすいアシスタントまで、用途に応じて最適な声質を選ぶことができます。

また、「早口でプロフェッショナルに」「共感的に話して」といった細かいスタイル指示にも対応し、口調を柔軟に変化させることが可能です。

gpt-realtimeの使い方【最短導入ガイド】

続いて、gpt-realtimeの使い方を解説します。

この記事では、OpenAIのPlaygroundを使用したやり方をご紹介します。

開始手順

gpt-realtimeを使うには、Playgroundを使用するのが最も簡単です。

Playgroundでgpt-realtimeを使う手順は以下の通りです。

STEP

Playgroundにアクセス

まずはPlaygroundにアクセスしましょう。

STEP

APIの課金設定

画面左の「Audio」タブを選択し、「Realtime」を選びます。

OpenAIのAPIの課金設定をしていない人は、「Finish account setup」をクリックして支払い方法を設定しましょう。

STEP

モデルや各種パラメータを設定

APIが使用できるようになったら、「Create」をクリックしましょう。

画面右側でモデルや各種パラメータを設定できます。

「model」でgpt-realtimeを選択します。

その他のパラメータについては以下の通りです。

System instructions: モデルに与える役割の指示であり、キャラクター性や会話スタイルを制御可能。
Voice: 出力する音声の種類を選択可能。
Automatic turn detection: 音声入力の区切り方を制御できる。Normalは音量や無音をもとに区切りを判断、Semanticは内容のまとまりを検出して区切りを判断、Disabledは自動区切りなし。
Threshold: 音声を話し声として判別するしきい値を設定できる。小さくすると小さな声でも認識できるが、ノイズを拾いやすくなる。
Prefix padding: モデルが音声を検出した際、どれくらいさかのぼって録音を含めるかの設定。長くすると言葉の最初の部分が切れにくくなる。
Silence duration: 無音が続いたときに発話が終わったと判断するまでの時間。値を小さくするとレスポンスは速くなるが、途中の間を誤検出することもある。一方で値を大きくすると、会話の途中の「間」を待てるようになるが、応答は遅くなる。
Temperature: 応答の創造性を設定可能。大きくすると創造性の高い応答が、小さくすると確定的な応答が出力されるようになる。