OpenAIは5月13日に、新しい大規模言語モデル(LLM)「GPT-4o」を発表しました。GPT-4oは、これまでのフラグシップモデルであったGPT-4 Turboと同等の性能を持ちながらさらに高速化され、テキスト・音声・画像の理解力や、多言語対応力も大幅に向上しています。
ベンチマークテストでは、大規模マルチタスク言語理解・一般的な質問応答・高度な数学・プログラミングでこれまでの最高値を記録し、一部の分野を除けば業界でトップレベルの性能を示しました。特に音声と画像の理解力が強化されていることが、GPT-4oの特徴です。
GPT-4oは画像生成能力も大幅に改良されると共に、音声会話機能も強化されました。音声入力の応答速度は人間の会話に匹敵するレベルに達し、話し方のバリエーションや感情表現も可能になっています。これにより、リアルタイムの自然な音声会話も可能になりました。
GPT-4oは無料ユーザーにも開放される予定で、これにより多くのユーザーが高性能なGPT-4を試すことが可能になります。API経由でも利用でき、価格は従来の半額となる予定です。