パリで開催中のテックイベント「Viva Technology 2024」にて23日、OpenAIは今後公開予定のAIモデルとその成長ポテンシャルに言及しました。
Developer Experience責任者のRomain Huetが示したスライドによると、年内に「GPT Next」、つまり次世代モデルが公開される計画が示されています。
出席したAIジャーナリストのRyan Morrisonは、次世代モデルは「GPT-5」という名称ではない可能性が高いと指摘しています。Huetは今後数ヶ月・数年以内に複数のサイズのAIモデルを公開予定だと述べたということです。
同セッションでは、音声合成エンジンモデルのプレビューも公開されました。1889 パリ万博を題材として、ナレーションの脚本と15秒のボイスサンプルの録音を音声合成モデルに送信。事前にOpenAIの「Sora」で生成した動画に合わせて、自動でナレーションと字幕が生成されました。ワンクリックで多言語の切替も可能です。
さらに「GPT-4o」のマルチモーダル機能のデモもお披露目。指示にあわせて声のトーンを自由に調整できることを示し、英語からフランス語の同時通訳も行いました。
また、動画認識機能のデモは、手書きのエッフェル塔の絵をもとに、GPT-4oが目的地を特定。動画で地図を見せて現在地を知らせることで、音声で道案内を行いました。
同セッションでは次世代モデルの詳細は明らかにしていませんが、「GPT-4o」を超える知能レベルや複数モデルの能力を組み合わせたマルチモーダルの強化などが窺えます。