米国AI企業のOpenAIは、最新AIモデル「o3」とその軽量版「o3 mini」を発表しました。
このモデルは、プログラミングや数学といった高度なタスクにおいて顕著な性能を示し、AGI(汎用人工知能)の実現に向けた重要な一歩として注目を集めています。
o3は、従来の推論モデル「o1」と比較して大幅な性能向上を遂げています。
たとえば、競技プログラミングの評価基準「CodeForces ELO」では、o1のスコア1891に対し、o3は最大2727を記録。
これは、熟練したプログラマーと同等、あるいはそれ以上の水準とされています。
数学分野においても、アメリカ数学オリンピック予選の「Amy試験」で96.7%の正答率を達成(01は83.3%)。
さらに、PhDレベルの科学問題を扱う「GPQA Diamond」では87.7%のスコアを記録し、専門家を超える性能を示しました。
また、AI研究の中で難関とされる評価基準「Arc AGI」でも大きな成果を挙げました。
このベンチマークは、AIの柔軟な学習能力を測る目的で設計されており、o3は低い計算リソース設定で75.7%、高いリソース設定では87.5%のスコアを記録しました。
後者は人間の平均スコアである85%を超えており、AGIに向けた進展として大きな注目を集めています。
一方、軽量版の「o3 mini」は、性能とコスト効率を両立したモデルとして開発されました。
このモデルは、特に低リソース環境での使用を想定しており、プログラミングや数学分野で高い精度を発揮します。
また、ユーザーの用途に応じて「思考時間」を調整可能で、簡単なタスクでは高速応答、複雑なタスクでは時間をかけた深い分析が可能です。
これにより、より幅広い用途での活用が期待されています。
OpenAIはこれらのモデルの安全性にも重点を置いており、研究者向けに限定的に公開し、安全テストを実施しています。
一般公開は2025年1月末から段階的に開始される予定です。
出典:OpenAI o3 and o3-mini—12 Days of OpenAI: Day 12 – YouTube