Gemini 2.5 Proが各種ベンチマークでOpenAI o3・Claude 4を上回る

Googleは大型言語モデル「Gemini 2.5 Pro」のプレビュー版を公開しました。

今回のモデルは2025年5月時点の基盤を改良したもので、数週間以内に企業向け安定版として提供される予定です。

ベンチマークでは同社が首位を保ってきたLMArenaでEloスコアが1,470へ24ポイント上昇し、WebDevArenaでも1,443へ35ポイント伸びました。

数学・科学・推論を測るHumanity’s Last Examでは正答率21.6%を記録し、OpenAIのo3の20.3%やAnthropicのClaude Opus 4の10.7%を上回っています。

科学特化のGPQAでも86.4%と、o3の83.3%、Claude 4の79.6%より高い数値でした。

さらにコーディング能力を測るAider Polyglotでは82.2%となり、o3の79.6%やClaude 4の72.0%より優位に立っています

出典:https://x.com/GoogleDeepMind/status/1930656251089760697

Googleは回答の文体と構造を改良し、創造性と一貫性を高めたと説明しました。

開発者はGemini APIを介してGoogle AI StudioやVertex AIでプレビューを試せるほか、「thinking budgets」を設定することでコストとレイテンシーのバランスを調整できます。

コスト面でも、入力は100万トークン当たり1.25ドル、出力は同10ドルと設定されており、OpenAI o3(10ドル)の約8分の1に相当し 約87%の削減、Claude Opus 4(15ドル)と比べると約12分の1で 約92%安価です。

出典:Gemini 2.5 Pro: Access Google’s latest preview AI model

安定版のリリース後は、今後も社内外のワークロードで実運用しながら追加改善を続ける方針も示されています。


出典:Gemini 2.5 Pro: Access Google’s latest preview AI model

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次