Gemini 2.5 Proが各種ベンチマークでOpenAI o3・Claude 4を上回る

2025年6月6日2025年9月7日

Googleは大型言語モデル「Gemini 2.5 Pro」のプレビュー版を公開しました。

今回のモデルは2025年5月時点の基盤を改良したもので、数週間以内に企業向け安定版として提供される予定です。

ベンチマークでは同社が首位を保ってきたLMArenaでEloスコアが1,470へ24ポイント上昇し、WebDevArenaでも1,443へ35ポイント伸びました。

数学・科学・推論を測るHumanity’s Last Examでは正答率21.6%を記録し、OpenAIのo3の20.3%やAnthropicのClaude Opus 4の10.7%を上回っています。

科学特化のGPQAでも86.4%と、o3の83.3%、Claude 4の79.6%より高い数値でした。

さらにコーディング能力を測るAider Polyglotでは82.2%となり、o3の79.6%やClaude 4の72.0%より優位に立っています。

Googleは回答の文体と構造を改良し、創造性と一貫性を高めたと説明しました。

開発者はGemini APIを介してGoogle AI StudioやVertex AIでプレビューを試せるほか、「thinking budgets」を設定することでコストとレイテンシーのバランスを調整できます。

コスト面でも、入力は100万トークン当たり1.25ドル、出力は同10ドルと設定されており、OpenAI o3（10ドル）の約8分の1に相当し約87%の削減、Claude Opus 4（15ドル）と比べると約12分の1で約92%安価です。

安定版のリリース後は、今後も社内外のワークロードで実運用しながら追加改善を続ける方針も示されています。

よかったらシェアしてね！

TALIX & DingTalk A1を実機レビュー！おすすめの使い方はリアルタイム文字起こしと翻訳