
Googleは大型言語モデル「Gemini 2.5 Pro」のプレビュー版を公開しました。
今回のモデルは2025年5月時点の基盤を改良したもので、数週間以内に企業向け安定版として提供される予定です。
ベンチマークでは同社が首位を保ってきたLMArenaでEloスコアが1,470へ24ポイント上昇し、WebDevArenaでも1,443へ35ポイント伸びました。
数学・科学・推論を測るHumanity’s Last Examでは正答率21.6%を記録し、OpenAIのo3の20.3%やAnthropicのClaude Opus 4の10.7%を上回っています。
科学特化のGPQAでも86.4%と、o3の83.3%、Claude 4の79.6%より高い数値でした。
さらにコーディング能力を測るAider Polyglotでは82.2%となり、o3の79.6%やClaude 4の72.0%より優位に立っています。

Googleは回答の文体と構造を改良し、創造性と一貫性を高めたと説明しました。
開発者はGemini APIを介してGoogle AI StudioやVertex AIでプレビューを試せるほか、「thinking budgets」を設定することでコストとレイテンシーのバランスを調整できます。
コスト面でも、入力は100万トークン当たり1.25ドル、出力は同10ドルと設定されており、OpenAI o3(10ドル)の約8分の1に相当し 約87%の削減、Claude Opus 4(15ドル)と比べると約12分の1で 約92%安価です。

安定版のリリース後は、今後も社内外のワークロードで実運用しながら追加改善を続ける方針も示されています。