
この記事は、Podcast「AI未来話」のエピソード「#2-8 AIが数学オリンピックで金メダルを獲った」を再構成した内容をお届けします。

2025年の国際数学オリンピック(IMO)でAIがついに金メダルレベルに到達しました。これまでAIの推論能力には懐疑的な見方もありましたが、今回の成果はそんな議論を覆すほどの衝撃的なものとなっています。果たしてこれは本当のブレークスルーなのか、それとも別の要因が隠されているのか、深掘りしていきます。
AIモデルが数学オリンピックで人間と肩を並べる

OpenAIとGoogle DeepMindが開発したAIモデルが、IMOで金メダル相当の成績を獲得しました。今回のニュースは、AIが人間と同等の推論力を持つかどうかをめぐる議論を、いよいよ新たな段階へと押し上げるものになりそうです。
国際数学オリンピック IMO って何?
国際数学オリンピック、略して IMO という大会は、毎年行われている世界最高峰の数学競技大会です。高校生向けの大会なのですが、問題はたったの6問。それなのに、出題されるのはどれもかなり難しい大会です。
―― IMOって6問しか出ないんですね。
「そうなんですよ。たった6問だけ。ただ信じられないくらい難しい。僕も問題を見たことあるんですけど、一問もわかりませんでした。満点が42点なんですけど、全体の約11%(2025年大会では630人中72人)が金メダルをもらえて、金メダルのラインは35点以上です」
―― たった6問だけど、普通の人じゃ解けないようなレベルってことですね。
「まさにそう。公式を覚えてるとかそういうレベルじゃなくて、本当に数学的なひらめきとか推論がないと解けない問題ばっかりなんですよ。だから金メダルを取れるってこと自体が、とんでもなくすごいことなんですよね」
AIがついに金メダルを獲得した!
今回はGoogle DeepMindのGemini と、OpenAIの推論モデルが、IMOで金メダル基準である 35 点を獲得しました。我々がよく話していた「データ汚染」問題もクリアされており、本当に実力での金メダルらしいんですよ。
―― 『AIの限界』とか『推論モデルって結局パターンマッチングだよね』みたいな話を結構してましたけど。
「いや、本当にびっくりしました。前回Appleの論文の話をした時には、AIモデルが最新の問題だと解けないけど、難しくても昔の問題なら解けるのはデータ汚染があるからじゃないかって話してたましたけど、今回のは最新で難しい問題をちゃんと解けたんですよ。つまりデータ汚染じゃないんですよね」
―― なるほどね。実際Googleと OpenAIはどういう方法でテストしたんですか?
「まずGoogleは、IMOの公式と協力して、全く同じ条件で Gemini に問題を解かせています。回答は IMOの委員長にも評価されていて『非常に明快で正確、分かりやすい』っていうコメントが公式で出てます」
―― OpenAI は、ちょっと違った感じだったんですよね?
「OpenAIは公式大会じゃなくて、社内での非公開テストだったようです。ただIMOと全く同じ条件、つまりツールやインターネットを一切使わず、人間と同じように時間制限内でテストをしています。採点は元IMOメダリスト3人が匿名で採点していて、ちゃんと35点取れたってことみたいです」
―― 発表タイミングでちょっと揉めたって話もありましたけど、それはどんな感じだったんですか?
「GoogleはIMO公式の確認を待ってから発表したんだけど、OpenAIは先にSNSで公表してしまったようで。最終的には発表は合わせたようでしたが…Open AIはパフォーマンスしたがりですよね」
―― なるほど、ただデータ汚染がないっていうのはやっぱり大きなポイントですよね。
「そうですね。今回は訓練データに問題や解答が漏れないように、めちゃめちゃ厳重に対策されてたみたいなんですよ。だから最新のしかも超難しい問題をデータ汚染なしで解いたってことは、本当にすごいことだと思います」
―― 前回のAppleの研究と違って、今回は特別なチューニングがすごく効いたってことですよね。
「前に話したAppleの研究って、標準モデルの性能を見てたじゃないですか。でも今回は、GoogleもOpenAIも専門的な特化型のチューニングをしてきてるんですよ。だからモデル自体というより、チューニングの設計で大きく差がついたということです」
なぜAIは数学オリンピックを突破できたのか?

昨年までのAIモデルは特定の問題を解くことが難しく、明確な限界も指摘されていました。しかし今回の国際数学オリンピックでは、人間と同等の金メダルレベルを初めて突破。
この進化を実現した背景には、どのようなブレイクスルーがあったのでしょうか。具体的な取り組みを詳しく見ていきます。
DeepMindが導入した新技術とは?
―― Geminiが進化したって話ですけど、具体的に何が新しくなったんですか?
「一番大きいのは『Deep Think』っていう新しいモードが追加されたんですよ。2024年のIMOでもGeminiは参加していて、4問正解で28点(銀メダル相当)でした。
でも当時は、問題文を人間が英語→形式言語に翻訳して、解答もまた人間が戻すっていう“人間翻訳ボトルネック”があって1問解答するのに何日もかかってたんですね」
―― ああ、去年は人間の手間も時間もかかってたんですね。
「そう。それが今年はDeep Thinkモードを使って、問題を自然言語のまま直接AIが読み取って解く“エンドツーエンド”方式になって、実際の公式大会と同じ条件下で達成できたんだよね」
―― Deep ThinkモードはGoogle I/O 2025でも話題になってましたよね。
「そう。I/Oで初公開されたんですが、ポイントは“parallel thinking(並列思考)”っていう仕組みです。わかりやすいイメージでいうと、数学のコーチがたくさんいて、それぞれ得意な分野で同時に問題を解いてる感じですね。一つの方法で詰まっても、他の方法で突破口を見つけるっていう」
―― それなら難しい問題でも詰まりにくそうですね。
「そうなんです。で、もう一つが『強化学習』ですね。これって車の自動運転とかでよく使われる報酬を最大化させる手法なんですけど、今回は数学の推論力を伸ばすためにこれを取り入れたんですよ」
―― 他にもAIが進化した要因ってあるんですか?
「並列思考に加えて“長考モード”とも呼ばれる推論時間延長があります。計算資源を多めに割いてでも深く考えさせる戦略ですね。人間でいう『もう15分粘ってみよう』を機械的にやるイメージです」
―― なるほど、粘り強さをコンピュータで再現できたんですね。
「そう。Appleの論文のときには粘り強さが課題として挙げられていました。ここを強化学習で深いチェーン・オブ・ソートを使えたら報酬アップ”みたいな設計にして、複雑な証明をぐっと掘り下げられるようになったんです」
IMO向けに特化したチューニングの効果
―― あとは、特化型のチューニングっていうのもありましたよね?
「そうそう、これがまた面白くて。過去のIMOで出題された問題の中でも特に質の高い回答例をAIに学ばせたんですよ。『優秀な解き方ってこうだよ』みたいな学習をさせたんですね」
―― 人間が過去問を参考にして、良い回答を学ぶのと同じですね。
「まさにそれです。それに加えて『指示チューニング』っていう方法も取ったらしいんですよね。これは『IMOの問題はこういう特徴があるから、こういう風に解こうね』っていう攻略法を最初からモデルに与えてるんです」
―― 塾の先生が受験攻略法を教えてくれる感じですかね。
「そう、それが近いかなと思います。あと、今回のAIって一番難しい6問目を捨ててるんですよね。で、簡単とは言えないけど比較的解きやすい他の5問を完全に攻略するっていう戦略を取ったみたいなんですよ」
―― あ、それは人間の受験テクニックそのものですね。
「本当にそんな感じなんですよね。だから、AIが人間と同じような戦略的な考え方をするようにチューニングされてるってことなんですよね」
AIがまだ超えられない壁

AIモデルは確かにIMOで金メダル基準を達成しましたが、全問正解したわけではありません。AIがまだ超えることのできない領域について、具体的に掘り下げていきます。
最難問が明らかにした人間とAIの違い
―― 最後の問題ってそんなに難しいんですね。
「めちゃめちゃ難しいんですよ。チューニングされてたとはいえ、今回は完全にゼロ点だったんですよ。普通は部分点とかあるんですけど、それすら全く取れなくて、完全にお手上げ状態だったみたいです」
―― それって、AIが苦手とする分野の問題だったんですかね?
「そう、やっぱり特に創造力とか柔軟性が必要な問題だったみたいですね。いわゆる『ひらめき』みたいなものが必要になる問題だったから、AIにはまだ厳しかったんじゃないかなと」
―― 人間なら直感的に『もしかしたらこうかも』みたいな感じでひらめくこともありますもんね。
「人間って理論的に解くだけじゃなくて、直感や感覚的な部分でパッと答えが浮かんだりするじゃないですか。でも、AIにはまだその領域は難しいみたいで、今回はそこが限界としてはっきり出ちゃいましたね」
―― なるほど、やっぱり人間がまだまだリードしている部分もあるってことですね。
「そうですね。今回の結果は、AIが人間と同じ舞台には立てるようになったけど、クリエイティブな部分ではまだまだ人間には勝てないんだなってことを、改めて感じましたね」
汎用モデルと特化型モデルのギャップ
―― あと、今回の結果って特別にチューニングされたAIだから達成できたってことですよね。
「そう、実は今普通にスマホやPCで使えるGemini 2.5 Proってあるじゃないですか。この標準モデルに今回のIMO問題を解かせたら、なんと13点しか取れなかったんですよね」
―― え、それって全然違いますね。35点とは程遠いですよね。
「そうなんですよ。だから一般に使われている汎用的なモデルと、今回特別に訓練してチューニングしたモデルとの間にはものすごいギャップがあるんですよね。完全に別物レベルで違うわけです」
―― つまり、モデルそのものよりも、チューニングがものすごく重要ってことですよね?
「まさに。だから、AIって結局『誰がどういう風に調整して使いこなすか』で全然パフォーマンスが違ってくるんですよ。今回の結果も、IMO用に超優秀な研究者たちが徹底的にチューニングしたから実現したっていうだけで、僕らが普通に使うとそこまでの性能は出ないんですよね」
―― なるほど、AIはあくまでも『補助輪』って言ってたのもそういうことですね。
「そうそう。どれだけ優秀なモデルがあっても、それを使いこなす人間の調整力がなければ性能を引き出せないってことなんですよ。今回の結果ってそのことを明確に示しているなと思いますね」
AI進化のスピードが意味する未来

今回、AIが数学オリンピックで金メダルレベルを達成したことは、開発者たちにとっても予想外の速さで実現したことでした。この急速な進化が意味する未来はどのようなものなのか、また今後AIはどのような方向へ進んでいくのかを考えていきます。
ブラックボックス問題とその解決策の展望
―― でも今回の結果って、やっぱり推論過程がブラックボックスなところが怖いですよね。
「そうなんですよ。IMOの主催側も『AIが提出した回答は完璧だった』とは認めてるんですけど、じゃあ実際どうやってその答えに辿り着いたのかっていう内部の検証は一切できてないんですよね」
―― それがいわゆるブラックボックスっていうことですよね。
「まさにそうです。今のAIってトランスフォーマーというアーキテクチャが使われてるんですけど、これが原理的にブラックボックスになりやすいんですよね。だから、AIがどうやって問題を解いたか分からないっていうのが大きな課題になってるんですよ」
―― でも、これって結構怖くないですか? 答えは合ってるけど、なぜその答えを出したのか分からないっていうのは。
「怖いですよね。ただ、この問題を解決しようとしている研究も今どんどん進んでいるんですよ。そのトランスフォーマー型を置き換えるような新しい技術の話もできたらいいなと思ってるんですけど、それが実現すれば、このブラックボックス問題も解決に向かうかもしれないんですよね」
―― なるほど、新しい技術が出てきて透明性が高まる可能性があるってことですね。
「そうそう。そのあたりは、また別の回でじっくり話そうと思いますけどね。でも現状ではブラックボックスがやっぱり大きな課題として残ってるってことです」
指数関数的なAIの成長とこれからの可能性
―― それにしても、AIの進化スピードが本当に凄まじいですよね。僕らさっき収録前に『GPT-3.5っていつ出たんだっけ?』って話してたじゃないですか。
「してましたね。で、調べたら2022年の12月でしたね。(正確には2022年11月30日)
まだ2年半ぐらいしか経ってないのに、その時のGPT-3.5って存在しない飲食店の情報を平気で答えたりするくらいハルシネーションだらけだったじゃないですか。それが今や数学オリンピックで金メダルですからね」
―― たった2年半でそんなに変わるって、ほんと驚きですよね。
「ですよね。普通に考えて中学に入学して、まだ卒業もしてないくらいの期間でそんなに進化しちゃったんですよね。これって単に右肩上がりじゃなくて、完全に指数関数的な伸び方をしてるんですよ。だからこれから先が本当に恐ろしくもあり、楽しみでもありますね」
―― 今回はまだチューニングされた特化モデルでしたけど、これがもっと一般的に使えるレベルになったら、ほんとに社会が変わりますよね。
「まさにそうです。今回だってチューニング次第でここまで性能を引き出せるってことが証明されちゃったわけですよ。じゃあこれがもう少し誰でも簡単に扱えるような形で普及したら、もう人間が追いつけないレベルのパフォーマンスを発揮する人が増えてくるでしょう」
―― それって本当にインパクト大きいですよね。
「そうですよね。それに、トランスフォーマーじゃなくて新しい技術が出てきたら、AIがさらにとんでもないレベルで成長する可能性もあるわけで。そうなるともう今の想像を超えるくらい社会が激変しますね」
―― 今がまさにその入り口にいる感じですよね。
「ほんと、そうなんですよね。だから、これから数年先がどうなるのか、僕も正直ワクワクもあるけど、同時に怖さもあるなって感じてますね」
まとめ
今回、AIが数学オリンピックの金メダル基準を突破したことは、AIが特定の条件下で人間と同じレベルの推論能力を発揮できる可能性を示しました。
一方で、創造性や直感的なひらめきを必要とする分野では、依然として人間がリードしています。また、汎用モデルと特化モデルの間には非常に大きな性能差があり、AIをどのように使いこなすかが極めて重要であることも浮き彫りになりました。