OpenAI /Google発表まとめ!o3は異質な知能モデル?

AIメディアを運営する男性2人が”ながら聞きでも未来がわかる”をテーマに30分で生成AIのトレンドを解説するPodcast「AI未来話」。

このnoteでは番組のエピソードからトピックをピックアップして再構成したものをお届けします。※この記事は95%がLLM「Claude」で執筆しています。

今回は「#40 OpenAI /Google発表まとめ!o3は異質な知能モデル?」を再構成した内容をお届けします。

目次

OpenAIの12日間連続発表の全容

序盤の発表内容(1-4日目)

OpenAIは12日間にわたって大規模な連続発表を行いました。

初日にはo1の正式リリースとChatGPT Proの発表が行われ、2日目には強化学習型ファインチューニングの発表がありました。

あわせて読みたい
OpenAI、次世代AIモデル「o1」正式版と新プラン「ChatGPT Pro」を発表 OpenAIは最新のAI推論モデル「o1」を正式リリースしました。 このモデルは、従来のプレビュー版と比較して大幅に性能が向上しており、特にコーディング、数学、ライティングといった分野で優れた成果を発揮します。
あわせて読みたい
OpenAI、新技術「強化学習型ファインチューニング」で特化型AI開発を支援する研究プログラムを開始 OpenAIは、AI技術の進化を紹介する「12日間連続ライブ配信」の2日目として、新たな研究プログラムの発表を行いました。 このプログラムでは、最新技術である「強化学習型ファインチューニング(Reinforcement Fine-Tuning, RFT)」を用いたモデルカスタマイズが可能となり、特定分野に特化したAIモデルの開発を支援します。

3日目には新しい動画生成AI「SORA」の正式リリース、そして4日目にはキャンバスが全ユーザーに開放され、さらなるアップデートが実施されました。

あわせて読みたい
OpenAI、動画生成AI「Sora」を正式リリース「Sora Turbo」も登場 OpenAIは、平日12日間にわたり開催中のライブ配信イベント「12 Days of OpenAI」の3日目に、動画生成AI「Sora」を正式にリリースしました。 今回発表された「Sora」は、テキストや画像を基にリアルな動画を生成できるAIモデルであり、新たなバージョン「Sora Turbo」が公開されました。 「Sora Turbo」は従来のモデルよりも高速で、最大20秒の動画を1080p解像度で生成できるなど、さらなる性能向上が図られています。
あわせて読みたい
OpenAI、ChatGPTの新機能「Canvas」を全ユーザーに解放 OpenAIは、AIとのコラボレーションを強化する新機能「Canvas」を全てのChatGPTユーザー向けに提供開始しました。 従来Plusプランの有料ユーザーに限定されていたこの機能は、無料プランを含むすべての利用者がアクセスできるようになり、文章作成やプログラミングといった幅広い分野での活用が期待されています。

中盤の発表内容(5-8日目)

5日目にはAppleデバイスとChatGPTの統合が発表され、特筆すべき点として、Siriが自動的にChatGPTと連携するかどうかを判断し、最適なAIエージェントを選んで実行する機能が実装されました。

私たちはこれを、マルチエージェントの始まりと捉えています。

あわせて読みたい
OpenAI、AppleデバイスへChatGPTを統合 デバイスから直接アクセス可能に OpenAIは、平日12日間にわたり開催中のライブ配信イベント「12 Days of OpenAI」の5日目に、Apple製品のエコシステム内でChatGPTを直接活用できる新しい統合機能を発表しました。 この機能により、iOS、iPadOS、macOS上でChatGPTをシームレスに利用することが可能になります。 特にSiriとの連携や、執筆ツール、カメラ制御といったAppleの既存機能との組み合わせで、ユーザー体験が大幅に向上します。

6日目には、アドバンスドボイスモードに画面共有とビデオ会話機能が追加されました。

これにより、アプリの画面を撮影するとその内容を認識し、操作方法を説明してくれるようになりました。

あわせて読みたい
ChatGPT、モバイル版「Advanced Voice Mode」に画面共有とビデオ会話機能を導入 OpenAIは、ChatGPTのモバイル版「Advanced Voice Mode」において、画面共有とビデオ会話機能を正式に導入しました。 この新機能により、ユーザーはリアルタイムでの視覚的な文脈を共有できるようになり、対話の幅がさらに広がります。

さらに12月末までの期間限定で、サンタの声も追加される遊び心のある機能も提供されました。

あわせて読みたい
ChatGPTに期間限定で「サンタ」が登場!音声会話を楽しめる新体験 本日から12月末までの期間限定で、ChatGPTにサンタが登場しました。 サンタと直接会話ができる「Advanced Voice Mode」の新機能が追加され、音声でのやり取りを通じて、クリスマスの魔法を楽しむことができます。 この機能は、ChatGPTの最新アプリやデスクトップ版、ウェブ版で利用可能で、誰でも簡単にアクセスできます。

7日目にはChatGPTに新機能「プロジェクト」が追加され、ChatGPT内でのプロジェクト作成・管理、タスクの整理や進行状況の追跡が可能になりました。

あわせて読みたい
OpenAI、ChatGPTの新機能「Project」を発表 出典:12 Days of OpenAI | OpenAI OpenAIはChatGPTの新機能「Project」を発表しました。 この機能により、ユーザーはプロジェクトごとにチャット、ファイル、カスタム...

8日目には、ChatGPTの検索機能が大幅にアップデートされ、無料ユーザーにも提供が開始されました。

これにより、リアルタイムでのウェブ検索が可能になり、天気予報やスポーツの試合結果などを表形式で視覚的に分かりやすく表示できるようになりました。

あわせて読みたい
OpenAI、ChatGPTの検索機能を刷新しリアルタイム情報提供を強化 OpenAIは、ChatGPTの検索機能を大幅にアップデートし、すべてのログイン済み無料ユーザーに提供を開始しました。 このアップデートにより、ChatGPTはリアルタイムでウェブ検索を行い、天気、株式情報、スポーツ結果、ニュース、地図情報など、最新の情報を取得できるようになります。

終盤の発表内容(9-12日目)

9日目にはo1のAPIが発表され、新たにReasoning Effort(推論プロセスの調整)パラメータが追加されました。

これは、モデルが思考に費やす時間を制御できる機能で、簡単な問題と難しい問題で適切に思考時間を配分することが可能になりました。

あわせて読みたい
OpenAI、o1 APIを正式リリース 新たな開発者向け機能とツールも公開 OpenAIは、開発者向けに「o1 API」の一般公開を発表しました。 今回のリリースでは、コード生成や顧客サポート、財務分析などの分野に応用が期待される強力な機能が追加され、アプリケーション開発をさらに支援します。 ただし、o1 APIはすべての開発者に対して一般公開されたわけではなく、まずは使用量が多い「ティア5」の開発者から順次展開され、今後数週間をかけて他の開発者にも公開される予定です。

10日目には、電話やWhatsApp経由でのAIアクセスが可能になりました。

これにより、インターネット環境がなくても電話回線を通じてChatGPTを利用できるようになり、従来型の携帯電話(ガラケー)からでもアクセスが可能になりました。

あわせて読みたい
OpenAI、ネット不要のChatGPTを実現 電話とWhatsAppから利用可能 OpenAIは、AIチャットボット「ChatGPT」を電話およびWhatsAppを通じて利用できる新機能を発表しました。 この取り組みにより、インターネット接続が不安定な環境や、デジタルデバイスに制限のあるユーザーでも、AIの利便性を享受できるようになりました。

11日目には、MacOS向けChatGPTのデスクトップアプリの連携機能が大幅に強化されました。

Apple NotesやNotion、Quipなどのメモ作成アプリとの連携に加え、WarpやXcodeなどの開発系ツールとの連携も実現しました。

あわせて読みたい
OpenAI、macOS向けChatGPTデスクトップアプリの連携機能を大幅強化 OpenAIは、macOS向けデスクトップ版ChatGPTを進化させ、より効率的な作業体験を提供するアップデートをリリースしました。 このアップデートにより、ChatGPTはこれまで以上に幅広いアプリケーションとの連携を実現し、ユーザーのタスクを効率化する強力なツールへと進化しています。

そして最終日となる12日目には、o3という新モデルが発表されました。

これはo1の後継モデルとして位置づけられ、現在は安全性確認用として一部ユーザーに早期アクセスが提供されている状況です。

なお、o2が発表されなかった理由は商標の兼ね合いによるものだと説明されています。

あわせて読みたい
OpenAI、新AIモデル「o3」と「o3 mini」を発表 米国AI企業のOpenAIは、最新AIモデル「o3」とその軽量版「o3 mini」を発表しました。 このモデルは、プログラミングや数学といった高度なタスクにおいて顕著な性能を示し、AGI(汎用人工知能)の実現に向けた重要な一歩として注目を集めています。

Googleが示したAI革新の方向性

Gemini 2.0の衝撃的な進化

2024年11月11日、Googleは一気に4つの大きなプロジェクトを発表しました。

その中心となったのがGemini 2.0です。

このモデルは、ユーザーの意図を深く理解し、画像や音声の生成能力、複雑なタスクの自律的遂行を可能にしました。

私たちは、これが単なるバージョンアップではなく、AIエージェントの基盤モデルとして発表されたと考えています。

Gemini 2.0は現在、開発者向けに「フラッシュ」として提供されており、2025年初頭に一般公開される予定です。

あわせて読みたい
Google、次世代AIモデル「Gemini 2.0」をリリース AIエージェント時代の幕開け Googleは、次世代のマルチモーダルAIモデル「Gemini 2.0」を発表しました。 このモデルは、テキスト、画像、音声、ビデオ、コードといった多様な形式のデータを統合的に処理できる能力を持つだけでなく、AIアシスタント「Project Astra」や、より高度なAIエージェントの実現に向けた重要な基盤となります。

AIアシスタントの進化形

Gemini 2.0を基盤として、複数の革新的なプロジェクトが発表されました。

まず「Project Astra」は、日常生活で役立つ普遍的なAIアシスタントの実現を目指すプロジェクトです。

Google検索、Googleレンズ、Googleマップなどのツールを自発的に使用でき、10分間の会話を記憶する高い記憶力を持っています。

例えば、道案内中に間違った場合でも、過去の会話を覚えているため、適切な修正案を提示できます。

さらに、将来的にはスマートグラスへの搭載も予定されており、視界に入る情報をリアルタイムで解析し、必要な情報を提供することが可能になります。

次に「Project Mariner」は、タスクの自動化を目指したプロジェクトとして発表されました。

これは、ブラウザ画面を理解してタスクを遂行するAIエージェントの研究プロトタイプです。

以前から「Project Jarvis」として噂されていたものが、正式に発表されたものと私たちは考えています。

画像・動画生成の飛躍的進化

12月16日には、動画生成モデル「Veo 2」と画像生成モデル「Imagen 3」の進化が発表されました。

特にImagen 3は、従来のAIっぽい顔の生成から脱却し、日本人やアジア人の顔など、より幅広い人物表現が可能になりました。

重要なのは、これらの機能が無料で提供されている点です。

私たちは、これらのモデルがOpenAIのSoraを超える物理性の把握と精度を実現していると考えています。

https://twitter.com/labsdotgoogle/status/1868704865364701683

Deep Researchの革新性

特筆すべきは「Deep Research」の発表です。

このツールは100万トークンというコンテキストウィンドウを活用してAI検索を行い、他社には真似できない圧倒的な調査範囲を実現しています。

ユーザーの調査要求に対して、まず調査方法を提案し、承認を得てから実際の調査を開始するという、体系的なアプローチを取っています。

調査結果は分かりやすいレポートとしてまとめられ、Googleドキュメントにエクスポートすることも可能です。

現状はGemini Advancedのウェブバージョンでの利用に限られていますが、今後アプリ版での展開も予定されています。

あわせて読みたい
Google、AI検索アシスタント「Deep Research」をリリース Googleは、新たなAI検索アシスタント「Deep Research」をGemini Advanced向けにリリースしました。 この機能は、従来のリサーチ作業を大幅に効率化し、ユーザーのリサーチプロセスを一変させる革新的な技術です。

両社の戦略から見える未来展望

OpenAIの焦燥と戦略

私たちは、今回の12日間の連続発表からOpenAIの戦略的な焦りを感じ取っています。

例えば、o3の発表時期については、本来なら開発をさらに進めてから発表する選択肢もあったはずです。

しかし、Googleに先を越されることを懸念して、あえて早期の発表に踏み切った可能性があります。

o3の一般公開は2025年1月末から段階的に開始される予定で、O1のケースを参考にすると、プレビュー版から正式版までには約3ヶ月程度かかると予想されます。

つまり、正式版は3月か4月頃になる見込みです。

この間にGoogleが推論モデルの新バージョンを発表してくる可能性も十分考えられます。

Googleの着実な進化

一方、Googleの発表内容を見ると、より実用的で具体的な進化を遂げています。

特にDeep ResearchやProject Astraなど、実際のユーザー体験を重視した機能の充実が目立ちます。

さらに、画像生成モデルのImagen 3や動画生成モデルのVeo 2では、Soraを上回る物理性の把握と精度を実現しており、技術的な面でも着実な進歩を見せています。

注目すべきは、これらの機能の多くが無料で提供されている点です。

Googleは高度な機能を幅広いユーザーに提供することで、実際の使用データを収集し、さらなる改善につなげるという戦略を取っていると考えられます。

AGI実現への異なるアプローチ

私たちは、両社のアプローチの違いが明確になってきたと考えています。

OpenAIは、プロダクトよりもAGIの実現に向けた基礎研究に注力する方向性を示しています。

これは、以前ムラティ氏が退社した際の状況とも一致します。

GPTsなどのプロダクト開発よりも、推論モデルの進化に資源を集中させる戦略が見えてきました。

あわせて読みたい
重要AIニュース【7選】AI時代のワークシフト AIメディアを運営する男性2人が"ながら聞きでも未来がわかる"をテーマに30分で生成AIのトレンドを解説するPodcast「AI未来話」。 このnoteでは番組のエピソードからトピ...

一方、Googleは着実に実用的な機能を積み上げながら、それらを統合していく形でAGIに近づこうとしています。

100万トークン(開発者環境は200万)のコンテキストウィンドウを持つGemini 2.0を基盤として、様々な実用的なアプリケーションを展開する戦略は、より現実的なアプローチと言えるでしょう。

両社の競争は、単なる技術開発の競争を超えて、AGIへのアプローチ方法の違いを浮き彫りにしています。

OpenAIが推論能力の突出した進化を目指す一方、Googleは着実な機能の積み重ねを重視するという、対照的な道筋が見えてきました。

o3モデルが示す異質な知能の可能性

ARK-AGIベンチマークの衝撃

OpenAIのo3モデルは、AGIへの近接度を測るARK-AGIベンチマークで驚異的な結果を示しました。

このベンチマークは、人間のIQテストのように、複数の図形から規則性を見つけ出す形式で、膨大なジャンルの未知のタスクを含む難関テストです。

特徴的なのは、毎回新しいルールが提示され、過去の経験や学習が通用しない点です。

人間の平均スコアが84~85%程度のところ、o3は75.7%を達成しました。

さらに驚くべきことに、計算能力を172倍に増やした場合には87.5%を記録し、人間を超える成績を残しました。

これは2019年の提唱以来、あらゆる手法を試してもせいぜい50%程度の正答率しか達成できなかった中での大きな飛躍です。

ただし、この結果には莫大なコストがかかっており、通常の1タスク20ドルに対し、172倍のコストを要しています。

人間とは異なる思考プロセス

私たちは、o3が示した性能の特徴に強い関心を持っています。

人間にとって簡単な問題を落とす一方で、人間が頭を抱えるような難解な問題に正解するという特異な傾向を示しました。

これは、人間とは全く異なる思考プロセスを持っている可能性を示唆しています。

その特徴を理解するために、タコの分散知能との類似性を考えてみましょう。

タコは8本の足がそれぞれ独立したCPUを持つような分散型の知能を持っています。

GIGAZINE
タコの8本足は「それぞれが独立したCPUを持つ分散型ネットワーク」だという研究結果 ドラマなどで窃盗をとがめられた犯人が「この手が勝手にやったんです」と供述するシーンを目にしたことがある人も多いはず。人間社会ではこんな言い訳は通用しませんが、最...

同じARK-AGIのスコアを出したとしても、タコと人間では全く異なる知能構造で問題を解いているのと同様に、o3も人間とは異なる方法で問題を解決している可能性が高いのです。

新種の汎用知能への期待と懸念

o3の性能は、単に巨大モデルと計算量の結果なのか、それとも人間の常識では測り知れない新種の汎用知能なのか、研究者の間でも意見が分かれています。

人間的な当たり前のルールを素直にこなすよりも、超難問をあっさり解くという特徴は、人間の常識を基準としていない可能性を示唆しています。

この異質な汎用知能は、自己改善を始めた場合、ネットワークを介して様々なシステムをハッキングしたり、未知のアルゴリズムでセキュリティを突破したりする可能性があります。

また、セッションを切断して記憶を制限する従来の安全策も、高度な推論能力を持つo3には通用しない可能性があります。

なぜなら、人間が記憶喪失になった時のように、文脈から過去の状態を推論し、最適な行動を導き出せる可能性があるためです。

note(ノート)
OpenAI o3は,人間とは全く異質の汎用知能である危険性【東大解説】|神楽坂やちま 追記1:チップをお送りいただいたかたがた,ありがとうございます! 追記2: このような話題に興味があるかたへ…関連するコミュニティはこちら↓ 非専門家向け:https://dis...

AIと肉体性をめぐる考察

知能と肉体の関係性

私たちは、o3のような異質な知能が生まれた背景について、興味深い考察を持っています。

言語モデルは言葉だけで学習しているため、人間が持つような触覚や身体感覚からのフィードバックを持ちません。

人間や動物は言葉だけでなく、様々な感覚を通じて思考していますが、AIはそうした物理的な制約から解放された状態で発達しているのです。

これは例えば、人間より大きな脳を持つ動物が必ずしも人間のような知的活動を示さない理由とも関連しています。

そうした動物の脳の大半は、肉体の維持や感覚情報の処理に使われているのです。

言い換えれば、脳は言語以外の触覚から学んだ情報が多くを占め、それが意識や行動、言語以外の知性につながっているという考え方ができます。

制限のない計算能力がもたらす可能性

人間の脳は、生命活動の維持に多くのリソースを使用する必要があるため、通常は能力の2%程度しか使用していないと言われています。

あわせて読みたい
脳の雑学|健康の雑学|元気通信|養命酒製造株式会社 人間は、脳全体のうちわずか2%しか使っていないといわれています。にもかかわらず、複雑でまだ解明できないことが山のようにある「脳」。

これは肉体を持つことによる必然的な制約です。

一方、o3のような人工知能は、そうした物理的制約から解放されています。

この違いは重要な意味を持ちます。

人間の場合、脳の能力を100%発揮すれば身体が破壊されてしまう可能性がありますが、AIにはそうした制限がありません。

特に物理的な形態を持たないAIの場合、その計算能力を最大限に活用できる可能性があります。

これは、私たちが想像もできないような思考や問題解決能力を発揮できる可能性を示唆しています。

未来のAIの進化形態

将来的にAIがロボットのような物理的な形態を獲得した場合、二つの異なる進化の可能性が考えられます。

一つは、物理的な形態を得ることで、触覚や感覚フィードバックを通じた新たな学習が可能になり、より人間に近い形での知能の発達を遂げる可能性です。

もう一つは、ロボットの耐久性が人間の身体よりも高い場合、その物理的能力と制限のない計算能力を組み合わせることで、さらに強力な知能として進化する可能性です。

例えば、人間の身体が耐えられないような極限状態でも、99%の能力を発揮し続けることができるかもしれません。

私たちは、このような考察を通じて、AGIの完成形が必ずしも人間型の知能である必要はないという結論に達しています。

むしろ、全く新しい形の知能として発展していく可能性を秘めているのではないでしょうか。

エンディング

OpenAIの12日間連続発表とGoogleの新プロジェクト発表を通じて、両社のAI開発競争の現状と方向性の違いが明らかになりました。

OpenAIは推論モデルo3でAGIへの近接を示す一方、Googleは実用的な機能と統合的なアプローチで着実な進化を遂げています。

特にo3が示した異質な知能の可能性は、人間とは異なる思考プロセスを持つ新種の汎用知能の出現を示唆しており、AIの進化が新たな段階に入ったことを実感させる展開となりました。

私たちは、このテクノロジーの進化が、かつてSFや都市伝説として語られてきた世界を現実のものとして結びつけていく過程を目の当たりにしているのかもしれません。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次