Googleは、次世代のマルチモーダルAIモデル「Gemini 2.0」を発表しました。
このモデルは、テキスト、画像、音声、ビデオ、コードといった多様な形式のデータを統合的に処理できる能力を持つだけでなく、AIアシスタント「Project Astra」や、より高度なAIエージェントの実現に向けた重要な基盤となります。
Gemini 2.0の進化と新機能
Gemini 2.0は、これまでのGeminiシリーズの中で最も高度な性能を誇ります。
特に「Gemini 2.0 Flash」は、従来モデルと比較して処理速度を倍増させながら、テキストと音声の生成、マルチモーダルデータの処理能力を強化しました。
さらに、Google Searchやコード実行などの外部ツールとの連携も可能で、AIが直接行動を起こす新しいユーザー体験を提供します。
このモデルは、開発者向けプラットフォーム「Google AI Studio」と「Vertex AI」を通じて提供され、2025年初頭には一般利用も予定されています。
新たに導入された「Multimodal Live API」は、リアルタイムの音声やビデオストリーミング入力を可能にし、複雑なタスクを処理するための動的なアプリケーション開発を支援します。
AIエージェントの新しい可能性
Gemini 2.0の特徴的な応用例として、「Project Astra」が挙げられます。
Astraは、多言語対応やGoogle検索、Googleレンズ、Googleマップとの連携機能を強化し、個々のユーザーにより最適化された支援を提供します。
また、「Project Mariner」では、ウェブブラウザ内で複雑なタスクを遂行するAIエージェントの可能性を探る研究が進められており、AIがブラウザの画面情報を解析し、タスクを実行する実験が行われています。
さらに、開発者向けには、GitHubのワークフローに統合可能なコード支援エージェント「Jules」も試験的に提供されています。
このエージェントは、タスクの計画から実行までを支援し、AIがより広範な開発領域で役立つことを目指しています。
安全性と責任ある開発
Googleは、AIモデルの進化に伴うリスクに対応するため、モデル開発の各段階で安全性と倫理を重視しています。
たとえば、Gemini 2.0では潜在的なリスクの検出と緩和策の実施を強化するために、高度な「AI-assisted red teaming」を採用しています。
Project AstraやMarinerにおいても、ユーザーのプライバシー保護や悪意のある外部指示への対策を徹底しています。
次世代のAIへの期待
Gemini 2.0のリリースは、AIエージェントの可能性を広げる新たな時代の始まりを示しています。
このモデルは、Googleの既存製品への統合を進めるとともに、ユーザーの生活や開発者の作業を大きく変えるポテンシャルを秘めています。
責任ある技術開発を基盤に、Googleは人工汎用知能(AGI)に向けた未来を構築する取り組みを加速させています。
出典:Google introduces Gemini 2.0: A new AI model for the agentic era