
Googleは、生成AIモデル「Gemini 2.0 Flash」でネイティブな画像生成機能の実験的リリースを開始しました。
昨年12月に一部のテスター向けに限定公開されていたこの機能が、今回初めてGoogle AI Studioが対応する全地域の開発者向けに広く提供されています。
利用にはGoogle AI Studioの実験バージョン(gemini-2.0-flash-exp)またはGemini APIが必要です。
Gemini 2.0 Flashはテキストや画像を含む複数のデータ形式(マルチモーダル)に対応し、高度な推論や自然言語理解を活用して、テキストから画像を生成できます。
たとえば、ストーリーをテキストで入力すると、その内容に適したイラストが自動で作成され、キャラクターや設定を一貫して表現できます。
また、ユーザーがフィードバックを与えることでストーリーの内容や画像のスタイルを柔軟に調整できることも特徴です。
Native image generation with Gemini 2.0 Flash is now available to all developers via an experimental release in the Gemini API and Google AI Studio!!
— Logan Kilpatrick (@OfficialLoganK) March 12, 2025
The chat based image editing and creation is so much fun to play with 🧵 pic.twitter.com/HgNHF1NALI
さらに、自然言語を使った対話型の画像編集機能も搭載されており、何度もやり取りを繰り返すことで理想の画像に仕上げることができます。
編集したい部分を具体的に指示しながら、イメージを段階的に改善したり、異なるコンセプトを手軽に試したりすることが可能になります。
Gemini 2.0 Flashは世界に関する広範な知識と高度な推論能力を備えており、リアルで詳細な画像を作成できます。
たとえば料理のレシピを画像化するような、正確さが求められる用途にも対応します。
ただし、このモデルが持つ知識はあくまで一般的なものであり、絶対的に正確とは限らないということです。
また、Gemini 2.0 Flashは、従来の画像生成モデルが苦手としていた長文のテキストレンダリングを高精度に処理できるよう改善されました。
Googleによると、同社の内部ベンチマーク試験で他の主要な競合モデルを上回る結果を出しており、広告制作やSNS投稿、イベントの招待状の作成といった場面でも大きな活躍が期待されています。
Googleは、Gemini 2.0 Flashの活用で、開発者がAIエージェントの構築やビジュアル豊かなインタラクティブアプリの制作を加速できると考えています。
今後は、開発者から寄せられたフィードバックを参考に改良を加え、本格的な製品版としてのリリースを目指す方針です。
出典:Experiment with Gemini 2.0 Flash native image generation – Google Developers Blog