
Googleは2024年12月16日、最新の実験的画像生成ツール「Whisk(ウィスク)」を発表しました。
Whiskは、ユーザーが直感的に画像とテキストを組み合わせてアイデアを視覚化し、独自のビジュアルを生成・編集できる革新的なツールです。
WhiskはGoogleの最新AI画像生成モデル「Imagen 3」と、AI言語モデル「Gemini」の視覚理解能力を統合して動作します。

具体的には、ユーザーが入力した画像の内容やテキストの説明を自動的に解析し、その情報をもとに新しいビジュアルを生成します。
この仕組みにより、複雑なアイデアでも簡単に視覚化できるようになっています。
Whiskの操作は非常にシンプルで、まず「対象(Subject)」「シーン(Scene)」「スタイル(Style)」の3つのカテゴリから要素を選びます。
例えば、「スタイリッシュな老人」という対象に「ジャングルのシーン」、さらにスタイルに「90年代アニメ風」を指定することで、その組み合わせに基づいたユニークなビジュアルが生成されます。
また、追加のテキスト指示で「空飛ぶ自転車に乗っている」といった具体的な要望を加え、さらに「リファイン機能」を活用して微調整を行うことも可能です。
このような柔軟な操作性によって、ユーザーはアイデアを迅速にビジュアル化し、必要に応じてリミックスや編集を加えながら、自分だけのオリジナル画像を完成させることができます。
Whiskは、デザイナーやアーティスト、クリエイターだけでなく、初心者でも直感的に扱えるため、幅広い層のユーザーが利用できるツールとなっています。
Googleは、Whiskを通じてクリエイティブ分野に新たな可能性を提供するとともに、AI技術の使いやすさと柔軟性を向上させることを目指しています。
Whiskは現在、Google Labsを通じて米国で先行提供されており、ユーザーは待機リストに登録することでアクセスが可能です。
今回の発表で注目されるのは、Whiskが単なる画像生成ツールにとどまらず、ユーザーのアイデアを効率的に形にし、クリエイティブな作業のプロセスそのものを革新する点です。
従来の画像制作には時間と労力が必要でしたが、Whiskを利用すれば、より短時間で高品質なビジュアルコンテンツを生成できるようになります。
出典:Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs