米Googleは2024年5月14日に開催した、年次開発者会議「Google I/O 2024」で、テキストから動画を生成する新しいAIモデル「Veo」を発表しました。専用サイトでのウェイティングリスト登録も、併せて開始しています。
米OpenAIが2月に発表した動画生成AI「Sora」と競合することになりますが、Soraは現在一般公開の予定がありません。
Veoは自然言語を高度に理解し、「タイムラプス」や「航空写真」などの用語も理解しています。また、1080pの1分以上の動画を生成可能です。
Veoは一貫性のある映像を生成することが可能で、生き物や物体がリアルに動きます。公式ブログでは、サファリを歩く手編みの象のぬいぐるみや、海中を遊泳するくらげなどの例が紹介されています。
✍️ Prompt: “Many spotted jellyfish pulsating under water. Their bodies are transparent and glowing in deep ocean.” pic.twitter.com/y9SmNd8NK0
— Google DeepMind (@GoogleDeepMind) May 14, 2024
マスク編集機能を使って動画の特定領域を変更したり、テキストだけでなく画像を入力して動画を生成することも可能です。画像をテキストと組み合わせてプロンプトに入力することで画像のスタイルを参照した動画を生成することができます。
Googleは、将来的にVeoの機能をYouTubeショートなどにも導入する計画です。