Google、動画から音声を生み出すAI「V2A(Video-to-Audio)」を発表

出典:Generating audio for video – Google DeepMind

GoogleのAI研究部門であるDeepMindは、動画とテキストから音声を作り出す新しい技術「V2A(Video-to-Audio)」を発表しました。この革新的な技術は、映像とテキストを組み合わせることで、より自然で高品質な音声を生み出すことができます。V2Aは映画の音声や効果音、会話などを作り出すことができ、クリエイターにとって新しいツールとなることを目指しています。

V2Aは、動画の画像情報とテキストの指示を分析し、映像に合った音声を作り出すことができます。これにより、従来の音声制作作業を大幅に簡略化し、効率化することが可能になります。さらに、V2Aは作りたい音声のイメージを伝えるための機能も備えており、ユーザーが思い描く音声を作り出すことをサポートします。

Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete

V2Aの開発には、深層学習、特に拡散モデルが活用されています。 この技術によって、映像と音声の複雑な関係を理解し、より自然な音声を作り出すことが可能になりました。

例えば、動画内の特定の動きやアクションに合わせて、適切な効果音や背景音楽を自動的に作り出すことができます。

Prompt for audio: Cute baby dinosaur chirps, jungle ambience, egg cracking

この技術の応用範囲は広く、映画やゲームの制作だけでなく、古い映像資料への音声追加など、様々な分野での活用が期待されています。

DeepMindの発表では、V2Aが先日発表された動画生成AI「Veo」と連携し、映像に合わせた効果音やセリフを生成できるとしています。このことから、V2Aはある程度の速度で音声生成が可能であると推測され、将来的にはVRコンテンツのようにリアルタイムで音声生成が求められる分野への応用も期待できます。

DeepMindは、この新しい技術が創作活動をどのように変えるかにも注目しています。従来の音声制作は時間と手間がかかるものでしたが、V2Aの登場により、クリエイターはより速く、効率的に音声を作り出すことができるようになります。また、音声制作の自動化によって、クリエイターはより多くの時間を他の創作活動に使うことができるようになります。

V2Aの技術は現在、いくつかのパートナー企業と共同でテストされており、今後の展開が期待されています。DeepMindは、V2Aがクリエイティブ業界の新しい常識となることを目指し、さらなる研究と開発を続けていく予定です。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次