中国ショート動画の「快手(Kuaishou)」が、動画生成AI「Kling」を発表しました。快手のAIチームによる独自開発のモデルであり、OpenAIのSoraと類似したアーキテクチャと、独自の革新的な技術を組み合わせて開発されました。
同モデルは、おもに4つの特徴が挙げられます。
1、合理的な動きを生成
宇宙飛行士のデモでは、月面を走る滑らかな動きと、歩幅と影の動きが適切に一致している効果を見ることができます。
An astronaut runs on the surface of the moon, the low angle shot shows the vast background of the moon, the movement is smooth and appears lightweight pic.twitter.com/jU1xfhak8W
— 青龍聖者 (@bdsqlsz) June 6, 2024
2、物理的な世界の特性をシミュレーション
男の子がハンバーガーを食べるデモでは、食いちぎられたハンバーガーの形状や、子供の顔の筋肉の動きがとてもリアルに再現されています。
A Chinese boy wearing glasses enjoys a delicious cheeseburger with his eyes closed in a fast food restaurant pic.twitter.com/sdgZBW6bFK
— 青龍聖者 (@bdsqlsz) June 6, 2024
3、複数の概念を組み合わせる能力と想像力を保有
パンダが湖のほとりでギターを弾きながら歌を歌っているデモは、ユーザーの豊かな想像力を動画で体現したものです。
4.
— Rowan Cheung (@rowancheung) June 6, 2024
Panda playing guitar pic.twitter.com/c5ZvdQzaAM
4、解像度は最大1080p、長さは最大2分、アスペクト比指定可
自転車に乗った少年のデモでは、約1分半の動画で四季の風景の移り変わりを見ることができます。
prompt:Little boy riding his bike in the garden through the changing seasons of fall, winter, spring and summer. pic.twitter.com/53tFPfsQyT
— 青龍聖者 (@bdsqlsz) June 6, 2024
動画生成モデルの効果は、学習データの規模や質、学習効率に依存します。同社は学習データのマイニング・アノテーション・スクリーニングにおいて、独自システムを構築し、学習の自動化・効率化を図っているということです。
「Kling」のモデルをベースとして、近日中に公開されるという「AI唱跳」機能は、たった1枚の画像から、歌って踊るAIの動画を生成できるということです。