リップシンクでAIモデルに歌わせる方法！リップシンク動画の作り方を解説

2026年1月8日2026年2月23日

本記事ではリップシンクでAIモデルに歌わせる方法を、初心者でもわかりやすいように画像を用いて解説します。

リップシンクの基本的な仕組みや、リップシンク動画の作り方の手順を理解すれば、初心者でも簡単にリップシンクでAIモデルに歌わせる動画を作ることができます。

なお、本記事で扱うツールはDomoAIとElevenLabsです。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

リップシンクでAIモデルに歌わせるとは？初心者にもわかりやすく解説

リップシンクでAIモデルに歌わせる方法の概要と必要な素材を理解することで、完成までの全体フローを短時間で掴めます。

実際にリップシンクでAIモデルに歌わせている動画の代表的な事例と合わせて紹介します。

リップシンクでAIモデルに歌わせるとはどういうことか

リップシンクとは、音声に合わせてキャラクターや人物の口の動きを同期させる技術です。

AIツールで画像と歌声のデータを生成し、生成した歌声のデータに合わせてAIモデルが口を自然に動かして歌っているような動画を作ります。

初心者でもリップシンク動画を短時間で作ることができます。

リップシンクでAIモデルに歌わせるために必要な素材

リップシンクでAIモデルに歌わせる動画を作るためには、音声データと画像データが必要です。

音声データとは、リップシンクでAIモデルに歌わせたいボーカル音源と伴奏用の音源です。ただ、AIモデルにアカペラで歌わせる場合は、伴奏用のデータは必要ありません。

画像データとは、リップシンクで歌わせたいAIモデルの写真です。実写にするのかアニメ調にするのか、自分の作りたい動画に合わせて用意してください。

実際にリップシンクを活用した動画の事例

実際にリップシンクを活用している動画はたくさんあります。

例えばキャラクターが音声に合わせて口を動かし、自然に会話しているものや、自分が好きな動物にリップシンクで歌ってるように見せている動画もあります。

引用元：DomoAI公式サイト

その他にもペット画像から動画を生成し歌わせる動画や、アニメキャラのMV動画など、様々なリップシンク動画の事例があり、今後も注目される技術の一つです。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

リップシンク動画を作る全体フロー

DomoAIとElevenLabsを使ってリップシンク動画を作るには、DomoAIはAIモデルの画像生成とリップシンク動画の作成、ElevenLabsは歌声・音源データを作成と分けて段階的に生成していきます。

まずElevenLabs内のサービスであるEleven musicで音楽・音声を生成し、DomoAIでAIモデルを画像生成します。

そして、生成した音楽・音声データとAIモデル画像を使って、DomoAIでリップシンク動画を生成します。

最後に出来上がったリップシンク動画のクオリティを上げるため、動画編集ツールで仕上げるといった工程です。

それぞれ得意な生成データの種類があるので、組み合わせて使うことで効率良くリップシンク動画が作れます。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

リップシンク動画の作り方①：ElevenLabsで歌を作成

まずは、ElevenLabsを使ってオリジナルの歌を作成していきます。

ElevenLabsでオリジナルの歌を作る流れ

アカウント登録から歌の生成までを解説します。

STEP

アカウント登録

ElevenLabs公式サイトにアクセスし、表示された画面にメールアドレスとパスワードを入力、もしくはGoogleアカウントでの登録をしてください。

STEP

ダッシュボードへアクセス

サインインすると質問が表示されるので入力して進んでください。その後、自動的にダッシュボードへ移動します。

STEP

ミュージックをクリック

左のメニュー内のミュージックをクリックしてください。

STEP

プロンプトを入力して作成

自分が作成したい音楽のプロンプトを入力して「↑」をクリック。

今回は「女性が歌っていてサビで盛り上がる音楽を作ってください。」と入力しています。

STEP

作成したデータをダウンロード

作成が完了したら「ダウンロード」をクリックしてください。

実際に完成した音楽がこちらです。

歌に伴奏がある場合のポイント

歌に伴奏がある場合は、伴奏の音で歌声が埋もれないようにすることが重要です。

リップシンク動画は歌声が鮮明に聞こえているかどうかがクオリティに影響するので、必要に応じて歌声と伴奏を分離させましょう。

歌声と伴奏の分離については、ElevenLabs内のボイスアイソレーターや、LALAL.AI、Moisesなどの別のツールを活用してください。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

リップシンク動画の作り方②：DomoAIでAIモデルを画像生成

次にDomoAIを使ってAIモデルを画像生成していきます。

画像生成のポイントとともに確認していきましょう。

DomoAIでAIモデルを画像生成する流れ

テキストから画像機能を使い、リップシンクさせるAIモデルを生成します。

STEP

ログインしてAI画像をクリック

DomoAI公式サイトにアクセスし、ログインします。

STEP

文字から画像の機能で画像を生成

「AI画像」を選択し「文字から画像」で、作りたい画像のプロンプトを入力してます。

今回は「正面を向いたロングヘアーの女性を生成してください。」と入力しました。

プロンプトを入力したら「生成」をクリックします。

STEP

生成された画像を保存

生成された画像のクオリティに問題がなければ、画像の下部分の「素材」をクリックして保存してください。

実際に生成した画像がこちらです。

歌わせやすい画像のポイント

DomoAIのリップシンク機能では、顔の角度・音声品質・動画尺の不一致などが原因で不自然な口パクや表情の硬さが発生することがあります。

これらは、音声品質・画像条件・尺の不一致が起因していることが多いです。

特に口元の情報量を確保することが精度向上の鍵となります。

よくある失敗例と、それを防ぐためのポイントをまとめました。

失敗例	ポイント
顔が横向きで口パクが不自然	顔の向きが正面かつ明るい画像を使用する
音声がこもり口の開閉が合わない	歌声と伴奏を分離させる
途中で動きが止まる	音声と動画の長さを合わせる
表情が硬い／ぎこちない	自然な表情の画像を生成する

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

リップシンク動画の作り方③：DomoAIでリップシンク動画を生成

歌と画像の素材が揃ったので、DomoAIでリップシンク動画を生成していきます。

DomoAIでリップシンク動画を生成する流れ

AIビデオからリップシンク動画を生成します。

STEP

画像データをアップロード

ログインして「AIビデオ」をクリックしてください。

「AIアバター」を選択して、「素材を選択」をクリックし、画像を選択してください。

STEP

音声データをアップロード

オーディオ欄の「素材を選択」をクリックしてください。

ElevenLabsで作成した音声データをダブルクリックしてください。

これで画像と音声がアップロードされた状態になりました。

STEP

各種設定と生成

生成を始める前に、必要に応じて以下の各種設定を調整します。

プロンプト：特定の動きを付ける場合や、動きを抑えたい場合に入力。
動画の長さ：初回は、5sで試してみましょう。
比率：正方形、縦長、横長の動画が生成可能。
透かし：無料枠では利用できませんが、有料枠の方は「透かしなし」にチェック。

各種設定の調整が終わったら、⑤生成ボタンをクリックします。

STEP

リップシンク動画のダウンロード

生成された動画の下にある「ガイド」をクリックしてダウンロードが完了します。

実際に生成したリップシンク動画がこちらです。

クレジット消費についての注意点

クレジットの消費量は、動画の長さやモードによって異なります。

主な動画作成機能では下記のクレジット消費がかかります。

タスク	消費クレジット（Fast Mode）
テキストから動画：5秒	7
画像から動画： 5秒	7
動画から動画： 5秒	25
AIアバター：5秒	15
AIアバター： 10秒	45
AIアバター： 20秒	90
AIアバター：30秒	180
AIアバター： 60秒	360