AIアバターがナレーションをしゃべる動画の作り方

2026年2月10日

顔出しをせずに発信したいとき、AIアバターがナレーションを自然にしゃべる動画の作り方を押さえておくと、撮影なしでも説明動画をすぐ形にできます。

この記事では、「DomoAI」でアバターを用意し、「ElevenLabs」で日本語の音声を作って同期し、投稿まで迷わず完成させる手順をまとめます。

AIを活用してナレーション動画を製作したい方には必見の内容です。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

AIアバターがナレーションする動画の作り方（全体像）

まずは、どのような完成形を目指すのかを整理します。

静止画を使う方法と既存動画を活かす方法の違いや、使用するツール構成、事前に準備すべき素材を俯瞰的に把握します。

まずは完成形を決める

AIアバターにナレーションを付けて動画を作る方法としては、静止画から作るパータンと既存の動画から作るパターンと、大きく2パターンあります。最初に完成形を決めるところから始めましょう。

静止画トーキングは、一枚の顔画像を基にキャラクターが話す形式で、顔が正面を向き鮮明であるほど口の動きが安定します。

一方、既存動画へ音声を当てる方法では、映像の動きや表情を活かしたまま、音声に合わせて口元を自動調整できます。

顔出ししない動画を作成したい場合は前者が適し、既存映像を活用したい場合は後者が有効です。目的に応じて、どの手法でAIアバターをしゃべらせるかを選ぶ必要があります。

この作り方で使うツール構成

本記事で解説するAIアバターのナレーション動画を完成させる作り方では、DomoAIとElevenLabsを役割分担させて使います。

DomoAIは、画像や動画に動きを与える生成系ツールで、Talking Avatar（AIアバター）機能を使えば、一枚の画像からキャラクターが口を動かして話す映像を作れます。必要に応じて、内蔵の画像生成や解像度のアップスケール、出力形式の調整まで担います。

一方、ElevenLabsはテキストを入力することで、日本語でも自然な抑揚を持つ音声を生成できる音声合成サービスです。台本から作った音声をDomoAIに渡すことで、AIアバターがしゃべる動画を効率よく構築できます。

映像と音声を別ツールで用意する方法は、顔出ししない動画作成、特に日本語音声の動画作成で品質を落としにくい方法になります。

事前に用意する素材

制作を始める前に、台本・画像・音声・出力形式の4点をそろえると進行がスムーズです。以下を参考に事前にイメージを固め、準備を進めておきましょう。

準備物	ポイント
台本（ナレーション原稿）	文を区切り、漢字の読みや専門用語の誤読を防ぐ
画像（アバター用）	正面向きで表情が分かる高解像度を選び、必要ならDomoAIで生成する
音声（ナレーション）	ElevenLabsで作った日本語音声をmp3/wavで用意し、DomoAIに読み込ませる
出力形式（仕様）	解像度・比率・尺を先に決め、生成時に秒数と画角を設定する

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

AIアバターがしゃべる仕組みとリップシンクの基礎

AIアバターが自然に話して見える理由を、技術の仕組みから理解します。

方式の違いや素材条件、失敗しやすいポイントを押さえることで、トラブルを未然に防げます。

Talking Avatarとリップシンクの違い

Talking Avatarとリップシンクは関連する概念ですが、役割は異なります。

Talking Avatarは静止画の顔画像に音声を与え、キャラクターが話している動画を生成する仕組み（機能）を指します。

この中核にある技術が、音声に合わせて口の形を同期させるリップシンクです。リップシンク単体は既存の動画に別の音声を当て、口元だけを調整する用途でも使われます。

DomoAIでは、前者で画像からAIアバターがしゃべる映像を作れ、後者では既存映像を活かした音声差し替えが可能です。目的に応じて使い分けることが重要になります。

口が合いやすい素材の条件

AIで口パクを自然に見せるには、素材選びが仕上がりを左右します。

まず顔画像は正面、もしくはわずかに角度が付く程度が望ましく、横顔や極端な表情ではリップシンクが乱れやすくなります。

⼝を閉じ、中⽴的な表情をしている素材が最もリップシンクに適しています。元から⼝が開いている画像では、AIが「閉じる」という動作を⽣成する際に不⾃然なアーティファクトが発⽣しやすいためです。

解像度も重要で、口元の輪郭をAIが正確に捉えられる鮮明な画像ほど、AIアバターがしゃべる際の違和感を抑えられます。

音声についてはノイズやBGMが混ざらない明瞭な音源を用意することが前提となり、日本語の音声では話速が速すぎないほうが口の動きと合いやすい傾向があります。

以上のように、「高品質な素材」＋「AIの補正」で違和感の少ない口パクが実現できます。

破綻しやすい原因の整理

逆に、生成結果が不自然になる原因は主に三つありますのでこちらも覚えておきましょう。

まず、音声と映像のタイミングが合わない音ズレがまれに起こることがあり、処理遅延により口の動きが先行・遅延して不自然に見えるパターンです。

基本的にはソフト側で自動同期してくれますが、長尺の場合は特にチェックしましょう。不自然な場合は再生成するか、音声の最初に1秒ほどの無音を入れると音声認識が正確になり改善されることがあります。

次に、画像の表情と音声の感情が噛み合わないと違和感が生じやすい点です。無表情な顔に抑揚の強い日本語ナレーションを当てると、視覚と聴覚の差が強調されます。

さらに、キャラクターの見た目と声質が一致しない素材ミスマッチも要注意です。実写風の顔に極端なアニメ調の声を重ねる場合など、AIアバターがしゃべる意図が伝わりにくくなります。

これらを避けることで、AIアバターにナレーションを付ける動画生成でも破綻を防げます。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

ElevenLabsでナレーションを作る手順

まずは、自然に聞こえる日本語ナレーションを作るための考え方と操作手順をまとめます。

台本の書き方や音声調整のポイントを知ることで、リップシンク精度も向上します。

ElevenLabsで日本語ナレーションを生成する手順

ElevenLabsを使って日本語ナレーションを生成します。

STEP

ElevenLabsのアカウント作成と初期設定

ElevenLabsの公式サイトにアクセスします。右下に「日本語に切り替える」のポップアップが出る場合はクリックして日本語表示に切り替えます。

「サインアップ」をクリックします。

Googleアカウントもしくはメールアドレスでアカウントを登録できます。ここでは「Googleで登録」をクリックします。その後、アカウントとして登録したいGoogleアカウントを選択します。

続く画面でスタイルを選択して「続行」を選択し、ElevenLabsを知った経緯などのアンケートに答えていきます。その後、ホーム画面が表示されます。

STEP

テキスト読み上げ画面で読み上げたいテキストを入力

左のメニューリストから「テキスト読み上げ」を選択します。

中央の「テキスト読み上げ」の下の入力欄に読み上げたいテキストを入力します。

STEP

ボイスの選択

右側の「設定」メニュー内の「ボイス」のプルダウンをクリックします。

音声の検索バーに「japanese female」など使用したい音声の属性に合わせた検索ワードを入力します。各音声のサンプルボイスは矢印のアイコンから再生することができます。

使用したいボイスを決定したらクリックし、「マイボイスに追加」をクリックします。今回はアニメーションスタイルのアバター素材を使用するため、アニメスタイルのボイスを選択しました。

STEP

モデルの選択

設定欄から「モデル」のリストを選択します。

モデルとボイスの組み合わせによって、読み上げの良し悪しが変化する場合があるため、一度ボイスを生成してから別のモデルを試すと良いでしょう。ここでは「Eleven Flash v2.5」モデルを選択します。

STEP

その他の項目の設定

速度や安定性など、その他の項目については、まずデフォルト設定で生成し、必要に応じて調整しながら変化を見ると良いでしょう。

STEP

生成と結果の再生、音声の保存

「音声を生成」をクリックして生成します。

画面下部から生成されたボイスの再生とダウンロード（MP3(128kbps)/WAV）を行うことができます。

生成された音声はこちらです。

ElevenLabsは、無料プランでも月額10,000クレジットが付与され「テキスト読み上げ」機能を使えるため、生成数が足りなくなった時に、有料プランを検討する運用で十分対応できます。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

台本づくりの考え方

基本的な知識として、ElevenLabsで日本語のナレーションを作るときは、台本（読み上げテキスト）の具体的な書き方が仕上がりを左右します。

たとえば「この機能を設定すると、動画の品質が向上します」という一文が長く感じる場合は、「この機能を設定すると、動画の品質が、向上します。」のように句読点で区切ると自然な間が生まれます。

固有名詞では「重陽祭」なら「ちょうようさい」、「DomoAI」なら「ドーモエーアイ」のように、読み仮名の状態で入力すると誤読を防げます。

数字も同じく、「2025年」は「にせんにじゅうごねん」と書くと安心です。

こうした工夫を入れることで、AIアバターがしゃべる動画でも聞き取りやすいナレーションになります。

声の自然さを上げる調整

ElevenLabsの音声は初期状態でも自然ですが、スライダーと台本の両面から調整できます。

速度はUI上のスライダーで「より遅く／より速く」を選び、全体のテンポを直感的に整えられます。加えて、文中に「、」「。」や「…」を入れて区切ると、AIが自動で間を取り、落ち着いた話し方になります。

抑揚は「安定性」を下げると変化が出やすく、長い説明中心の音声なら低めが向いています。

単語のイントネーションについては、完全にコントロールすることは難しいのが実情です。これは主に、日本語が「文脈依存アクセント」であることに起因します。

ただし、台本側で表記をひらがなやカタカナに変えたり、句読点を入れて文を区切ったり、意味を保ったまま類義語に言い換えたりすることで、自然さを高めることは可能です。

数秒のテスト生成を繰り返し、スライダーと句読点の両方で詰めると、AIアバターが自然にしゃべる仕上がりに近づきます。

書き出し形式とDomoAIへ渡す前チェック

ElevenLabsで生成した音声は、DomoAIに渡す前にいくつか確認しておくと失敗を防げます。

書き出し形式はmp3かWAVなので、基本的に容量は軽くアップロードも速いため扱いやすいです。

再生してノイズやクリック音がないかを確認し、気になる場合は再生成したり、台本を軽く調整します。

音量も重要で、極端に小さかったり歪んだりしていないかをチェックしてください。

さらに、音声の再生時間が動画の設定尺と合っているかを確認し、速度を調整したり不要な無音があればカットしておくと、AIアバターがしゃべる際の同期ズレを抑えられます。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

DomoAIでAIアバターを作る手順

DomoAIを使って、実際にしゃべるアバターを作成する流れを解説します。

画像の準備から同期、出力設定、料金プランの考え方まで、実務で迷わない順序で整理します。

DomoAIで使う画像の作り方

DomoAIでAIアバターを作る際、画像は自作・AI生成・素材利用のいずれでも対応できます。

手持ちの写真やイラストを使う場合は、正面向きで高解像度の顔画像を選ぶと、AIアバターがしゃべる際の口の動きが安定します。

他人の顔や版権キャラクターは、許諾なしでは商用利用に支障が出るため注意が必要です。

素材がない場合は、DomoAI内の画像生成機能や、ChatGPT・Grok・Geminiなど外部の生成AIを活用すれば、写真風やアニメ風などのモデルを簡単に作成することができます。AI生成の際も、正面に近い向きで、かつ口元が大きくハッキリと描写されるように注意してください。

DomoAIの「Talking Avatar」機能でしゃべるアバターを作る方法

ElevenLabsで生成した音声を使い、DomoAIでしゃべるアバターを生成していきます。

STEP

DomoAIのAIアバター機能を開く

DomoAIにログインしたら、左横の「AIビデオ」のメニューを選択します。

「AIアバター」というメニューがあるので選択してください。

STEP

キャラクター画像をアップロード

画像のアップロードエリアをクリックして素材を追加します。

今回は生成AIで作成したイラスト風画像を使用していきます。

STEP

ナレーション音声を追加

同様にして音声素材（ElevenLabsで生成したもの）もアップロードを行います。

STEP

必要に応じてプロンプトや挙動を設定

動きの指示やスタイルをテキストプロンプトで与えるオプションもあります。

例えば「笑顔で話す」「歌うように」などと入力すると表情変化や動きのニュアンスに影響を与える可能性があります。

ただし、特に指示がなければここは空欄でも構いません（空欄でも音声に合わせて自動生成されます）。

STEP

動画の長さ、比率、ウォーターマーク有無を設定して生成

動画の長さはProプランであれば最大60秒まで設定できますが、長尺になるほど生成時間も伸びる点に留意してください。

アスペクト比は基本は自動（もしくは画像素材と同じ比率）で良いでしょう。

なお、有料プランの場合はウォーターマークの有無を選択できます。

STEP

動画を生成して確認・保存

素材のアップロードと設定が完了したら「生成」をクリックします。

右側の履歴欄にタスクと進捗が表示されます。

生成が完了するとプレビューが表示されます。プレビューにカーソルを当て「ガイド」をクリックすると、動画をMP4形式で保存することができます。

プレビューをクリックすると生成されたアバター動画を再生することができます。

生成された動画はこちらです。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

DomoAIの「動画から動画」のリップシンク機能を活用する方法

DomoAIの「動画から動画」は、既存の動画素材を日本アニメ風など様々なスタイルのアニメーションに変換することができる機能です。

この機能で動画を変換する際に「リップシンク」オプションをONにすると、動画内の人物やキャラクターの顔を検出し、音声に合わせて口元の動きを再計算し適合した動画を出力します。

動画をアップロードして変換に進む流れは「AIアバター」の場合とほぼ同じですが、生成前に「リップシンク」のオプションをONにすれば、変換時に動画内の音声に合わせた口パクが付与されます。

例えば、先ほどの動画を「グリッティアニメ」スタイルに変換すると、下のような全く異なるスタイルの動画をリップシンクを維持したまま作ることができます。

この処理はフレーム単位で行われるため、動きを保ちやすい点が特徴です。

特に、DomoAIは様式化された2Dアニメや非実写キャラクター向けに最適化されたモデルを採用しており、アニメ表現でも自然に話して見えます。

出力設定と品質を上げるコツ

DomoAIでTalking Avatar動画を出力する際は、尺と解像度の設定が仕上がりの品質を左右します。

動画の長さは音声と必ず一致させ、ナレーションが15秒なら同じ秒数（ナレーションの秒数を下回らない秒数）を指定してください。

解像度は初期生成後にアップスケールする形が基本で、メニューの「AI編集」から、2Kや4Kに拡張できます。

一方、比率の設定は画質そのものには影響しませんが、口元の位置や構図、投稿先での見え方に関わります。SNS向けなら9:16、YouTube向けなら16:9といったように、用途に合わせて選ぶことが重要です。

最終仕上げ（字幕／BGM／テロップ）で見やすくする

DomoAIとElevenLabsで映像と音声を用意できたら、最後に見やすさを整えることも大切です。

字幕を付けると無音視聴でも内容が伝わり、聞き取りにくい語の補足にもなります。BGMはナレーションを邪魔しない音量で入れ、曲調は動画のトーンに合わせて選びましょう。

要点はテロップや画像で強調すると理解が進みます。

冒頭や末尾の余白はトリミングし、フェードアウトで締めると印象が安定します。書き出し後は全体を通しで確認し、問題がなければ公開に進めます。

料金プランとクレジット消費の見方

AIアバターにナレーションを付けてしゃべらせる動画を作るには、プラン選びとクレジット消費の把握が運用効率を左右します。

DomoAIでは、初回登録時は無料クレジット（15）が付き、トライアル利用は可能ですが、運用には有料プランの契約は必須です。

本格運用は、Standard以上ならRelax modeでクレジット消費なしに生成可能です。テスト運用はRelax modeで行うとコストが安定します。

Talking Avatarの目安は5秒あたり15クレジットで見積もり、運用規模に応じてプランを選択すると良いでしょう。

年額払いは割引が入るため、継続前提なら月額換算も確認しておくと安心です。

項目	無料プラン	ベーシック	スタンダード	プロ
月額料金	無料	$9.99	$27.99	$69.99
年額料金（月額換算）	–	$83.92 （$6.99/月）	$235.12 （$19.59/月）	$587.92 （$48.99/月）
毎月のクレジット数	15クレジット（初回のみ）	500クレジット	1,500クレジット	4,000クレジット
Relax mode			無制限	無制限
ウォーターマークなし
同時ジョブ数	1ジョブ（待機3件）	3ジョブ（待機5件）	3ジョブ（待機5件）	6ジョブ（待機10件）
20s/30sの動画生成

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

権利と運用

AIアバター動画を公開・運用するうえで注意すべき権利面を整理します。

肖像や声の扱い、商用利用時の確認ポイントを理解し、トラブルを避ける判断軸を持てるようにします。

肖像権・著作権・声の権利の基本

AIアバターでナレーション動画を運用する際は、肖像権・著作権・声の権利を正しく理解しておくことが重要です。

他人の顔写真や、特定の人物だと分かる見た目を無断でアバターに使うと、AIによる変換後であっても肖像権侵害になる可能性があります。

画像や動画素材についても、元が第三者の著作物であれば、加工や公開には権利者の許諾が必要です。

音声に関しては、合成音声であっても実在人物になりすます使い方は避け、自分自身、または使用許可を得た声だけを用いましょう。

これらを守ることで、AIアバターがしゃべる動画を安心して商用利用できます。

商用利用について

AIアバターを使ったナレーション動画を運用する前に、商用利用の前提条件を確認しておきましょう。

DomoAIでは、生成物の権利がユーザーに帰属し、顔出ししない動画作成を含むビジネス用途にも使えますが、無料枠では透かしが入り、実質的には商用利用は想定されていません。また、著作権や肖像権などを侵害しないことは自己責任となります。

お客様は、生成したコンテンツの著作権所有権を保持し、商業目的で使用することができます。ただし、かかる使用がすべての適用法、規制、および第三者の権利に準拠している場合に限ります。生成コンテンツの商業的利用が知的所有権を侵害したり、法律に違反したり、契約上の義務に違反したりしないことを確認する責任は、お客様が単独で負うものとします。
引用元：DomoAI – サービス規約

ElevenLabsでは、有料プランで初めてAIナレーションを使った収益化が可能になります。

Content generated during a paid subscription can be used commercially, indefinitely, and without attribution.
“有料プランで生成したコンテンツは、商用利用、無期限利用、帰属表示なしで使用できます。”
Content created outside of a paid subscription (before or after) cannot be used commercially and always requires attribution when shared non-commercially.
“有料サブスクリプション外で生成したコンテンツは商用利用できず、非商用で共有する場合でも帰属表示が必要です。”
引用元：ElevenLabs – Can I publish the content I generate on the platform?

AIアバター動画を商用利用するなら、出どころが明確な素材を使用し、各サービスの規約を把握したうえで安全な運用を心がけましょう。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

よくある質問（FAQ）

制作中によく発生する疑問やつまずきやすい点を、口の動きや日本語音声の違和感、コスト感など、実践時に役立つ視点から整理します。

口の動きが音声と合っていない気がします。何を確認すれば良いですか？

まずは素材側の問題を疑いましょう。チェックポイントは3つです。

画像は適切か：顔の向きや口元の解像度が不十分だと、AIが口の形を正確に生成できずズレて見えることがあります。真正面で高品質な画像か再確認してください。
音声は明瞭か：音声ファイルに雑音や不要な成分が入っていないか確認します。特にBGMや他人の声が混じっていると口パクがおかしくなります。
同期設定：リップシンク機能を使う場合、OFFだと口が動かなくなりますし、尺が長すぎると途中で口の動きが止まります。また、ごく稀に生成エラーでズレることもあるので、その場合は一度再生成するのも有効です。

出来上がった日本語音声が少し不自然です。直すにはどうすればいいですか？

不自然さの原因によって対処法が異なります。

イントネーションがおかしい場合：台本の書き方を見直します。漢字を減らしてひらがな表記にしたり、文を短く区切ったりすると改善する場合が多いです。また、ElevenLabsのボイスを変えてみるのも手です。別の日本語ボイスにすると抑揚のクセが変わり、フィットすることがあります。
発音ミスがある場合：固有名詞や略語が正しく読まれていないときは、その部分だけカタカナに直して再生成しましょう。読みをカッコ書きで入れるか、ひらがなで書き下すと確実です。
感情が足りない/合っていない場合：ElevenLabs有料版ならVoice SettingsでStabilityを下げ、抑揚を豊かにしてみてください。あるいは文章末尾に「よ。」を足す、びっくりマークを入れるなど、台本上で感情をにじませる工夫をします。また、話速が原因で平坦に聞こえることもあります。文章を区切りすぎず、適度に長短織り交ぜると緩急が付くでしょう。

動画制作を続けるとして、1本あたりや月あたりのコスト・作業量はどれくらいになりますか？

目安として、コスト面ではDomoAI Standardプラン（月約3,000円強）＋ElevenLabs Starterプラン（月約700円）に加入すれば、毎月数十本規模の短い動画まで制作可能です。

工数面では、DomoAIの直接AIアバター機能を活用すれば、音声生成と画像・動画を用意するだけで、AIアバターのナレーション動画を生成できます。

人的リソースとしては1人でも十分回せます。従来の動画制作に比べ圧倒的に省力・低コストなので、まずは少額プランから運用し、効果を見ながらプランなどを見直していくのがおすすめです。

＼ MiraLab AI限定！下記のリンクから購入で10%OFF ／

DomoAI公式サイトはこちら

＼無料プランでお試し／

ElevenLabs公式サイトはこちら