ElevenLabsとは?使い方と料金や日本語対応について!商用利用や再翻訳も紹介

ElevenLabs(イレブンラボ)は、AIを活用した最先端の音声合成プラットフォームです。

日本語を含む多言語にも対応しており、自然な抑揚のある音声を生成できることが特徴です。テキストの読み上げから音声変換、再翻訳まで幅広い使い方ができ、商用利用にも対応しています。

本記事では、ElevenLabsの基本的な使い方から料金プランまで詳しく解説します。

\ 無料プランでお試し /

目次

ElevenLabs(イレブンラボ)は日本語にも対応しているの?概要と特徴

ElevenLabsは、日本語を含む多言語の音声生成に対応したAI音声サービスです。テキスト読み上げ・音声変換・音声クローン・吹き替え・文字起こしまで1つのサービス内で扱えます。

また、ElevenLabsにはEleven Musicという音楽生成機能もあり、テキスト指示から音楽を生成することができます。

あわせて読みたい
Eleven Musicとは?使い方と料金!音楽生成AI初の完全商用利用可能モデル 最近発表されたEleven Musicとはどんなツール? そんな疑問に答えつつ、Eleven Musicの使い方から料金、商用利用の条件までを整理しました。 各プランの違いや注意点、生成楽曲を安全に活用するための手順やチェックポイントも解説。動画制作や広告音楽など幅広い場面で役立つ情報をまとめています。

選べる音声データの種類が豊富

ElevenLabsでは、プリセット音声の中から声を選ぶだけでなく、用途に合わせて音声モデルも選べます。

用途ごとのモデルの使い分けは次のとおりです。

  • Eleven v3:日本語の感情表現やセリフの演技感を重視するとき
  • Eleven Multilingual v2:複数言語で生成したいとき
  • Eleven Flash v2.5:短い音声をすばやく何本も生成したいとき

音声ライブラリには10,000以上の音声があり、落ち着いたナレーション向きの声、会話向きの声、キャラクター寄りの声まで選択できます。

動画ナレーション、会話音声、海外向け吹き替えなど、目的に合った音声を使い分けることができます。

音声生成が高速

ElevenLabsは、テキストを入力してから音声生成までがとても速く、修正して再生成もしやすいです。

特にEleven Flash v2.5は低遅延を重視したモデルで、リアルタイム用途や短い音声の試作に向いています。2026年2月にはアップデートが行われ多言語でさらにスピードアップが図られています。

GPUのアップグレードと推論スタックの最適化により、Flash v2.5はモデルのTTFBが50msを実現。さらにネットワークルーティングの改善で、体感遅延が大幅に短縮されます。多くの海外デベロッパーにとって、体感遅延が20~40%短縮されます。

出典:ElevenLabs

広告用の短い音声をいくつか作る、動画冒頭のナレーションを言い回しだけ変えるなどの作業におすすめです。

動画内の音声を手軽に差し替え

ElevenLabsでは、動画や音声素材の音声を別の言語や声に変更できます。

日本語の動画を英語に吹き替えたり、既存ナレーションの声だけを変更することが可能です。

ダビング機能では、元の話者の声の特徴を保ったまま別言語へ吹き替えることもできます。解説・講義・商品紹介といったタイプの動画を複数言語で出したいときに使いやすいです。

高精度なノイズ除去機能でクリアな音質を実現

ボイスアイソレーターを使うと、周囲の雑音やBGMなどのノイズを除去して、人物の声がクリアで聞き取りやすい音声を生成します。インタビュー音声、会議音声、屋外録音のように雑音が入りやすい素材から、声をはっきりさせたいときに有効です。

特に、音声を文字起こしする前の下準備・動画の字幕作成・吹き替え前の音声の整理のような作業で役立ちます。

自然なイントネーションと抑揚を自動調整

ElevenLabsは、テキストの文脈に合わせて自動で抑揚を付けます。疑問文・案内文・感情を含むセリフでも、人間らしい話し方が再現でき、単調になりにくいです。

さらにオーディオタグを使うと、ため息・笑い・興奮・ささやきのような表現をテキストで指定できます。セリフに感情を付けたいときや、会話音声の温度感を細かく調整したいときに便利です。

日本語を含む多言語に対応

ElevenLabsは日本語だけでなく多言語への対応が強みです。

モデルによって以下のように言語数が異なります。

  • Eleven v3 :70言語以上
  • Eleven Multilingual v2:29言語
  • Eleven Flash v2.5:32言語

日本語の動画を複数言語に吹き替えたいときや、海外向けナレーションをまとめて作りたいときでも、1つのサービスで完結できます。

高精度かつ多言語での音声文字起こしも可能

音声や動画をテキスト化する文字起こし機能にもElevenLabsは対応しています。

Scribe v2 Realtimeは、150ms未満の低遅延で動作する自動音声認識モデルです。日本語を含む90以上の言語に対応し、会議の同時字幕やライブ配信のリアルタイム字幕など、速度と精度が求められる場面で使えます。ヨーロッパおよびアジアの主要30言語では93.5%の文字起こし精度を達成しています。

Scribe v2は、録音済みの長尺音声や動画をあとからまとめて文字起こしする用途向けです。長く複雑な録音に最適化されており、複数人の話者やアクセントの違いが混ざる音声でも高精度で処理できます。

Scribe v2では、次のような情報を含む整理された文字起こしデータを出力できます。

  • 話者識別
  • 単語レベルのタイムスタンプ
  • 音響イベントのタグ付け

会議の議事録、インタビューの書き起こし、ライブ配信の字幕、動画の字幕ファイル作成に特に役立つ機能です。

あわせて読みたい
ElevenLabsの文字起こしモデル「Scribe」とは?使い方や料金と活用事例 音声データを正確かつ素早くテキスト化したい方に注目されているのが、ElevenLabsの文字起こしモデル「Scribe」です。 多言語対応・高精度な認識力を持ち、ElevenLabsのScribeは会議・セミナー・動画編集など幅広い業務で活用されています。 本記事では、Scribeの特徴・使用方法・料金・実用事例まで、わかりやすく解説します。

\ 無料プランでお試し /

ElevenLabsの最新アップデート動向

現在のElevenLabsは、音声読み上げだけでなく、音声対話、文字起こし、吹き替え、映像制作といったマルチ機能を扱えるサービスとして広がりを見せています。特に、音声エージェント、リアルタイム文字起こし、映像生成の強化が大きな変化です。

ElevenLabs Agentsと11.ai:音声エージェント機能が追加

ElevenLabs Agentsは、音声で受け答えするAIエージェントをユーザーが構築できる機能です。FAQ対応・予約受付・サポート窓口・電話応答のような、決められたルールで質問に答えたり、必要な情報を検索したりする用途で使えます。

11.aiはユーザー個人のライフスタイルに寄り添う「パーソナルAI音声アシスタント」です。最大の特徴は、外部サービスとの強力な連携機能にあります。Gmail、Googleカレンダー、Notion、Perplexityなどと接続することで、音声対話のみで「メールの要約」「スケジュールの確認」「メモの作成」といった具体的なアクションが実行可能です。

11.ai では、音声で質問している間に情報を検索する、会話の流れに沿って処理を進める、といった使い方ができます。

Scribe v2:文字起こし機能の新しいアップデート

Scribe v2では2026年4月にアップデートが行われ、文字起こし後に文章を整えたり、個人情報への配慮を進めたりしやすい4つの機能が追加されました。

エンティティ自動マスキングでは、氏名、クレジットカード番号、社会保障番号などの機密情報を文字起こし時点で自動的に伏せられます。[REDACTED] のように一括で隠す方法だけでなく、[CREDIT_CARD] や [CREDIT_CARD_1] のように種類つきで置き換える方法にも対応しており、医療、金融、カスタマーサポートのように個人情報を扱う場面で使いやすくなっています。

インド系英語のコードスイッチング対応 では、ヒンディー語、テルグ語、カンナダ語などの会話の中に英語が混ざる音声でも、英語部分を英字のまま正しく書き起こせるようになりました。言語コードを細かく設定しなくても自動で処理できるため、英語と現地語が混ざる会議音声やサポート通話でも、実際の話し方に近い形で文字起こししやすくなっています。

ノーバーバティムモードは、”えー” や “あー” のようなフィラー、言い直し、どもりを自動で取り除き、読みやすい文章に整える機能です。会議メモ、字幕、共有用の議事録のように、逐語録よりもそのまま読みやすい文字起こしにすることができます。

キータームプロンプトは、文字起こし時に正しく拾いたい固有名詞や専門用語を事前に指定する機能で、今回の更新で上限が100件から1,000件に増えました。製品名、技術用語、商品カタログ名が多い会議やインタビューでも、専門用語の誤変換を抑えやすくなっています。なお、100件を超えるキータームを使う場合は、最小課金単位が20秒になります。

あわせて読みたい
ElevenLabsのScribe v2とは?使い方と料金!Scribe v2 Realtimeとの違いは? ElevenLabsのScribe v2とは、高精度な文字起こしが可能なバッチ処理専用モデルです。 音声や動画のファイルからの文字起こしができ、議事録作成や字幕生成などを効率的に行えるようになります。 この記事では、Scribe v2の使い方や料金プラン、Scribe v2 Realtimeとの主な違いについて解説します。

画像&ビデオ/ダビング:音声と映像をまとめて扱える

画像&ビデオは、現在はベータ版の機能です。テキスト指示や参照画像から画像や動画を生成するだけでなく、アップスケールやリップシンクも対応しています。

画像生成では、参照画像をもとに元の構図や雰囲気を活かした出力も可能です。生成した素材はそのままStudioに取り込み、ナレーションや吹き替えと組み合わせて使えます。無料プランで使えるのは画像生成のみで、1日3回までです。動画生成は有料プランで利用できます。

ダビングでは、翻訳音声を生成するだけでなく、元の話者の感情、話す速さ、声の特徴を保ったまま別言語へ置き換えられる点が特徴です。BGMや環境音を残したまま音声だけ差し替えたり、書き起こしや翻訳文を手動で調整したりもできます。

対応言語数は32言語に吹き替えることが可能です。ファイル容量は最大1GB、45分までのファイルを扱えます。APIでは自動ダビングが最大1GB・2.5時間まで、Dubbing Studio経由は45分まで対応しています。

アイコニックボイス:著名人ボイスの正規ライセンス提供

アイコニックボイスは、著名人の声を公式ライセンスで利用できるマーケットプレイスです。

従来問題になりやすかった「声の権利」をクリアしており、企業やクリエイターがで著名人ボイスを正式に許可を受けて使える点が強みです。ただし、利用には申請と審査が必要です。使いたい声を選んで申請し、権利者の承認を得られた場合に限り、ライセンス契約へ進めます。

出典:ElevenLabs

広告や商用案件でも、使える条件を確認しながら進めやすくなります。

あわせて読みたい
【AI音声で再現】ElevenLabsのIconic Marketplaceとは?有名人や偉人の声の作り方 CMや動画制作で有名人の声をAIで活用したいものの、権利侵害のリスクで導入を諦めていませんか? ElevenLabsのIconic Marketplaceなら、正式な契約の下で有名人や偉人の声を再現し、商用利用が可能です。 一般的なAI音声での有名人の作り方とは一線を画す、企業が安全に導入するための申請フローと権利の仕組みを解説します。

ElevenLabs Japan G.K.の設立と日本向け展開

ElevenLabsは2025年4月14日に日本法人「ElevenLabs Japan G.K.」を設立し、日本市場向けの展開を加速しています。日本語音声モデルの改善、DOCOMO Innovations(NTTドコモグループのR&D拠点)やTBSなどの国内企業との提携、サポート体制の強化など、日本語ユーザーに最適化された環境づくりが進められています。

これらの取り組みによって、日本語特有のイントネーションや文脈理解が改善し、感情のニュアンスを表現できるようになります。ビジネス用途からクリエイティブ制作まで、国内ユーザーが利用しやすい形での機能が充実するでしょう。

\ 無料プランでお試し /

ElevenLabsの料金プランと商用利用について

ElevenLabsは、個人利用から企業利用まで、ニーズに応じて選べる複数の料金プランを提供しています。

以下で各プランの詳細と商用利用の条件を見ていきましょう。

ElevenLabsの料金プラン比較表

ElevenCreative、ElevenAgents、ElevenAPIで料金プランは違いますが、個人利用で使うことが多いElevenCreativeの料金を確認しましょう。

プラン月額料金月間クレジットテキスト読み上げの目安
無料$010,000約10分
スターター$630,000約30分
クリエイター$22121,000約121分
プロ$99600,000約600分
スケール$2991,800,000約1,800分
ビジネス$9906,000,000約6,000分
エンタープライズカスタム価格カスタムカスタム

無料でも、テキスト読み上げ、スピーチtoテキスト、サウンドエフェクト、ボイスデザイン、音楽、画像&ビデオは試せます。

無料プランと有料プランの違い!商用利用は有料が必須

無料プランは、商用ライセンスが含まれておらず営利目的での使用はできません。また、無料で公開する場合には生成元がElevenLabsであることを表示する必要があります。

無料プランには商用ライセンスは含まれておらず、いかなる商用目的でもご利用いただけません。無料プラン、またはアカウントにサインインせずに本サービスを利用して作成したコンテンツを公開する場合は、タイトルに「elevenlabs.io」または「11.ai」を含めることで、ElevenLabsへの帰属を明記してください。

出典:ElevenLabsヘルプ

テキスト読み上げでは、生成する文字数に応じてクレジットが消費され、使用するモデルによってコストが異なります。V1 English、V1 Multilingual、V2 Multilingualでは1文字=1クレジットです。

一方、V2 Flash/Turbo EnglishとV2.5 Flash/Turbo Multilingualでは割引価格が適用され、サブスクリプションプランに応じて1文字あたり0.5〜1クレジットで利用できます。

クローンボイスという音声AI技術を活用して生成できる音声クローンの機能は、無料プランでは利用できません。

一方、有料プランでは、ベータ版サービスではないこと、使う音声や素材について必要な許可を得ていて、法律・利用規約・禁止事項ポリシーに違反しない内容であることを条件に商用利用が可能です。

Terms of Service and Prohibited Use Policy, you may use it commercially. Attribution requirement is subject to the agreement you have with ElevenLabs. For full details, refer to our Terms of Service.

訳:有料プランには、ベータサービスをご利用でない限り、商用ライセンスが含まれています。生成したコンテンツに必要な知的財産権を保有し、適用法、利用規約、および禁止事項ポリシーを遵守している限り、商用利用が可能です。

出典:ElevenLabsヘルプ

さらに、ボイスクローンはスタータープラン以上、ダビングはクリエイタープラン以上で使えるため、案件用ナレーション、複数言語への吹き替えをしたい場合は有料プランへの加入が必須です。

あわせて読みたい
ElevenLabs(イレブンラボ)で自分の声を使って収益化する方法 自分の声でAI音声を作成できるサービス「ElevenLabs(イレブンラボ)」では、作成した音声を収益化することができます。 本記事では、ElevenLabsで自分の声を使って収益化する2つの方法と、具体的な収益化のステップ、収益の仕組み、安全性について詳しく解説します。 AI音声で収益を得たい方は、ぜひ参考にしてください。

\ 無料プランでお試し /

ElevenLabsの始め方

ElevenLabsは、ブラウザとスマホアプリの両方から使い始められます。登録が完了すると、Text to Speechなどの主要機能をすぐ試せます。手順を見ていきましょう。

ブラウザ版の登録方法

ブラウザ版では、公式サイトからアカウントを作成し、ログインするとワークスペースへ入れます。

STEP

アカウント登録

ElevenLabs公式サイトにアクセスし、「サインアップ」をクリックします。

STEP

アカウントを作成

表示された画面にメールアドレスとパスワードを入力、もしくはGoogleアカウントでの登録も可能です。

メール認証の場合は、登録後に届いたメール内のリンクをクリックして認証を完了させてください。

STEP

初回の質問への回答

サインインが正しく行われると、以下3枚の画像のような質問が表示されます。入力して次に進んでください。スキップも可能です。

STEP

ダッシュボードへアクセス

自動的にダッシュボードに移動します。

\ 無料プランでお試し /

スマホアプリの登録方法

スマホアプリ版でも主な機能を使用することができます。

STEP

アプリをインストールし、アカウント登録をする

Elevenlabs公式アプリiOSAndroidをインストールし、アカウント登録をします。

STEP

初回質問への回答

サインインが正しく行われると、「18歳以上か」と「Elevenlabsをどこで知ったか」を質問されます。

「Elevenlabsをどこで知ったか」はスキップも可能です。

STEP

ホーム画面が表示される

質問の回答が終わると自動的にホーム画面が表示されます。右上のアイコンをクリックするとアカウント情報が見れます。

\ 無料プランでお試し /

ElevenLabsの使い方

ElevenLabsで最初に触る人が多いのは、5つの主要機能です。

ここでは、テキスト読み上げ、ボイスチェンジャー、サウンドエフェクト、インスタントボイスクローン、ボイスアイソレーターを中心に整理します。

テキスト読み上げ

テキスト読み上げは、入力した文章を音声に変換する機能です。

YouTubeナレーション、解説動画、案内音声、広告音声、セリフ作成などに使えます。複数モデルに対応しており、感情表現を強めた読み上げや、複数話者の対話音声にも対応しています。

STEP

メニューの選択

左のメニューから「テキスト読み上げ」を選択します。

STEP

音声設定

テキスト入力画面の右側のサイドバーから、読み上げる際の音声を選択します。

STEP

その他設定

速度や声の安定性(0-1の間で調整)などを設定します。新しいバージョン(v3)では、設定項目が一部異なります。

STEP

テキスト入力と生成

テキストボックスに読み上げたい文章を入力し、「音声を生成」ボタンをクリック。

STEP

音声の確認と保存

生成された音声を再生して確認してください。

ダウンロードボタンからMP3形式でダウンロードも可能です。

STEP

mp4形式のビデオ作成

mp4形式のビデオを生成できるようになりました。「共有」ボタンから字幕付きのビデオが生成されます。

実際に生成した読み上げの音声とビデオです。

ボイスチェンジャー

Voice Changer は、録音済みの音声を別の声へ変換する機能です。

仮ナレーションの声を変えたり、同じ内容を違う声で出し直したりできます。収録し直さずに声だけ変えたいときに使いやすい機能です。

STEP

元音声のアップロード

左のメニューから「ボイスチェンジャー」を選択し、変換したい音声をアップロードもしくは音声を録音します。

STEP

変換設定

変換後の声を選択し、音声の特性を調整します。

STEP

変換実行

「音声を生成」ボタンをクリックし、変換を実行します。

変換された音声を確認し、問題なければダウンロードしてください。

実際にテキスト読み上げで生成した音声を別の声に変換してみました。話し方の特徴はそのままで、男性の声から女性の声に変更されています。

  • 変換前
  • 変換後

\ 無料プランでお試し /

サウンドエフェクト(テキストからサウンド効果を生成)

サウンドエフェクトは、テキスト指示から効果音を生成する機能です。

環境音、動作音、演出用の短いサウンドなどを文章から作れます。動画編集や短尺コンテンツで、既製の効果音では足りない音を作りたいときに使えます。

STEP

「サウンドエフェクト」を選択

左メニューから「サウンドエフェクト」を選択します。定義済みの効果音カテゴリーから効果音を選択します。

STEP

生成する効果音を入力する

上部に表示されているサンプルを選択するか、テキスト入力でどんな効果音を生成したいかを説明します。

入力が終わったら「↑」を選択し音声を生成します。

STEP

ダウンロードする効果音を選択

テキストに見合った効果音の候補が表示されます。ひとつずつ確認し、気に入ったものをダウンロードしましょう。

実際にサウンドエフェクトを作成しました。日本語ではうまく生成できなかったため英語に翻訳し文章を2分割して別々に生成しています。プロンプトと出力されたエフェクトです。

The office is filled with constant phone calls and conversations.

The sound of computer keyboards typing can also be heard.

インスタントボイスクローン

Instant Voice Clone は、用意した音声サンプルをもとに、その声に近い読み上げ音声を作る機能です。スターター以上のプランで利用できます。

自分や許諾のある相手の声をもとに使用して音声を生成し読み上げることが可能です。

STEP

サンプル音声の準備

左メニュー「Voices」から「Instant Voice Clone」を選択します。

STEP

元になる音声をアップロード

クローンしたい音声をアップロードし「Next」をクリックします。

STEP

音声情報を入力

言語や性別、言葉のアクセントなど、音声情報を入力します。

入力できたら「Save voice」を選択しましょう。

STEP

Text to Speechで利用可能

生成したクローン音声は、Text to Speechで利用できるようになります。

\ 無料プランでお試し /

ボイスアイソレーター(クリアな音声を抽出)

ボイスアイソレーターは、録音データからノイズを除去して、人の声を聞き取りやすくする機能です。

雑音の多い録音や、BGMが入った音声から声をクリアにしたいときに使えます。会議録音の整理、インタビューの文字起こし前処理、吹き替え前の音声整形でも使いやすい機能です。

STEP

「ボイスアイソレーター」を選択

左メニューから「ボイスアイソレーター」を選択し、音声をアップロードするか録音をします。

STEP

生成開始

ファイルのアップロードが完了したら、「↑」を選択します。

STEP

ダウンロード

再生ボタンで音声を確認し、 問題なければダウンロードボタンから音声をダウンロードします。

実際に使用した変換前と後の音声です。背景音が削除されて声がクリアになっているのがわかります。

  • 変換前
  • 変換後

スマホアプリの使い方(Text to Speech)

スマホアプリでは、短い文章をその場で音声化できます。

移動中にセリフを試す、簡単なナレーションを確認する、読み上げ結果をすぐ聞き直すといった使い方がしやすいです。

STEP

テキストを入力し、設定する

生成したいテキストを入力し、出力する音声やスピードなどを設定します。

ブラウザ版と同じアカウントを使用すれば、インスタントボイスクローンで生成した音声を使用することもできます。

設定が完了したら「Generate」をクリックして生成しましょう。

STEP

ダウンロード

生成した音声を確認してダウンロードしましょう。

\ 無料プランでお試し /

ElevenLabsで再翻訳する方法

ElevenLabsでは、吹き替え機能を使って動画や音声を別の言語へ吹き替えできます。

日本語の動画を英語へ吹き替えたり、英語音声を日本語へ直したりできます。

さらに、吹き替え済みの音声を別の言語へ展開していけば、1本の動画から複数言語版を作れます。

STEP

吹き替えメニューを開く

左のメニューから「吹き替え」を選択し「ダビングを作成」を選択します。

STEP

一次翻訳を生成

元のデータをアップロードして吹き替える言語を選択します。

音声データだけではなくYouTubeやTikTokのリンクを入力し、吹き替え動画を作成することも可能です。

設定が完了したら「吹き替えを作成」を選択しましょう。

STEP

生成データをダウンロード

生成された音声を再生して確認しダウンロードしましょう。

STEP

二次翻訳の生成

Create a Dub」から一次翻訳のデータをアップロードし、二次翻訳のデータを生成します。

\ 無料プランでお試し /

まとめ

ElevenLabsは、文章を音声に変えるだけでなく、声の変更、音声クローン、ノイズ除去、文字起こし、動画の吹き替えまでまとめて扱えるサービスです。

日本語対応に加えて、Eleven v3、Multilingual v2、Flash v2.5 のようにモデルも選べるため、用途に応じて使い分けやすくなっています。

無料プランでも読み上げの使用感は試せますが、仕事、収益化動画、案件用ナレーション、音声クローン、ダビングまで使うなら有料プランを検討してください。

\ 無料プランでお試し /

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次