ElevenLabsの文字起こしモデル「Scribe」とは？使い方や料金と活用事例

2025年5月18日

音声データを正確かつ素早くテキスト化したい方に注目されているのが、ElevenLabsの文字起こしモデル「Scribe」です。

多言語対応・高精度な認識力を持ち、ElevenLabsのScribeは会議・セミナー・動画編集など幅広い業務で活用されています。

本記事では、Scribeの特徴・使用方法・料金・実用事例まで、わかりやすく解説します。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

ElevenLabsの「Scribe」とは？音声から文字起こしが誰でも簡単にできる

ElevenLabsが提供する「Scribe」は、AI音声合成技術を応用して開発された、高精度かつ多言語対応の音声文字起こしモデルです。

ElevenLabsについては以下の記事で解説しています。

この章では、Scribeの基本機能や精度、対応言語数といった概要に加え、音声合成技術との関係性について詳しく解説します。

Scribeとは
Scribeの強みとは？ElevenLabsの音声合成技術の魅力
ScribeはElevenLabsの「Speach to Text」から使用できる

Scribeとは

Scribeは、AI音声技術で世界的に注目を集めるElevenLabsが開発した、高精度かつ多言語対応の音声文字起こし（ASR: Automatic Speech Recognition）モデルです。

ユーザーは、音声や動画ファイルをアップロードするだけで、発話内容をテキストとして自動で抽出できます。

このツールが注目される理由は、その圧倒的な精度と対応範囲にあります。

Scribeはベンチマークテストにおいて、FLEURSおよびCommon Voiceといった標準的なデータセットを用いて、Gemini 2.0 FlashやWhisper Large V3、Deepgram Nova-3といった主要な音声認識モデルを一貫して上回る精度を記録しました。

たとえば、イタリア語では98.7%、英語では96.7%という高い単語認識精度を達成。

対応する97の言語においても、Scribeは低い単語誤り率（WER）を実現しています。

また、対応言語は実に99言語。

英語や日本語はもちろん、セルビア語、マラヤーラム語、広東語といった従来精度の出にくかった言語にも強く、グローバルな業務利用にも耐える汎用性を備えています。

Scribeの強みとは？ElevenLabsの音声合成技術の魅力

Scribeの根底にあるのは、ElevenLabsが長年磨いてきた音声合成（Text-to-Speech, TTS）技術の蓄積です。

ElevenLabsはすでに、「自然で感情豊かな音声生成」が可能なTTSモデルで業界をリードしており、その技術的資産と研究成果が、今度は「音声→テキスト」変換にも活かされています。

実際、Scribeはただの音声認識エンジンではありません。

話者の切り替わりを自動で認識する話者識別（Diarization）、咳や笑いといった非言語的な音声イベントのタグ付け、さらには単語単位でのタイムスタンプ付与といった、高度なメタデータ生成機能を備えています。

こうした高度な処理が可能なのは、音声合成を通じて培われた「言語と音の構造」に対する深い理解があるからこそです。

つまり、Scribeは「自然に話すAI」を開発してきたElevenLabsが、「正確に聞き取るAI」も創り出した成果であり、その両技術の相互作用によって、これまでにないレベルの精度と実用性を実現した文字起こしモデルなのです。

ScribeはElevenLabsの「Speach to Text」から使用できる

音声文字起こしモデル「Scribe」は、ブラウザ上で利用できるElevenLabsの公式アプリ内にある「Speech to Text」機能から利用できます。

アプリにログインし、ダッシュボード上で音声ファイルや動画ファイルをアップロードするだけで、Scribeによる文字起こしをすぐに試すことが可能です。

特別な設定は不要で、初めてのユーザーでも迷わず使える、直感的でわかりやすいUI（画面）が特徴です。

さらに、ElevenLabsは開発者向けにAPIも提供しており、Scribeの機能を自社のアプリケーションや業務システムへ柔軟に組み込むことができます。

議事録の自動生成ツールや動画編集のワークフローなどと連携させることで、業務効率の大幅な向上が期待できるでしょう。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

ElevenLabs「Scribe」の始め方

Scribeは、ブラウザ上で利用できるElevenLabs公式アプリ内で完結しており、インストールの手間なくすぐに使い始められます。

以下の手順に沿って、Scribeの文字起こし機能を体験してみましょう。

ElevenLabs公式サイトにアクセスし、「文字起こしを始める」をクリック
アカウントを作成する（Googleアカウントまたはメールアドレス）
プロフィールの基本情報を設定する
ダッシュボード画面から「Speech to Text」を選択
Scribeの使用を開始する

STEP

ElevenLabs公式サイトにアクセス

まずは、ElevenLabsの公式サイトにアクセスし、メニューから「音声テキスト変換」のページへ移動します。

STEP

「文字起こしを始める」をクリック

「音声テキスト変換」のページに入ったら「文字起こしを始める」をクリックします。

画面上の「アプリへ移動」もしくは「Speech to Text」セクションの「文字起こしを始める」ボタンをクリックしましょう。

STEP

アカウントを作成する（Googleアカウントまたはメールアドレス）

アカウント作成画面が表示されます。

Googleアカウントやメールアドレスとパスワードを使用して、新規アカウント作成をしましょう。

STEP

プロフィールの基本情報を設定する

アカウント作成後は、画面スタイル（ライト／ダーク）や生年月日などの初期設定を行います。

また、簡単なアンケート（使用目的や職種の選択）にも回答する必要があります。

STEP

ダッシュボード画面から「Speech to Text」を選択

セットアップを終えると、ElevenLabsのダッシュボードが表示されます。

画面左上のアイコンからサイドバーを開き、「Speech to Text」をクリックしてください。

STEP

Scribeの使用を開始する

「Speech to text」から、音声文字起こしモデル「Scribe」を使用できます。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

ElevenLabs「Scribe」の使い方

Scribeでは、音声ファイルをアップロードするだけで、話者識別やタイムスタンプ付きの文字起こしが数分で完了します。

この章では、実際の操作画面に沿って、音声ファイルのアップロードから文字起こしの確認・編集までの具体的な使い方を詳しく解説します。

Speech to textの基本操作
文字起こしテキストの確認方法
文字起こしテキストの編集方法

Speech to textの基本操作

Scribeモデルを使用した文字起こし機能「Speech to text」は、音声や動画ファイルのアップロードから文字起こしの完了まで、わずか数ステップで利用できます。

ここでは、ElevenLabsのダッシュボードからScribeを使い、実際に音声ファイルをアップロードして文字起こしを行うまでの基本的な操作手順をご紹介します。

Transcribed files をクリックする
音声ファイルを追加する
Upload files をクリックして、文字起こしを開始
文字起こしが完了

STEP

Transcribed files をクリックする

「Speech to text」画面の右側にある「Transcribed files」タブをクリックします。

STEP

音声ファイルを追加する

「Transcribed files」画面の上部にある枠内をクリックして音声ファイルを選択するか、ファイルをそのままドラッグ＆ドロップして追加します。

また、必要に応じて言語やタグの設定を行いましょう。

「Primary language」は音声の言語を指定する項目です。

初期設定の「Detect（自動検出）」でも高い精度で認識されるため、特に指定がない場合はそのままでも問題ありません。

「Tag audio events」を有効にすると、笑い声、足音、拍手などの非言語的な音声イベントも自動でタグ付けされ、文字起こし結果に反映されます。

STEP

Upload files をクリックして、文字起こしを開始

必要な設定が完了したら、「Upload files」ボタンをクリックしましょう。

アップロードが始まり、すぐに文字起こしのプロセスが自動的にスタートします。

STEP

文字起こしが完了

音声ファイルの長さにもよりますが、通常は数十秒〜数分以内に文字起こしが完了します。

完了した文字起こしデータは、「Speech to text」セクション内で一覧表示され、すぐに確認できます。

文字起こしテキストの確認方法

Scribeで音声ファイルのアップロードと処理が完了すると、「Speech to text」セクション内の一覧に、文字起こし済みのファイルが表示されます。

確認したいファイルを選んでクリックすると、文字起こし結果が確認可能です。

話し手の切り替わりは自動で識別されており、「Speaker 1」「Speaker 2」など、発話者ごとに色分けまたはラベル分けされています。

さらに、各発言にはタイムスタンプが付与されており、いつ話された内容なのかを一目で把握できます。

加えて便利なのは、文字起こしテキストの任意の箇所をタップすると、その部分の音声が再生される機能です。

これにより、特定の発言だけを聞き直したり、確認したい部分だけをすばやくチェックすることができます。

文字起こしテキストの編集方法

文字起こしの修正や整理をするときは、文字起こし画面左上にある「View / Edit」の「Edit」タブをクリックすると、テキスト編集モードに切り替わります。

画面上の各行には鉛筆アイコンが表示されており、このアイコンを押すことで、その行のテキスト内容を自由に編集可能です。

編集は非常に直感的で、ブラウザ上で直接文字を打ち替える形で操作できます。

誤認識された単語を修正したり、必要に応じて行ごと削除することも可能です。

逆に、新たな発話として行を追加することもできるため、実際の会話の流れに応じた柔軟な調整ができます。

＼無料プランでお試し／

ElevenLabs公式サイトはこちら

ElevenLabsの料金プラン！無料プランや商用利用の可否も確認

Scribeを利用できるElevenLabsの料金プランは、無料からエンタープライズまで幅広く用意されており、利用目的に応じて選択可能です。

この章では、個人向け・法人向けの各プランの特徴や商用ライセンスの有無、APIの利用可否などを徹底比較します。

個人向け料金プラン
法人向け料金プラン
API料金

個人向け料金プラン

ElevenLabsでは、音声合成や文字起こしツール「Scribe」を手軽に体験できるよう、個人ユーザー向けに4種類の料金プランを提供しています。

いずれのプランも月間クレジット制を採用しており、音声生成や文字起こしを利用するごとにクレジットが消費される仕組みです。

スクロールできます

プラン名	月額料金	月間クレジット	商用利用	主な特徴
無料	$0	10,000	×	テスト利用向け API利用可 Scribe対応
スターター	$5	30,000	○	商用ライセンス付き
クリエイター	$22 ※初月50%オフ	100,000	○	追加クレジット請求可
プロ	$99	500,000	○	–

いずれのプランでも、Scribeによる文字起こしが利用可能です。

最も手軽に始められるのは「無料プラン」で、月間10,000クレジットが付与されます。

APIアクセスにも対応していますが、商用ライセンスは含まれておらず、営利目的での利用はできません。

月額5ドルの「スタータープラン」では、商用ライセンスが付与されるほか、月間30,000クレジットが使用できます。

その上位にあたる「クリエイタープラン」は月額22ドルで100,000クレジット、最上位の「プロプラン」では月額99ドルで500,000クレジットが付与され、大規模な用途に対応しています。

なお、各プランにはScribeを使用できる時間があらかじめ設定されており、クリエイタープラン以上では追加クレジットの購入も可能です。

スクロールできます

プラン名	利用できる時間	追加料金（1時間あたり）
無料	12分	–
スターター	1時間	–
クリエイター	4時間53分	$4.5
プロ	24時間45分	$4

プランが上がるほど、1時間あたりのコストは抑えられる設計となっています。

法人向け料金プラン

ElevenLabsでは、複数人でのコンテンツ制作や大規模な文字起こしニーズに対応するため、法人向けにスケール、ビジネス、エンタープライズの3つのプランが用意されています。

どのプランも商用利用が前提であり、月間の利用可能クレジットや機能、シート数（ユーザー数）などが段階的に拡張されていく設計です。

スクロールできます

プラン名	月額料金	月間クレジット	シート数	商用利用	主な特徴
スケール	$330	2,000,000	3人	○	ワークスペース
ビジネス	$1,320	11,000,000	5人	○	より低コストの追加クレジット
エンタープライズ	カスタム価格	カスタム	カスタム	○	DPA/SLAsに関する保証医療向け契約ログイン管理専用制作ツール優先サポート

「スケールプラン」は、スタートアップや小規模な制作チーム向けの法人向けプランで、月額料金は330ドルです。

2M（2万）クレジットに加え、チームで利用できるワークスペースと3シート（ユーザー数）が含まれます。

その上位にあたる「ビジネスプラン」は、より本格的な業務利用や中規模以上の組織に適しており、月額1,320ドルで提供され、11Mクレジットと最大5シートが付与されています。

両プランともクレジットが足りない場合は、追加購入可能です。

スクロールできます

プラン名	利用できる時間	追加料金（1時間あたり）
スケール	94時間17分	$3.5
ビジネス	440時間	$3

最上位の「エンタープライズプラン」では、料金・クレジット数・シート数などを企業ごとにカスタマイズ可能です。

このプランでは、DPA（データ処理契約）やSLA（サービス品質契約）の締結に対応し、HIPAA準拠の医療用途での利用も可能となります。

また、SSO（シングルサインオン）による社内の認証システムとの連携や、無制限の同時実行機能も提供されます。

法人での導入を検討する場合は、まずスケールプランから始め、業務の規模やニーズに応じてビジネスプランやエンタープライズプランへ段階的に移行していくのがいいでしょう。

API料金

ElevenLabsのAPIを使うと、文字起こしや音声合成といったAI機能を、自社プロダクトやサービスに組み込むことができます。

基本的には、個人・法人向けプランに含まれる「利用時間」の範囲内でAPIを利用できます。

ただし、クリエイタープラン以上では、利用量が増えた場合は追加料金で対応可能です。

スクロールできます

プラン名	月額料金	API利用可能時間	商用利用	追加料金 ※1時間あたり	特徴
無料	$0	2時間30分	×	–	帰属表示が必要 TTS/STTなどのAPI
スターター	$5	12時間30分	○	–	商用ライセンス付き
クリエイター	$22 ※初月50%オフ	62時間51分	○	$0.48	追加料金によるAPI購入
プロ	$99	300時間	○	$0.40	出力高精度プロダクション向け
スケール	$330	1,100時間	○	$0.33	マルチユーザー／制作チーム向け
ビジネス	$1,320	6,000時間	○	$0.22	大規模開発・エンタープライズ導入向け