Claude 3.5 Sonnetは、Anthropic社が開発した高度なAIモデルで、日本語生成に強みを持つ大規模言語モデル(LLM)です。
しかし、Claude 3.5 Sonnetは、文字起こしには対応しておらず、音声や動画データには制約があります。
本記事では、Claude 3.5 Sonnetが音声認識に不向きな理由や、WhisperやGeminiなど他のAIツールとの比較、さらにPLAID NOTEプロプランを活用した裏技も紹介します。
Claude 3.5 Sonnetで文字起こしができない理由
Claude 3.5 Sonnetは、Anthropic社によって開発されたAIモデルで、LLM(大規模言語モデル)の一つです。
特に日本語の生成において非常に高い精度を誇っていますが、音声や動画の入力や出力に関してはいくつかの制約があります。
理由①:最大処理トークン数が20万
Claude 3.5 Sonnetは、1回の処理で扱えるトークン数が20万までに制限されています。
トークンの仕組み上、テキストの単語やスペース、記号なども含めてトークンとして数えられるため、長時間の音声データなどは、膨大な数のトークンに変換されます。
そのため、すぐにトークンの上限に達してしまいます。
音声データがトークン数の上限を超えてしまうと、データを途中で切断して処理せざるを得なくなり、結果として正確な文字起こしが難しくなるのです。
つまり、Claude 3.5 Sonnetは、長時間の音声データや大量のテキストを扱うには不向きだと言えます。
理由②:動画や音声ファイルをアップロードできない
もう一つの大きな制約は、音声や動画ファイルを直接アップロードできない点です。
そもそもClaude 3.5 Sonnetは、音声認識やリアルタイム解析には対応していません。
- 音声や動画を直接テキストに変換することができない
- テキストデータを処理するためのツールで音声データは扱えない
音声ファイルの処理を前提としていないため、文字起こしにはClaude 3.5 Sonnet以外のAIを活用する必要があります。
文字起こしはWhisperかGeminiを使おう
音声や動画データの文字起こしには、WhisperやGeminiが有効です。
Whisperは音声認識に特化しており、音声を正確にテキスト化することが得意です。
一方、GeminiはマルチモーダルAIとして、多様なデータ形式を扱うことができるため、より広範なタスクに対応しています。
WhisperやGeminiの特徴を表でまとめました。
特徴 | Whisper | Gemini |
---|---|---|
主な機能 | 音声認識に特化し、高速かつ正確に音声をテキストに変換する能力に優れる | マルチモーダル生成AIで、テキスト、画像、音声、動画を理解・処理可能 |
モデルの特性 | 音声データの処理に特化 | テキスト、画像、音声、動画など多様なデータを同時に扱う |
応用分野 | 音声文字起こし、議事録作成など | 文章生成、翻訳、コード生成、画像認識など多岐にわたる |
利用可能なプラットフォーム | 主に音声認識ツールやアプリケーションで使用 | GeminiウェブアプリやPixel 8などで利用可能 |
Whisperで文字起こしをするメリットデメリット
「Whisper」はOpenAIが開発した音声認識専用モデルのため、高精度な文字起こしが可能です。
ノイズやアクセントに強く、話し言葉も正確にテキスト化するため、会議やインタビューなど、さまざまなシーンで活用できます。
また、Whisper自体は無料で利用できる点も非常に嬉しいポイントです。
しかしWhisperは、ChatGPTやClaude 3.5 Sonnetのようにログインすればすぐに使えるようなUIは持っておらず、Google ColabのようなPythonが実行できる環境を用意し、環境構築を行う必要があります。
環境構築はある程度の知識がないと難しいため、この部分にハードルを感じてしまう人も多いようです。
以下の記事ではWhisperを構築方法を詳しく解説していますので、興味がある方は挑戦してみてはいかがでしょうか。
Geminiで文字起こしをするメリットデメリット
GeminiはGoogleが開発した生成AIです。
Claude 3.5 Sonnetの上限トークン数が20万で、音声ファイルのアップロードに対応していないと紹介しましたが、Geminiは200万トークンの入力に対応しており、マルチモーダルのため音声や映像ファイルのアップロードにも対応しています。
そのため、会議のような音声ファイルであれば余裕で文字起こしをすることが可能です。
デメリットとしては、通常のGeminiではなく開発者向けプラットフォームで使う必要がある点です。
通常のGeminiだと、無料プランで使う方法とGemini Advancedという有料プランに加入する方法があります。
無料プランの場合は、最大32,000トークンしか対応しておらず、Gemini Advancedという有料プランに加入しても100万トークンまでしか対応しておりません。
これとは別に、Google AI Studioという開発者向けプラットフォーム経由で使う方法があるのですが、こちらだと200万トークンの入力に対応しています。
Google AI StudioでのGeminiの導入方法や各料金プランの細かい機能の違いなどは以下の記事で詳しく解説していますので、Geminiでの文字起こしに挑戦したい方は参考にしてみてください。
Claude 3.5 Sonnetを使って文字起こしをする裏技
Claude 3.5 Sonnetを利用しているユーザーの中には、「すでにGeminiなども使っているが、日本語に強いClaude 3.5 Sonnetの生成する文章が特に好きだ」という人が多くいます。
そんな方におすすめなのが、PLAUD NOTEを使うという方法です。
PLAUD NOTEは、AIが搭載されたボイスレコーダーで、ボタンを押すだけで録音をすることができ、数十秒という時間で文字起こしから議事録の作成までをすべて自動で行ってくれるアイテムです。
ボイスレコーダーですので、オンラインでの会議ではなくどちらかというと対面での会議やインタビューが多い方におすすめのツールとなっています。
PLAUD NOTEに内蔵されている生成AIは標準だとChatGPTなのですが、実はプロプランを契約するとClaude 3.5 SonnetをLLMとして選択することができます。
Claude自体にトークン数の制限があったり、そもそも音声データのアップができなかったりと、文字起こしをするのは不可能なのですが、PLAUD NOTEを経由すればClaude 3.5 Sonnetでの文字起こしが実現します。
これはClaude愛用のユーザーなら非常に嬉しいポイントなのではないでしょうか。
PLAUD NOTEの使い心地やメリット・デメリットなどは以下の記事で詳しくレビューしています。
プランの価格や本体の価格、購入方法などは以下の記事でまとめています。
まとめ
Claude 3.5 Sonnetは、生成において優れたAIですが、文字起こしには制約があります。
他のAIツール、WhisperやGeminiを使うのが現時点での最良の選択です。
ただし、既にClaude 3.5 Sonnetを利用している方には、PLAID NOTEを活用する裏技もおすすめです。
自分のニーズに合った方法を選んで、AIの力を最大限活用しましょう。