Claude 3.5 Sonnetは文字起こしができない!可能にする裏技を紹介

Claude 3.5 Sonnetは、Anthropic社が開発した高度なAIモデルで、日本語生成に強みを持つ大規模言語モデル(LLM)です。

しかし、Claude 3.5 Sonnetは、文字起こしには対応しておらず、音声や動画データには制約があります。

本記事では、Claude 3.5 Sonnetが音声認識に不向きな理由や、WhisperやGeminiなど他のAIツールとの比較、さらにPLAID NOTEプロプランを活用した裏技も紹介します。

目次

Claude 3.5 Sonnetで文字起こしができない理由

Claude 3.5 Sonnetの音声と動画の文字起こしにおける制約を示すシンプルな図。AIモデルの中央に、音声と動画アイコンに赤いバツ印が重ねられ、'20万トークン制限'が表示されている

Claude 3.5 Sonnetは、Anthropic社によって開発されたAIモデルで、LLM(大規模言語モデル)の一つです。

特に日本語の生成において非常に高い精度を誇っていますが、音声や動画の入力や出力に関してはいくつかの制約があります。

理由①:最大処理トークン数が20万

Claude 3.5 Sonnetは、1回の処理で扱えるトークン数が20万までに制限されています。

トークンの仕組み上、テキストの単語やスペース、記号なども含めてトークンとして数えられるため、長時間の音声データなどは、膨大な数のトークンに変換されます。

そのため、すぐにトークンの上限に達してしまいます。

音声データがトークン数の上限を超えてしまうと、データを途中で切断して処理せざるを得なくなり、結果として正確な文字起こしが難しくなるのです。

つまり、Claude 3.5 Sonnetは、長時間の音声データや大量のテキストを扱うには不向きだと言えます。

理由②:動画や音声ファイルをアップロードできない

もう一つの大きな制約は、音声や動画ファイルを直接アップロードできない点です。

そもそもClaude 3.5 Sonnetは、音声認識やリアルタイム解析には対応していません。

主な制約
  • 音声や動画を直接テキストに変換することができない
  • テキストデータを処理するためのツールで音声データは扱えない

音声ファイルの処理を前提としていないため、文字起こしにはClaude 3.5 Sonnet以外のAIを活用する必要があります。

文字起こしはWhisperかGeminiを使おう

WhisperとGeminiの特徴を比較した図。Whisperは音声波とテキストのアイコンで音声認識を示し、Geminiはテキスト、画像、動画を扱えるマルチモーダルAIとして表示されている

音声や動画データの文字起こしには、WhisperやGeminiが有効です。

Whisperは音声認識に特化しており、音声を正確にテキスト化することが得意です。

一方、GeminiはマルチモーダルAIとして、多様なデータ形式を扱うことができるため、より広範なタスクに対応しています。

WhisperやGeminiの特徴を表でまとめました。

特徴WhisperGemini
主な機能音声認識に特化し、高速かつ正確に音声をテキストに変換する能力に優れるマルチモーダル生成AIで、テキスト、画像、音声、動画を理解・処理可能
モデルの特性音声データの処理に特化テキスト、画像、音声、動画など多様なデータを同時に扱う
応用分野音声文字起こし、議事録作成など文章生成、翻訳、コード生成、画像認識など多岐にわたる
利用可能なプラットフォーム主に音声認識ツールやアプリケーションで使用GeminiウェブアプリやPixel 8などで利用可能

Whisperで文字起こしをするメリットデメリット

「Whisper」はOpenAIが開発した音声認識専用モデルのため、高精度な文字起こしが可能です。

ノイズやアクセントに強く、話し言葉も正確にテキスト化するため、会議やインタビューなど、さまざまなシーンで活用できます。

また、Whisper自体は無料で利用できる点も非常に嬉しいポイントです。

しかしWhisperは、ChatGPTやClaude 3.5 Sonnetのようにログインすればすぐに使えるようなUIは持っておらず、GoogleコラボのようなPythonが実行できる環境を用意し、環境構築を行う必要があります。

環境構築はある程度の知識がないと難しいため、この部分にハードルを感じてしまう人も多いようです。

以下の記事ではWhisperを構築方法を詳しく解説していますので、興味がある方は挑戦してみてはいかがでしょうか。

あわせて読みたい
OpenAIのWhisperで文字起こしする使い方!Google Colabで無料で使える 音声データからテキストに変換する「文字起こし」。 近年、AIの発展により、その精度が飛躍的に向上しています。 中でも、OpenAIが開発した音声認識モデル「Whisper」は、その高い精度と多言語対応で注目を集めています。 この記事では、そんなWhisperをGoogle Colabという無料のプラットフォーム上で使用し、誰でも簡単に文字起こしができる方法を解説していきます。

Geminiで文字起こしをするメリットデメリット

GeminiはGoogleが開発した生成AIです。

Claude 3.5 Sonnetの上限トークン数が20万で、音声ファイルのアップロードに対応していないと紹介しましたが、Geminiは200万トークンの入力に対応しており、マルチモーダルのため音声や映像ファイルのアップロードにも対応しています。

そのため、会議のような音声ファイルであれば余裕で文字起こしをすることが可能です。

デメリットとしては、通常のGeminiではなく開発者向けプラットフォームで使う必要がある点です。

通常のGeminiだと、無料プランで使う方法とGemini Advancedという有料プランに加入する方法があります。

無料プランの場合は、最大32,000トークンしか対応しておらず、Gemini Advancedという有料プランに加入しても100万トークンまでしか対応しておりません。

これとは別に、Google AI Studioという開発者向けプラットフォーム経由で使う方法があるのですが、こちらだと200万トークンの入力に対応しています。

Google AI StudioでのGeminiの導入方法や各料金プランの細かい機能の違いなどは以下の記事で詳しく解説していますので、Geminiでの文字起こしに挑戦したい方は参考にしてみてください。

あわせて読みたい
GoogleのGemini(ジェミニ)とは?何ができる?使い方や料金と活用事例 2023年末に発表されたGoogleの最新AIモデルである「Gemini(ジェミニ)」は、OpenAIのAIサービス「ChatGPT」のライバル的関係にある生成AIです。 本記事では、Geminiの詳細な機能、他の生成AIであるChatGPTやBardとの比較、使い方や料金まで深く掘り下げていきます。 Geminiをまだ利用したことがない方は、ぜひこの記事を参考にしてみてください。

Claude 3.5 Sonnetを使って文字起こしをする裏技

Claude 3.5 SonnetとPLAID NOTEプロプランによる文字起こしの裏技を示した図。カスタマイズ可能なテンプレート、発言者識別機能、モデル選択の自由が視覚的に表現されている

Claude 3.5 Sonnetを利用しているユーザーの中には、「すでにGeminiなども使っているが、日本語に強いClaude 3.5 Sonnetの生成する文章が特に好きだ」という人が多くいます。

そんな方におすすめなのが、PLAUD NOTEを使うという方法です。

PLAUD NOTEは、AIが搭載されたボイスレコーダーで、ボタンを押すだけで録音をすることができ、数十秒という時間で文字起こしから議事録の作成までをすべて自動で行ってくれるアイテムです。

ボイスレコーダーですので、オンラインでの会議ではなくどちらかというと対面での会議やインタビューが多い方におすすめのツールとなっています。

PLAUD NOTEに内蔵されている生成AIは標準だとChatGPTなのですが、実はプロプランを契約するとClaude 3.5 SonnetをLLMとして選択することができます。

Claude自体にトークン数の制限があったり、そもそも音声データのアップができなかったりと、文字起こしをするのは不可能なのですが、PLAUD NOTEを経由すればClaude 3.5 Sonnetでの文字起こしが実現します。

これはClaude愛用のユーザーなら非常に嬉しいポイントなのではないでしょうか。

PLAUD NOTEの使い心地やメリット・デメリットなどは以下の記事で詳しくレビューしています。

あわせて読みたい
【レビュー】PLAUD NOTEの口コミと評判!AIボイスレコーダーを実際に使った感想 会議の議事録作成に時間がかかりませんか? そんな悩みを解決してくれるかもしれないのが、AIボイスレコーダーのPLAUD NOTEです。 本記事では、PLAUD NOTEを実際に使用したレビューを交えながら、この製品の魅力と特徴を徹底解説します。 音声データをテキスト化し、要約までしてくれるPLAUD NOTEが、あなたの業務効率を劇的に向上させるかもしれません。

プランの価格や本体の価格、購入方法などは以下の記事でまとめています。

あわせて読みたい
【2024年9月最新】PLAUD NOTEの購入方法と価格・月額について!3000円OFFクーポンあり 会議の議事録や打ち合わせの覚書などは、仕事で必要な報告書の中でも、最も作成に手間がかかります。 しかし録音機にAI技術を組み合わせた、コンパクトなAIボイスレコーダー「PLAUD NOTE」を使うことで、文字起こしや要約が容易になり、資料作成の大幅な効率化が実現できます。 しかもAIボイスレコーダー「PLAUD NOTE」にはクーポンが付いていて、お得です。 PLAUD NOTEの購入方法はオンラインだけなので気を付けてください。

まとめ

Claude 3.5 Sonnetは、生成において優れたAIですが、文字起こしには制約があります。

他のAIツール、WhisperやGeminiを使うのが現時点での最良の選択です。

ただし、既にClaude 3.5 Sonnetを利用している方には、PLAID NOTEを活用する裏技もおすすめです。

自分のニーズに合った方法を選んで、AIの力を最大限活用しましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次