
音声データからテキストに変換する「文字起こし」。
近年、AIの発展により、その精度が飛躍的に向上しています。
中でも、OpenAIが開発した音声認識モデル「Whisper」は、その高い精度と多言語対応で注目を集めています。
この記事では、そんなWhisperをGoogle Colabという無料のプラットフォーム上で使用し、誰でも簡単に文字起こしができる方法を解説していきます。
OpenAIの音声認識モデル「Whisper」とは?無料で使える?

OpenAIが開発した音声認識モデル「Whisper」は、音声データをテキストに変換してくれるAIモデルです。
日本語を含む多言語に対応しており、「えー、あー」といった言い淀みや、早口、専門用語が混ざった音声でも、高精度で文字起こしが可能です。
Whisperを利用する方法は大きく分けて2つあり、「完全に無料で使いたい」のか「手間なく高機能を使いたい」のかによって選び方が異なります。
無料の「OSS版」と高機能な「API版」の違い
Whisperを利用するルートは以下の2種類が主流であり、本記事でメインに解説するのは、無料で使えるOSS版です。(※2026年1月時点)
| 項目 | ① OSS版(オープンソース) | ② API版(OpenAI公式サービス) |
|---|---|---|
| 料金 | 無料 | 有料(従量課金) |
| 実行環境 | 自分のPCやGoogle Colab | 不要(クラウド上で処理) |
| 主なモデル | Whisper (v3, turboなど) | whisper-1, gpt-4o-transcribe |
| 話者分離 | 別途ツールが必要(pyannote等) | 対応(gpt-4o-transcribe-diarizeで提供) |
「Google Colab」というGoogleが提供するクラウド実行環境を使えば、①のOSS版をWebブラウザ上で無料で動かすことができます。
多少のセットアップは必要ですが、コストをかけずに大量の音声を処理したい場合に最適です。
一方、プログラミング知識が全くなく、会議の「Aさん・Bさん」といった話者分離(誰が話したか)まで自動で行いたい場合は、有料のAPI版や後述する「Notta」や「Plaud Note」などのツールが適しています。
Whisperモデルの推奨スペック
OSS版のWhisperには、精度や処理速度が異なる複数の「モデル」が用意されています。
中でも主要モデルとしてtiny/base/large/turboがよく使われます
PCやGoogle Colabで動かす際は、GPUメモリ(VRAM)の容量に合わせてモデルを選びましょう。
各モデルの特徴は以下の通りです。
| モデル名 | 特徴 | 必要VRAM(目安) |
|---|---|---|
| turbo(large-v3-turbo) | ・large級の精度を持ちながら、処理速度が約8倍速い最新モデル ・Google Colabの無料枠でも快適に動作する | 約6GB以下 |
| tiny | ・軽量で高速だが、日本語の精度は少し落ちる | 約1GB以下 |
| base | ・動作確認や短いメモ用として利用される | 約1GB以下 |
| large(v3) | ・最高精度だが、処理が重く時間がかかる ・「turbo」で満足できない場合のみ使用 | 約10GB以下 |
基本的には、スタンダードである「turbo」を選ぶことをおすすめします。
Whisperの使い方を解説!無料で文字起こしするならGoogle Colabを活用しよう

Google Colabは、Googleが提供する無料のJupyter Notebook環境です。
この章では、先ほど紹介したWhisperをGoogle Colabという無料のプラットフォーム上で使用し、誰でも簡単に文字起こしができる方法を解説していきます。

ステップ①:文字起こししたい音声データを用意する
まずは、文字起こししたい音声データを用意しましょう。
音声ファイル形式は、WAV、MP3、M4Aなど、一般的な音声ファイル形式であれば問題ありません。
Google Colabの無料版を利用する場合、メモリ容量や連続稼働時間に制限があります。
1時間を超えるような長時間の録音データは、途中で処理が止まってしまうリスクがあるため、あらかじめ編集ソフトなどで30分〜1時間程度に分割しておくことを推奨します。
また、音質が良いほど、AIでの文字起こしの精度が向上します。
雑音が多い環境で録音された音声データの場合は、事前にノイズ除去処理を行うことをおすすめします。
ステップ②:Google Colabで環境構築
Google ColabでWhisperをインストールします。
次のコマンドを実行して、Whisperをインストールします。
!pip install git+https://github.com/openai/whisper.git

赤枠内にコマンドを記入し、左側の「▶」を押下するとインストールが開始されます。
エラーが出た場合は、「ffmpeg」がインストールされているか確認し、必要に応じて導入してください。
詳しくは、こちらの公式情報を参考にしてみてください。
ステップ③:音声データを読み込ませて文字起こし
文字起こし手順を解説します。
Whisperのインストールが完了したら、Google Colabの「ファイル」に、文字起こししたい音声ファイルをアップロードします。
左側メニューのフォルダマークを開きます。

開いたのちに、音声ファイルをドラッグ&ドロップでアップロードします。

音声ファイルがアップロードされたら、次のようなコードを実行します。
import whisper
# モデルの選択(tiny, base, small, medium, large, turbo)
model = whisper.load_model("turbo")
# 音声ファイルのパスを指定
result = model.transcribe("音声ファイル名.wav")
# 結果を表示
print(result["text"])

音声ファイルのパスをアップロードしたファイル名と合わせてコマンドを実行します。
今回アップロードした音声ファイルは以下です。

赤枠内が出力された文字起こしの内容です。音声情報と相違なく文字起こしができていることが分かります。
Whisper以外で簡単に文字起こしする高性能ツールなら「Notta」

Nottaは、高精度なAI音声認識を活用した自動文字起こしサービスで、リアルタイム文字起こしや翻訳機能を提供し、自動で議事録を作成することができます。
Nottaとは?主な機能と料金を解説
主な機能は以下の通りです。
| 主な機能 | 説明 |
|---|---|
| リアルタイム文字起こし | Zoom/Google Meet/Microsoft Teams/WebexなどのWeb会議やSlack連携に対応。 リアルタイム自動文字起こし。 会議終了後すぐに要約やアクションアイテムを生成。 |
| 音声ファイルの文字起こし | 録音した音声や動画ファイルを自動的にテキスト化。 編集・検索・共有が可能。 |
| 多言語対応 | 58言語の文字起こしに対応。 英日など2言語を同時に処理するバイリンガル文字起こし。 自動翻訳機能も利用可能(一部はアドオン扱い)。 海外との会議や多言語インタビューでも1つのツールで完結。 |
| エクスポート機能 | TXT/Word/PDF/SRTなどの形式でエクスポート。 NotionやSlack、メールなどに直接共有可。 |
| チームワークスペース | Business/Enterpriseプラン 共有ワークスペースやユーザー権限管理、利用状況レポートなどの管理機能。 SalesforceやHubSpot、ZapierなどのCRM連携も可。 |
Nottaの各種料金プランを比較しました。
| 項目 | Free | Premium | Business | Enterprise |
|---|---|---|---|---|
| 月額料金 | 無料 | ¥1,980 | ¥4,180 | 要問い合わせ |
| 年額料金 | 無料 | ¥14,220 (1,185/月) | ¥30,096 (2,508/月) | 要問い合わせ |
| 文字起こし時間 (月間) | 120分 | 1,800分 | 無制限 | カスタマイズ |
| 1回の録音上限 | 3分まで | 5時間まで | 5時間まで | 5時間まで |
| AI要約 (月間) | 10回 | 100回 | 200回 | 無制限 |
| ファイルアップロード (月間) | 50回 | 100回 | 200回 | 無制限 |
| 主な独自機能 | ・リアルタイム文字起こし ・話者識別 ・Zoom等連携 | ・データの出力 ・翻訳機能 ・カスタム辞書登録 | ・Web会議のビデオ録画 ・Salesforce/Zapier連携 ・管理者/セキュリティ機能 | ・SAML SSO ・監査ログ ・AI学習へのデータ利用なし |
| 対象ユーザー | お試し・初心者 | 個人 | チーム・企業 | 大規模組織 (51名以上〜) |
ChatGPTでは対応していない「Web会議への自動参加」と「正確な話者識別」が可能で、ZoomやTeamsなどのオンライン会議が業務の中心であればNottaがおすすめです。
会議中にリアルタイムで文字起こし内容をチームで共有・編集できるため、PCでのデスクワークが多く「会議終了と同時に議事録を完成させたい」方に最適です。

NottaとWhisperのどちらを選ぶべき?
WhisperはOpenAIが開発したオープンソースのモデルであり、無料で利用できる点がメリットです。
ただし、モデルのダウンロードや環境構築が必要で、ある程度のIT知識が必要です。
そのため、以下のような方におすすめの文字起こし機能と言えるでしょう。
- 無料で文字起こしを行いたい方
- 自身の環境に合わせたカスタマイズを行いたい方
- ITに詳しい方
一方でNottaはブラウザ上で完結するため、特別な環境構築は不要ですぐに使い始められる点がメリットです。
ただし、無料プランでは機能が制限されるため、本格的に利用するには有料プランへの加入が必要といえます。
そのため、以下のような方におすすめの文字起こし機能と言えます。
- 手軽に高品質な文字起こしを行いたい方
- 有料版を利用し多様な機能を備えたツールを探している方
- 日本語の音声を正確に文字起こししたい方
Nottaのサービス内容詳細は、公式サイトを確認してみてください。
\ 無料お試し実施中 /
ボイスレコーダーから一気通貫で文字起こしするなら「Plaud Note」

Plaud Noteは、Nicebuild LLCによって開発されたAIボイスレコーダーで、特にGPT-5.2などの最新のAIと連携している点が特徴です。
録音、文字起こし、議事録作成を一体化したオールインワンのAI録音アシスタントとして設計されています。
Plaud Noteとは?主な機能と料金を解説
主な機能は以下の通りです。
| 主な機能 | 説明 |
|---|---|
| ワンタッチ録音 | 本体のボタンを長押しするだけで録音を開始・終了。 カード型のPlaud Note/Note Proはスマホの背面にマグネットで装着して通話録音可。 Note Proでは「重要なところだけボタンを押してハイライトする」といった操作にも対応。 |
| 文字起こしと要約 | 自動文字起こしと1万種類以上のテンプレートを使った要約・議事録・ToDoリスト・インタビュー要約などに変換。 スピーカーラベルや業界別用語集にも対応しており、ビジネス用途の会議録にも使用可能。 |
| 多言語対応 | 112言語の文字起こしに対応。 AIが文脈を解析し、専門用語が含まれる会話でも高い精度で認識・翻訳。 |
| エクスポート機能 | 音声:MP3/WAV 文字起こし:TXT/DOCX/PDF/SRT ノート:TXT/Markdown/DOCX/PDF マインドマップ:JPEG/Markdown |
| チームワークスペース | 無し |
Plaud Noteシリーズをデバイスごとに比較しました。
| 項目 | Plaud Note | Plaud NotePin | Plaud Note Pro |
|---|---|---|---|
| 本体価格 | 27,500円 | 27,500円 | 30,800円 |
| 形状・デザイン | カード型 | カプセル型 (ウェアラブル) | カード型 |
| 装着・携帯方法 | MagSafeでスマホ背面に吸着。 専用ケースあり。 | マグネットピン、クリップ、ネックストラップ、リストバンド | MagSafeでスマホ背面に吸着。 専用ケースあり。 |
| 主な用途 | ・スマホ通話の録音 ・対面会議の記録 | ・移動中のメモ ・アイデアの即時記録 ・より身軽な常時録音 | ・高品質な通話・会議録音 ・ビジネス利用の強化版 |
| 特徴 | スマホと一緒に持ち運び可。 急な通話録音に対応しやすい定番モデル。 | 衣服や体に取り付けてハンズフリーで録音可能。 アクセサリー感覚で使える。 | 基本機能に加え、マイク性能や処理速度が向上したプロ仕様。 |
| 公式サイト | 公式サイト | 公式サイト | 公式サイト |
また、PLAUDのデバイスを購入すると、スタータープランとして全員に文字起こし機能が月間300分付与されます。300分以上機能を利用したい場合は別途サブスクリプションを契約する必要があります。
ChatGPTでは録れない「スマホ通話の録音」機能と、「物理スイッチ」による録音は、ハードウェアならではの圧倒的な強みです。
PCを開けない対面商談や、突発的な電話対応が多い営業職・現場仕事の方にとって、録り逃しをさせない「第二の記憶」としておすすめできるアイテムです。
Plaud NoteとWhisperのどちらを選ぶべき?
先ほど説明した通り、Whisperはコストを抑えて利用できる反面、モデルのダウンロードや環境構築が必要で、ある程度のIT知識が必要です。
また、音声データをパソコンに送り文字起こしを行うというひと手間が発生します。
これは普段からボイスレコーダーを使って録音し、そのデータから文字起こしを行っている人には非常に手間です。
その点、Plaud Noteであれば、ボイスレコーダーで録音しアプリ連携でスマホに転送、すぐに文字起こしから要約まで一気に行うことが可能です。
普段から文字起こしを行いたいデータが、ボイスレコーダーで録音されたデータという方はPlaud Noteを利用するのが良いでしょう。
購入方法やお得なクーポンは以下のページで紹介しています。

オンライン会議などで音声ファイルが手元にあるならWhisper、普段ボイスレコーダーを使っているならPlaud Noteがおすすめです。
\ 公式LINEからクーポン配布中 /
まとめ
本記事では、OpenAIの高性能モデル「Whisper」をGoogle Colabで無料で動かす方法と、それ以外の選択肢について解説しました。
結論として、プログラミングやエラー対応に抵抗がなく、コストをかけずに大量の音声データを文字起こししたい方には、Google ColabでWhisperを動かす方法が最もおすすめです。
一方で、環境構築の手間を省き、話者分離機能やスマホ連携などの利便性を優先したい場合は、「Notta」や「Plaud Note」といった専用ツールの導入を検討してみてください。ご自身の用途やスキルに合わせて、最適な文字起こし環境を選びましょう。


