OpenAIのWhisperで文字起こしする使い方!Google Colabで無料で使える

音声データからテキストに変換する「文字起こし」。

近年、AIの発展により、その精度が飛躍的に向上しています。

中でも、OpenAIが開発した音声認識モデル「Whisper」は、その高い精度と多言語対応で注目を集めています。

この記事では、そんなWhisperをGoogle Colabという無料のプラットフォーム上で使用し、誰でも簡単に文字起こしができる方法を解説していきます。

目次

OpenAIの音声認識モデル「Whisper」とは?無料で使える?

OpenAIが開発した音声認識モデル「Whisper」は、音声データをテキストに変換してくれるAIモデルです。

日本語を含む多言語に対応しており、「えー、あー」といった言い淀みや、早口、専門用語が混ざった音声でも、高精度で文字起こしが可能です。

Whisperを利用する方法は大きく分けて2つあり、「完全に無料で使いたい」のか「手間なく高機能を使いたい」のかによって選び方が異なります。

無料の「OSS版」と高機能な「API版」の違い

Whisperを利用するルートは以下の2種類が主流であり、本記事でメインに解説するのは、無料で使えるOSS版です。(※2026年1月時点)

項目① OSS版(オープンソース)② API版(OpenAI公式サービス)
料金無料有料(従量課金)
実行環境自分のPCやGoogle Colab不要(クラウド上で処理)
主なモデルWhisper (v3, turboなど)whisper-1, gpt-4o-transcribe
話者分離別途ツールが必要(pyannote等)対応(gpt-4o-transcribe-diarizeで提供)

「Google Colab」というGoogleが提供するクラウド実行環境を使えば、①のOSS版をWebブラウザ上で無料で動かすことができます。

多少のセットアップは必要ですが、コストをかけずに大量の音声を処理したい場合に最適です。

一方、プログラミング知識が全くなく、会議の「Aさん・Bさん」といった話者分離(誰が話したか)まで自動で行いたい場合は、有料のAPI版や後述する「Notta」や「Plaud Note」などのツールが適しています。

Whisperモデルの推奨スペック

OSS版のWhisperには、精度や処理速度が異なる複数の「モデル」が用意されています。

中でも主要モデルとしてtiny/base/large/turboがよく使われます

PCやGoogle Colabで動かす際は、GPUメモリ(VRAM)の容量に合わせてモデルを選びましょう。

各モデルの特徴は以下の通りです。

モデル名特徴必要VRAM(目安)
turbo(large-v3-turbo)・large級の精度を持ちながら、処理速度が約8倍速い最新モデル
・Google Colabの無料枠でも快適に動作する
約6GB以下
tiny・軽量で高速だが、日本語の精度は少し落ちる約1GB以下
base・動作確認や短いメモ用として利用される約1GB以下
large(v3)・最高精度だが、処理が重く時間がかかる
・「turbo」で満足できない場合のみ使用
約10GB以下

基本的には、スタンダードである「turbo」を選ぶことをおすすめします。

Whisperの使い方を解説!無料で文字起こしするならGoogle Colabを活用しよう

Google Colabは、Googleが提供する無料のJupyter Notebook環境です。

この章では、先ほど紹介したWhisperをGoogle Colabという無料のプラットフォーム上で使用し、誰でも簡単に文字起こしができる方法を解説していきます。

あわせて読みたい
Google Colabとは?使い方や料金!無料で使える?GPUガチャとは Google Colabとは、セットアップ不要で簡単にプログラミングができるクラウドベースのJupyter Notebookサービスで、初心者からプロまで幅広いユーザーに利用されています。 この記事では、Google Colabの使い方や料金プラン、リソースにアクセスする際のメリットや制限について詳しく解説します。 無料で利用できるGPU機能と、Google Colab GPUガチャについても触れながら、用途に応じた最適な利用方法を紹介します。

ステップ①:文字起こししたい音声データを用意する

まずは、文字起こししたい音声データを用意しましょう。

音声ファイル形式は、WAV、MP3、M4Aなど、一般的な音声ファイル形式であれば問題ありません。

Google Colabの無料版を利用する場合、メモリ容量や連続稼働時間に制限があります。

1時間を超えるような長時間の録音データは、途中で処理が止まってしまうリスクがあるため、あらかじめ編集ソフトなどで30分〜1時間程度に分割しておくことを推奨します。

また、音質が良いほど、AIでの文字起こしの精度が向上します。

雑音が多い環境で録音された音声データの場合は、事前にノイズ除去処理を行うことをおすすめします。

ステップ②:Google Colabで環境構築

Google ColabでWhisperをインストールします。

STEP
ノートブックを作成する

ブラウザでGoogle Colabにアクセスし、新しいノートブックを作成します。

赤枠の「ノートブックを新規作成」をクリックすると、以下のような画面が開きます。

STEP
Whisperをインストールする

次のコマンドを実行して、Whisperをインストールします。

!pip install git+https://github.com/openai/whisper.git

赤枠内にコマンドを記入し、左側の「▶」を押下するとインストールが開始されます。

エラーが出た場合は、「ffmpeg」がインストールされているか確認し、必要に応じて導入してください。

詳しくは、こちらの公式情報を参考にしてみてください。

ステップ③:音声データを読み込ませて文字起こし

文字起こし手順を解説します。

STEP
音声ファイルをアップロードする

Whisperのインストールが完了したら、Google Colabの「ファイル」に、文字起こししたい音声ファイルをアップロードします。

左側メニューのフォルダマークを開きます。

開いたのちに、音声ファイルをドラッグ&ドロップでアップロードします。

STEP
コマンドを実行する

音声ファイルがアップロードされたら、次のようなコードを実行します。

import whisper

# モデルの選択(tiny, base, small, medium, large, turbo)
model = whisper.load_model("turbo")

# 音声ファイルのパスを指定
result = model.transcribe("音声ファイル名.wav")

# 結果を表示
print(result["text"])

音声ファイルのパスをアップロードしたファイル名と合わせてコマンドを実行します。

STEP
出力内容を確認する

今回アップロードした音声ファイルは以下です。

赤枠内が出力された文字起こしの内容です。音声情報と相違なく文字起こしができていることが分かります。

Whisper以外で簡単に文字起こしする高性能ツールなら「Notta」

出典:Notta

Nottaは、高精度なAI音声認識を活用した自動文字起こしサービスで、リアルタイム文字起こしや翻訳機能を提供し、自動で議事録を作成することができます。

Nottaとは?主な機能と料金を解説

主な機能は以下の通りです。

主な機能説明
リアルタイム文字起こしZoom/Google Meet/Microsoft Teams/WebexなどのWeb会議やSlack連携に対応。
リアルタイム自動文字起こし。
会議終了後すぐに要約やアクションアイテムを生成。
音声ファイルの文字起こし録音した音声や動画ファイルを自動的にテキスト化。
編集・検索・共有が可能。
多言語対応58言語の文字起こしに対応。
英日など2言語を同時に処理するバイリンガル文字起こし。
自動翻訳機能も利用可能(一部はアドオン扱い)。
海外との会議や多言語インタビューでも1つのツールで完結。
エクスポート機能TXT/Word/PDF/SRTなどの形式でエクスポート。
NotionやSlack、メールなどに直接共有可。
チームワークスペースBusiness/Enterpriseプラン
共有ワークスペースやユーザー権限管理、利用状況レポートなどの管理機能。
SalesforceやHubSpot、ZapierなどのCRM連携も可。

Nottaの各種料金プランを比較しました。

スクロールできます
項目FreePremiumBusinessEnterprise
月額料金無料¥1,980¥4,180要問い合わせ
年額料金無料¥14,220
(1,185/月)
¥30,096
(2,508/月)
要問い合わせ
文字起こし時間
(月間)
120分1,800分無制限カスタマイズ
1回の録音上限3分まで5時間まで5時間まで5時間まで
AI要約
(月間)
10回100回200回無制限
ファイルアップロード
(月間)
50回100回200回無制限
主な独自機能・リアルタイム文字起こし
・話者識別
・Zoom等連携
・データの出力
・翻訳機能
・カスタム辞書登録
・Web会議のビデオ録画
・Salesforce/Zapier連携
・管理者/セキュリティ機能
・SAML SSO
・監査ログ
・AI学習へのデータ利用なし
対象ユーザーお試し・初心者個人チーム・企業大規模組織
(51名以上〜)

ChatGPTでは対応していない「Web会議への自動参加」と「正確な話者識別」が可能で、ZoomやTeamsなどのオンライン会議が業務の中心であればNottaがおすすめです。

会議中にリアルタイムで文字起こし内容をチームで共有・編集できるため、PCでのデスクワークが多く「会議終了と同時に議事録を完成させたい」方に最適です。

あわせて読みたい
Nottaとは?使い方や料金プラン!WEB会議もAIで文字起こしから議事録まで一気出し Nottaとは、音声をリアルタイムで文字化し、議事録まで自動で生成するAI文字起こしツールです。Notta AIは高精度な音声認識と要約機能を備え、会議や商談の業務効率を大幅に改善します。Nottaの使い方や料金プラン、活用法までをわかりやすく解説します。

NottaとWhisperのどちらを選ぶべき?

WhisperはOpenAIが開発したオープンソースのモデルであり、無料で利用できる点がメリットです。

ただし、モデルのダウンロードや環境構築が必要で、ある程度のIT知識が必要です。

そのため、以下のような方におすすめの文字起こし機能と言えるでしょう。

  • 無料で文字起こしを行いたい方
  • 自身の環境に合わせたカスタマイズを行いたい方
  • ITに詳しい方

一方でNottaはブラウザ上で完結するため、特別な環境構築は不要ですぐに使い始められる点がメリットです。

ただし、無料プランでは機能が制限されるため、本格的に利用するには有料プランへの加入が必要といえます。

そのため、以下のような方におすすめの文字起こし機能と言えます。

  • 手軽に高品質な文字起こしを行いたい方
  • 有料版を利用し多様な機能を備えたツールを探している方
  • 日本語の音声を正確に文字起こししたい方

Nottaのサービス内容詳細は、公式サイトを確認してみてください。

\ 無料お試し実施中 /

ボイスレコーダーから一気通貫で文字起こしするなら「Plaud Note」

出典:Plaud Note

Plaud Noteは、Nicebuild LLCによって開発されたAIボイスレコーダーで、特にGPT-5.2などの最新のAIと連携している点が特徴です。

録音、文字起こし、議事録作成を一体化したオールインワンのAI録音アシスタントとして設計されています。

Plaud Noteとは?主な機能と料金を解説

主な機能は以下の通りです。

主な機能説明
ワンタッチ録音本体のボタンを長押しするだけで録音を開始・終了。
カード型のPlaud Note/Note Proはスマホの背面にマグネットで装着して通話録音可。
Note Proでは「重要なところだけボタンを押してハイライトする」といった操作にも対応。
文字起こしと要約自動文字起こしと1万種類以上のテンプレートを使った要約・議事録・ToDoリスト・インタビュー要約などに変換。
スピーカーラベルや業界別用語集にも対応しており、ビジネス用途の会議録にも使用可能。
多言語対応112言語の文字起こしに対応。
AIが文脈を解析し、専門用語が含まれる会話でも高い精度で認識・翻訳。
エクスポート機能音声:MP3/WAV
文字起こし:TXT/DOCX/PDF/SRT
ノート:TXT/Markdown/DOCX/PDF
マインドマップ:JPEG/Markdown
チームワークスペース無し

Plaud Noteシリーズをデバイスごとに比較しました。

項目Plaud NotePlaud NotePinPlaud Note Pro
本体価格27,500円27,500円30,800円
形状・デザインカード型カプセル型
(ウェアラブル)
カード型
装着・携帯方法MagSafeでスマホ背面に吸着。
専用ケースあり。
マグネットピン、クリップ、ネックストラップ、リストバンドMagSafeでスマホ背面に吸着。
専用ケースあり。
主な用途・スマホ通話の録音
・対面会議の記録
・移動中のメモ
・アイデアの即時記録
・より身軽な常時録音
・高品質な通話・会議録音
・ビジネス利用の強化版
特徴スマホと一緒に持ち運び可。
急な通話録音に対応しやすい定番モデル。
衣服や体に取り付けてハンズフリーで録音可能。
アクセサリー感覚で使える。
基本機能に加え、マイク性能や処理速度が向上したプロ仕様。
公式サイト公式サイト 公式サイト 公式サイト

また、PLAUDのデバイスを購入すると、スタータープランとして全員に文字起こし機能が月間300分付与されます。300分以上機能を利用したい場合は別途サブスクリプションを契約する必要があります。

ChatGPTでは録れない「スマホ通話の録音」機能と、「物理スイッチ」による録音は、ハードウェアならではの圧倒的な強みです。

PCを開けない対面商談や、突発的な電話対応が多い営業職・現場仕事の方にとって、録り逃しをさせない「第二の記憶」としておすすめできるアイテムです。

Plaud NoteとWhisperのどちらを選ぶべき?

先ほど説明した通り、Whisperはコストを抑えて利用できる反面、モデルのダウンロードや環境構築が必要で、ある程度のIT知識が必要です。

また、音声データをパソコンに送り文字起こしを行うというひと手間が発生します。

これは普段からボイスレコーダーを使って録音し、そのデータから文字起こしを行っている人には非常に手間です。

その点、Plaud Noteであれば、ボイスレコーダーで録音しアプリ連携でスマホに転送、すぐに文字起こしから要約まで一気に行うことが可能です。

普段から文字起こしを行いたいデータが、ボイスレコーダーで録音されたデータという方はPlaud Noteを利用するのが良いでしょう。

購入方法やお得なクーポンは以下のページで紹介しています。

あわせて読みたい
【2026年2月最新】Plaud Note料金プラン比較!月額サブスクと本体価格を解説 Plaud Noteの購入を検討する際、「本体価格はいくらか」「月額と年額プランはどちらがお得か」「自分の利用量に合うプランはどれか」と迷う方は多いでしょう。 Plaud Noteの料金は、サブスクのプラン内容だけでなく、月額・年額の支払い方法や文字起こしパッケージの有無によって総額が変わります。 この記事では、Plaud Noteを本体価格、プラン料金、文字起こしパッケージの料金で比較し、自分に合ったプランを判断できるよう解説しているので、ぜひ参考にしてください。

オンライン会議などで音声ファイルが手元にあるならWhisper、普段ボイスレコーダーを使っているならPlaud Noteがおすすめです。

\ 公式LINEからクーポン配布中 /

まとめ

本記事では、OpenAIの高性能モデル「Whisper」をGoogle Colabで無料で動かす方法と、それ以外の選択肢について解説しました。

結論として、プログラミングやエラー対応に抵抗がなく、コストをかけずに大量の音声データを文字起こししたい方には、Google ColabでWhisperを動かす方法が最もおすすめです。

一方で、環境構築の手間を省き、話者分離機能やスマホ連携などの利便性を優先したい場合は、「Notta」や「Plaud Note」といった専用ツールの導入を検討してみてください。ご自身の用途やスキルに合わせて、最適な文字起こし環境を選びましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次