ChatGPTで音声ファイルを文字起こしする方法！議事録作成や要約作成までのやり方

2026年6月5日

ChatGPTを使って議事録作成を効率化したいと思っている方は多いのではないでしょうか。

この記事では、ChatGPTを使って音声ファイルの文字起こしから議事録・要約作成のやり方について解説します。

ChatGPTの文字起こし機能の使い方や、他のAIツールと組み合わせる際の実践的なポイントも紹介するので、ChatGPTで生産性を向上させたい人はぜひご確認ください。

ChatGPTで音声ファイルを文字起こしできる？現行機能と選択肢

音声ファイルや録音データを文字起こしする方法と、ChatGPTを活用して文字起こしから、要約・議事録作成を行う流れを解説します。

ChatGPT Recordで文字起こし

2026年5月時点では、ChatGPTのチャット画面から音声ファイルの文字起こしはできません。ChatGPTにアップロード可能なファイルとして、MP3やwavなどの音声ファイルがサポートされていないためです。

What types of files are supported?
Most common file extensions for text files, spreadsheets, presentations, and documents are supported, including XLSX, XLS, CSV, TSV, DOCX, PPTX, PDF, and TXT.

【参考訳】
どのようなファイル形式がサポートされていますか？

テキストファイル、スプレッドシート、プレゼンテーション、ドキュメントで一般的に使用されるファイル拡張子のほとんどがサポートされており、XLSX、XLS、CSV、TSV、DOCX、PPTX、PDF、TXTなどが含まれます。
出典：OpenAI

ChatGPTで音声の録音・文字起こしを行う機能としてChatGPT Recordが提供されています。要約はチャット履歴内に保存され、プロジェクト計画やメール文面の作成にも活用できます。

ただし、ChatGPT Recordは2026年5月時点でPlus、Enterprise、Edu、Business、Proの利用者向けに提供され、macOSデスクトップアプリのみで利用可能です。そのため、Windows環境やブラウザ版のChatGPTを使っている場合は、ChatGPT以外のツールで文字起こしをする必要があります。

【比較表】ChatGPT Record・Audio API・Whisper・外部ツールの違い

ChatGPT Recordは、ChatGPTのインターフェースで録音・文字起こしを行い、そのまま要約やアクションアイテムの整理などを行える点に強みがあります。

ChatGPT Recordが利用できない環境で、簡単に文字起こしを行いたい人は、OpenAIのAudio APIやWhisper、外部の文字起こしツールが挙げられます。Audio APIやWhisperは、プログラミング知識が必要になりますが、既存の業務システムなどに組み込み可能なカスタマイズ性の高さがメリットです。

それぞれのツールの違いは以下のとおりです。

文字起こしの方法	特徴	動作環境
ChatGPT Record	ChatGPT内で録音・文字起こしができる	macOSのみ Plus、Enterprise、Edu、Business、Proプランの契約
Audio API	APIキーの準備やAPI実行環境の知識が必要業務システムやツールなどに組み込み可能	API実行環境が必要
Whisper	音声認識モデル（Whisper）の実行環境を構築する必要がある扱うファイルサイズなどの自由度は高い	AIモデルの実行環境が必要
外部ツール	画面操作だけで使えるサービスが多い	利用するサービスに依存

2026年5月時点

Audio APIは、OpenAIのAPIに音声ファイルを送信し、文字起こし結果を受け取る方法です。

Whisperは、OpenAIが公開している音声認識モデルです。ローカルPCに導入しセットアップを行えば、Whisper自体は無料で利用できます。

Whisperを使うための具体的な手順は以下の記事をご確認ください。

外部ツールには、文字起こし用のWebサービス・スマホアプリ・AIボイスレコーダーなどがあります。画面操作だけで使えるものが多く、サービスによっては要約、話者分離、議事録作成、アクションアイテム抽出といった議事録作成に特化した機能が用意されている点が特徴的です。

例えば、無料で日本語の文字起こしができるAIツールには、NotesGPTというサービスがあります。文字起こしだけでなく、アクションアイテムを書き出す機能も備わっています。

NotesGPTの詳細については、以下の記事をご確認ください。

他にも文字起こしツールを知りたい方は、以下の記事をご覧ください。

要約・議事録はChatGPTで作成する

録音データは、文字起こしだけをして終了というケースは少ないでしょう。文字起こしした内容をもとに、会議の要点、決定事項、ToDo、担当者、期限まで整理することで、業務を効率化できます。

ChatGPTを活用すると、文字起こししたテキストを読み込ませて「要約して」「議事録形式にして」「アクションアイテムを表にして」などの指示を与えるだけで、読みやすいドキュメントに整形できます。

つまり、ChatGPTで文字起こしを活用する場合は、「録音→文字起こし」だけでなく、そのあとの「要約」や「議事録化」の流れを踏まえてツール選定することが重要です。

文字起こし

ChatGPT（ChatGPT Recordを利用）
Audio API
Whisper
外部ツール

要約や議事録作成

ChatGPT

内容の最終確認は人が行いつつ、文字起こしや要約・議事録作成にAIを活用することで、短時間で分かりやすい議事録を作成しましょう。

ChatGPTを使った文字起こしのやり方

ChatGPTを使った文字起こしのやり方として、ChatGPT Recordの利用手順を紹介します。

また、ChatGPT Recordが利用できない人向けに、Audio APIの利用方法についても解説します。

ChatGPT Recordで文字起こしする流れ

macOS版を利用していて、かつPro以上のプランを契約している場合は、デスクトップアプリからChatGPT Recordが利用できます。

利用の流れは以下の通りです。

STEP

デスクトップアプリのダウンロード

ChatGPT Recordを利用するためには、macOS版のデスクトップアプリが必要です。ダウンロードしていない場合は、こちらのページからダウンロードしてください。

STEP

録音を開始

チャット画面下部にある録音ボタンをクリックします。

STEP

録音を停止

録音を停止する場合は、「Stop」ボタンをクリックします。

STEP

文字起こし・要約を開始

停止ボタンをクリックすると以下の画面が表示されるので、「Send」ボタンをクリックすることで、 ChatGPTによる文字起こし・要約の生成が開始されます。

今回は「ChatGPTで音声ファイルを文字起こしする方法！議事録作成や要約作成までのやり方についての記事を執筆しています。」と音声入力したところ、以下の要約が生成されました。

STEP

要約の編集

要約を拡大させると、編集画面に移ります。

タイムスタンプをクリックして、文字起こしを確認できます。

さらに、右下のペンマークをクリックすると、編集メニューが表示され、要約の編集・修正が可能です。

以上の手順により、ChatGPTの画面で録音から文字起こし・要約を実行できます。

なお、ChatGPTのデスクトップアプリの詳しいインストール手順は、以下の記事を参考にしてください。

Audio APIで文字起こしする手順

ChatGPT Recordが利用できない場合、Audio APIを使って文字起こしをすることも可能です。なお、Audio APIを利用して文字起こしをするためには、事前に以下の準備が必要です。

OpenAIのAPIキー（APIプラットフォームで作成）
録音ファイル

Audio APIの利用方法は以下の通りです。

STEP

Google Colabにアクセス

https://colab.research.google.com にアクセスしてください。

STEP

ノートブックの作成

アクセスすると以下の画面が表示されるので、「+ノートブックを新規作成」ボタンをクリックして、ノートブックを作成します。

STEP

APIキーの設定

画面左の鍵マークをクリックし、シークレットの「値」に作成済みのAPIキーを入力します。名前は任意の名前で問題ありませんが、今回はAPI_Keyにしています。

STEP

録音ファイルのアップロード

次に、画面左のフォルダマークをクリックし、アップロードアイコンをクリックして録音ファイルをアップロードします。

アップロードが完了すると、アップロードした録音ファイルが表示されます。

なお、Audio APIでアップロードできるファイルには以下の制限があります。ファイルのサイズや形式に注意してください。

ファイルサイズは25MBまで
サポートされるファイル形式はmp3、mp4、mpeg、mpga、m4a、wav、webm

STEP

パッケージのインストール

APIを実行する前に、必要なパッケージを導入します。以下のコマンドを入力し、再生ボタンをクリックしてください。

パッケージのインストールが完了すると、以下のように表示されます。

STEP

APIの実行

最後にAPIを実行するためのソースコードを貼り付けて、再生ボタンをクリックしてください。ソースコードは、STEP3で設定したAPIキーの名前とアップロードした録音ファイルの名前を反映する必要があります。

import os
from google.colab import userdata

# 環境変数の読み込み
os.environ["OPENAI_API_KEY"] = userdata.get("<APIキーの名前>")

from openai import OpenAI
client = OpenAI()

# 音声ファイルの読み込み
audio_file= open("<録音ファイルの名前>", "rb")

# 文字起こしを実行
transcription = client.audio.transcriptions.create(
  model="gpt-4o-transcribe",
  file=audio_file,
  language="ja"
  )
print(transcription.text)

実行すると、以下のように文字起こしの結果が表示されます。

以上のように、Google Colabを利用することで簡単にAudio APIが実行できました。

ChatGPTで議事録を文字起こしから作成する方法

ChatGPTを使って、文字起こしの内容から要約や議事録を作成する方法について紹介します。

STEP

ChatGPTにアクセス

ChatGPT公式サイトにアクセスし、チャット画面を開きます。

STEP

文字起こし内容の入力

テキストボックスに文字起こしした内容を入力します。

なお、5,000文字以上のテキストの場合、Plusプラン以上であれば、チャット欄に貼り付けるだけで、自動的にファイル化されます。

ファイルを取り込む場合は、テキストボックスの＋ボタンをクリックし、「写真とファイルを追加」をクリックしてから、アップロードするファイルを選択してください。

STEP

議事録・要約の作成

入力した文字起こしの内容について、議事録や要約を作成するように指示を与えると、議事録・要約が作成されます。

今回は、以下のプロンプト（指示）を与えました。

議事録サンプルについて、会議議事録と要約を作成してください。 会議議事録は「議題」「決定事項」を整理し、「アクションアイテム」「担当者」「期限」は表で整理してください。 不明な内容は推測せず、「要確認」と記載してください。

議事録については、指示の通りアクションアイテムが表形式で整理できていることが確認できます。ChatGPTの指示で議事録のフォーマットを明確にすることで、出力結果をカスタマイズできます。

要約の内容は以下のように出力されました。要約も文字数や形式（箇条書きなど）を指定することで、カスタマイズ可能です。

ChatGPTによる音声ファイルの文字起こし精度を上げるコツ

AIによる音声ファイルの文字起こし精度は、録音環境や話し方、音声ファイルの長さによって変わります。

文字起こしの際の誤変換や抜け漏れを減らすために、ノイズ対策や、専門用語・固有名詞のリスト化、長時間音声の分割といった実践的なコツを紹介します。

ノイズを減らして聞き取りやすい音声を録音する

ChatGPTに限らず、AIを活用して文字起こしする場合、まずは録音時の音質をクリアにすることが重要です。文字起こしAIは音声を解析してテキスト化するため、周囲の雑音が大きい、話者同士の声が重なる、マイクから距離が遠いなどの悪条件が重なると、聞き間違いや抜け漏れが起きやすくなります。

会議室で録音する場合は、エアコンやキーボード音が入りにくく、参加者の声が均等に入る位置にマイクを置くようにしましょう。オンライン会議では、内蔵マイクよりもヘッドセットや外付けマイクを使うと、声が明瞭に入りやすくなります。また、発言者が同時に話さないようにする、重要な決定事項はゆっくり言い直すなどの工夫も有効です。

専門用語・固有名詞・参加者名をリスト化する

文字起こしでは、専門用語・固有名詞・サービス名・人名・会社名の誤変換が起きやすい傾向があります。たとえば、社内プロジェクト名、製品名、略語、英語のツール名などは、音として似ている別の言葉に変換されることがあります。

そのため、一般的でない用語については「単語リスト」を用意しておきましょう。ChatGPTや文字起こしツールに、「単語リスト」を参照するように指示することで、文字起こしの品質を向上させる効果が期待できます。

Prompts can help correct specific words or acronyms that the model misrecognizes in the audio. For example, the following prompt improves the transcription of the words DALL·E and GPT-3, which were previously written as “GDP 3” and “DALI”: “The transcript is about OpenAI which makes technology like DALL·E, GPT-3, and ChatGPT with the hope of one day building an AGI system that benefits all of humanity.”

【参考訳】プロンプトを使用すると、モデルが音声内で誤認識した特定の単語や頭字語を修正できます。たとえば、次のプロンプトは、以前は「GDP 3」と「DALI」と書かれていた「DALL·E」と「GPT-3」の文字起こしを改善します。
この文字起こしは、DALL·E、GPT-3、ChatGPTなどの技術を開発し、いつの日か全人類に恩恵をもたらす汎用人工知能（AGI）システムを構築することを目指すOpenAIについてです。
出典：Speech to text

長時間の音声ファイルは分割して処理する

会議や講義の音声が長い場合、長い音声ファイルをそのまま処理するより、内容のまとまりごとに分割して文字起こしする方が確認・修正を行いやすいです。

長時間音声を分割するときは、話の途中で切らないことも大切です。文の途中や発言の途中で分割すると、前後の意味が失われ、誤変換や要約漏れにつながる可能性があるためです。分割する場合、議題の切り替わり、休憩、発言者の交代など、内容が自然に切れるタイミングを選びましょう。

分割後のファイル名は「会議名01_議題確認」「会議名02_決定事項」のように整理しておくと便利です。たとえば、ChatGPTに読み込ませて議事録を作成するときも、該当するファイルだけをすぐに探せます。

ChatGPTで文字起こしや議事録作成をするときの注意点

ChatGPTで文字起こしや議事録作成を行うときは、データの扱いや制限、内容のチェックも重要です。ChatGPTを活用するときの具体的な注意事項について説明します。

録音同意や個人情報・機密情報の扱いに注意する

ChatGPTで会議音声やインタビュー音声を文字起こしする場合は、録音前に参加者の同意を取ることが重要です。録音に関するルールは国や地域、社内規定によって異なるため、特に顧客商談や取材音声では、録音目的や利用範囲を事前に伝えておきましょう。

また、使用する文字起こしツールによっては、録音音声がAIの学習に使われる場合があります。文字起こしをした時のデータの取り扱いや、データを学習に使わないようにするオプトアウトの機能について事前に確認しておきましょう。

ChatGPT Recordでは、基本的には音声データがAIの学習に使われません。

ただし、Free・Pro・Plusユーザーは設定次第で文字起こしの内容がAIの学習に使用される可能性があります。文字起こしの内容をAIの学習に使用させたくない場合、設定画面の「データコントロール」から「すべての人のためにモデルを改善する」をオフにしましょう。

Do you train on my recordings?
Audio recordings from record mode are only used for transcription purposes, and deleted afterward. We do not use these audio recordings to train our models

If you are a Pro, Plus, or Free user and have Improve the model for everyone enabled in your settings, then we may use transcripts and canvases from record mode to train our models.

【参考訳】
私の録音データを使って学習させていますか？
録音モードで録音された音声データは文字起こしのみに使用され、その後削除されます。これらの音声データはモデルの学習には使用されません。

Pro、Plus、または無料ユーザーで、設定で「すべての人のためにモデルを改善する」が有効になっている場合は、録音モードで録音された文字起こしデータとキャンバスをモデルのトレーニングに使用する場合があります。
出典：ChatGPT Record

ChatGPT Recordの制限を確認する

ChatGPT Recordを使って文字起こしを行う場合、以下の制限があります。録音前に、自分の環境で文字起こし可能か確認しておきましょう。

ChatGPT Recordの制限

macOS版デスクトップアプリでのみ提供
有料プラン（Plus、Enterprise、Edu、Business、Pro）の利用者が使用可能
連続した録音は4 時間（240 分）が上限

これらの制限を踏まえて、録音環境を用意したり、録音を区切るタイミングを事前に設計しておくことが重要です。

文字起こしや議事録の内容は人の目で確認する

AIによる文字起こしは便利ですが、録音環境や話し方によって誤変換や抜け漏れが発生することがあります。そのため、出力された内容を確認せずにそのまま共有することは避けましょう。

特に確認が必要なのは、数字・日付・金額・担当者名です。たとえば、参加者名が似た音の別単語に変換されたり、「来週金曜」「月末まで」といった期限をAIが正確に解釈できていない場合があります。金額や宿題事項に関する期限、担当者名などが誤っているとトラブルになるケースがあるため、重点的にチェックするようにしましょう。

AIは、文字起こしや議事録作成の下書きを短時間で作るための補助ツールです。最終的な内容確認と判断は人が行う前提にすることで、作業時間を短縮しながら、正確な文書作成に役立てましょう。