Geminiで文字起こしするやり方!無料で議事録作成!日本語の精度やスマホでの方法も紹介

「講義録音を正確に文字起こししたいけど時間がない」「出先でスマホから音声を素早くテキスト化したい」

そんな課題はありませんか?

Googleが開発したAI「Gemini」は、音声ファイルを高精度で日本語テキストに変換する機能を搭載しており、無料枠内でも実用的な議事録作成が可能です。

この記事では、Geminiを使用した文字起こしの基本的なやり方から、スマホでの操作方法、日本語精度を向上させるテクニック、そして無料で利用できる範囲まで詳しく解説します。

目次

Geminiによる文字起こしのやり方

Geminiで文字起こしを始めるには、簡単な準備とツールの理解が必要です。

Google AI Studioを使った基本的な操作フローを習得することで、効率的に議事録を作成することができます。

Geminiで文字起こしを始める前の準備

Geminiによる文字起こしをスムーズに進めるために、まずは準備を整えましょう。

Google AI Studioにアクセスするためには、Googleアカウントの登録が必要です。既にGoogleアカウントを持っている方は、既存のアカウントでログインできます。

また、文字起こしする音声ファイルの確認もしておきましょう。

Geminiは主要な音声形式に対応していますが、非圧縮形式のWAVや、WAVと同等の音質を保つFLACを使用すると精度が向上します。

ファイルサイズの確認も必要です。無料版でアップロード可能なファイルサイズは20MB以下、1回の入力で扱える文字数・音声長はおよそ10分前後が目安となっています。大容量ファイルは事前に分割しておいてください。

Google AI Studioを使った基本フロー

Google AI Studioでの文字起こし作業は、大きく分けて4つのステップで行っていきます。

STEP
Google AI Studioにログイン

最初に、ブラウザでGoogle AI Studio(aistudio.google.com)にアクセスし、Googleアカウントでログインします。初回アクセス時は利用規約への同意が求められるので、内容を確認して同意してください。

STEP
音声ファイルのアップロード

次に、音声ファイルのアップロードを行います。プロンプト入力欄右の、「+」ボタンをクリックして「Upload File」を選び、対象の音声ファイルをアップロードします。

STEP
プロンプトを入力

音声ファイルのアップロードが完了したら、プロンプト入力欄に文字起こしの指示を入力します。指示内容は「この音声ファイルを日本語で文字起こししてください」のように簡単な文章で問題ありません。より精度を高めたい場合は「会議の議事録として、話者を区別して文字起こししてください」のように具体的に指示を追加することもできます。

STEP
プロンプトを実行

最後に「Run Ctrl↲」ボタンをクリックすると、Geminiを使用した文字起こしの処理が開始されます。

処理時間は音声ファイルの長さによって異なりますが、5分程度の音声であれば数十秒から1分程度で完了します。

STEP
履歴名の変更

チャットの履歴名は後でわかりやすいように、「会議文字起こし_2025年7月」のような具体的な名前にしておきましょう。必要であれば説明を書き加えることもできます。

Geminiの文字起こしを使って議事録を自動生成する方法

Geminiの文字起こし機能を活用することで、今まで手作業で行っていた議事録作成を大幅に効率化できます。録音ファイルから直接議事録を生成する方法と、リアルタイムでの議事録作成テクニックを詳しく解説します。

録音ファイルをアップロードして議事録化

社内ミーティングを録音した音声ファイルがあれば、Geminiを使って簡単に議事録を生成できます。

Google AI Studioで音声ファイルをアップロード後、プロンプト欄に「この会議録音を以下の形式で議事録にしてください:1.会議概要、2.主な議論内容、3.決定事項、4.次回の開催予定」のような指示を入力します。

このように構造化された指示を与えることで、Geminiは単なる文字起こしではなく、整理された議事録を生成できるのです。

また、社外秘の会議データを扱う場合は、必ず音声ファイルをアップロード前にZIPパスワードで暗号化しておきましょう。Geminiで処理した後のファイルやログはすぐに削除することも大切です。

リアルタイム議事録作成のコツ

Geminiは基本的にファイルベースの文字起こしに特化していますが、リアルタイムで議事録を作成したい場合は、録音しながら逐次ファイルを分割アップロードするという方法があります。

例えば1時間の会議であれば、15分ごとに録音を区切ってGeminiで文字起こしを行います。そして、出力された文字起こしをGoogleドキュメントやNotion等に転記していけば、会議終了時には大まかな議事録が完成していることになります。

Geminiの文字起こし機能について無料でできる範囲と制限を解説

Geminiによる文字起こしは、無料でもある程度の機能が使えるのが魅力ですが、無料枠には制限が設けられています。

ここでは無料で利用できる範囲と、必要に応じた有料化の目安を具体的に解説します。

無料で使用できる範囲

Google AI Studioは基本的に無料で使用することができますが、レート制限が設けられており、上限を超えるとエラーが発生します。具体的な上限は下記の表の通りです。

モデル1 分あたりの
リクエスト数
1 日あたりの
リクエスト数
1 分あたりの
入力トークン数
Gemini 2.5 Pro5250,000100
Gemini 2.5 Flash10250,000250

有料になる場合とは?

Google AI Studioを高頻度で使用する場合は、無料で使用できる1分あたりのリクエスト数や1日あたりのリクエスト数が足りない場合があるかもしれません。

その場合は、Google Cloud Platformで課金することで、レート上限を増やすことができます。Google Cloud Platformの料金は従量課金制となっています。

また、Google AI Studioを無料で使用していると、入力したプロンプトやアップロードしたファイルのデータがGoogleに使用される可能性があります。

機密情報を扱う際は、課金してデータを使用されないようにしておきましょう。

Geminiによる文字起こしで日本語の精度を上げるポイントとは?

Geminiによる文字起こしを日本語で使う際、どうしても気になるのがその「精度」です。英語圏向けに開発されたAIがベースである以上、日本語音声に対しても完璧な認識が保証されているわけではありません。

しかし、少し工夫することで精度を改善することができます。音声品質の改善から認識精度を向上させる具体的なテクニックまで、実践的な方法を詳しく紹介していきます。

音質改善とノイズ除去テクニック

文字起こしの日本語精度を向上させる最も効果的な方法は、音声品質の事前改善です。Geminiはノイズや反響のある環境下では誤認識を起こしやすく、日本語の助詞や接続語を間違える原因となります。

音質を高めるために、録音前に環境を整えることが大切です。会議室や講義室での録音では、エアコンやプロジェクターのファンの音など、雑音が多く入ってしまいます。不要な機器の電源を切り、窓を閉めてできるだけ雑音を減らしておきましょう。

マイクについては、スマホやパソコンに内蔵されたマイクではなく、外部マイクやピンマイクを使用した方が音質が向上します。話者から1メートル以内、口元の高さに設置すると効果的です。

会議室での録音時はテーブルの真ん中に録音機を設置し、できるだけ参加者の声を均等に拾うようにしましょう。ノイズキャンセル機能付きの録音機器を使用するとさらに高音質な録音をすることができるようになります。

録音後は、無料の音声編集ソフトで「ノイズリダクション」機能を使用して雑音をなくすとよいでしょう。

また、音声ファイルの形式についても、MP3やAACよりもWAVFLACのような非圧縮形式の方が解析精度が高くなる傾向があります。

プロンプトの工夫で誤字を減らす

Geminiの文字起こし精度は、プロンプトの書き方によっても大きく左右されます。ただ「この音声を文字起こしして」と書くよりも、録音の内容と文字起こしの意図を明確に伝えた方が出力結果の精度は上がります。

録音の内容と、録音中で使われる専門用語や固有名詞を具体的に伝えるようにしましょう。「この音声は営業会議の録音で、『四半期目標』『顧客満足度』『売上予算』などの専門用語が頻出します。これらの用語を正確に認識して文字起こししてください」のような具体的な情報を含めることで、Geminiが適切な語彙を選択できます。

「参加者:田中部長、鈴木係長、佐藤主任。製品名:システムA、プロジェクトB。専門用語:API連携、データベース統合」のような情報もプロンプトに含め、人名や製品名の誤認識を防ぎましょう。

また、Geminiには発言者識別機能がありません。会話の間合いや文脈である程度の識別は可能ですが、プロンプトでも発言者の情報を伝えることで精度が向上します。

「この会議では、最初に司会者の田中部長が議題を説明し、その後、鈴木、佐藤が順番に報告します。発言者が変わるタイミングで話者名を明記してください」のような指示をすることで、Geminiが発言者の切り替わりを正確に認識できるのです。

「次の音声を、助詞や句読点を正確に含めた日本語の文書形式で文字起こししてください」や「ビジネス会議の録音のため、『です・ます調』を正確に認識し、適切な敬語表現で文字起こししてください」のような指示も、日本語特有の表現を正しく処理するのに役立ちます。

Geminiの文字起こし:スマホでの使い方

外出先での議事録作成や講義の記録をすぐに文字化したい場面では、スマホからのGemini文字起こしが非常に便利です。

ここでは、AndroidおよびiPhoneユーザー向けに、スマホでの音声アップロードから文字起こし、テキストの共有までの流れを段階的に紹介します。

Google AI Studioは専用アプリを提供しておらず、ブラウザ経由での操作が基本となります。そのため、Google ChromeやSafariなどのブラウザが必要となりますが、基本的な操作はパソコンを使用する場合と変わりません。

STEP
Google AI Studioにログイン

まず、ChromeやSafariなどのブラウザでGoogle AI Studio(aistudio.google.com)にアクセスし、Googleアカウントでログインします。スマホの場合は、画面を横向きにすることで操作しやすくなります。

STEP
音声ファイルをアップロード

ログインできたら、音声ファイルをアップロードしましょう。「+」ボタン、「Upload File」をタップして、端末内のファイルの場所を選びましょう。

STEP
プロンプトを実行

音声がアップロードできたらプロンプトを入力し、「↑」ボタンで実行します。

STEP
出力内容の確認

パソコンを使用したときと同じように文字起こしが出力されました。

スマホでの作業時には、通信環境に注意するようにしてください。音声ファイルのアップロードや処理は、データ通信の消費量が大きいです。通信環境が不安定だと処理が失敗しやすくもなるため、Wi-Fiに接続した環境で作業をした方がよいでしょう。

外出先での機密情報の取り扱いについても、セキュリティ配慮が必要です。公共のWi-Fiは使わず、処理完了後は必ずブラウザのキャッシュをクリアしておいてください。

おすすめの文字起こし専用AIツール3選

Geminiは強力なAIを活用した高精度な文字起こしが可能ですが、音声ファイルの用意やアップロードの手間がかかるというデメリットもあります。

そこで、より実務に適した専用ツールを求める方に向けて、録音から文字起こし・議事録作成までを一貫して行えるAIツールを3つ紹介します。

PLAUD NOTE

出典:PLAUD NOTE公式

PLAUD NOTEは、AIによる文字起こしを使用できるボイスレコーダーです。

Geminiが音声ファイルを別途用意してアップロードする必要があるのに対し、PLAUD NOTEは本体に録音機能が備わっています

録音した音声を専用アプリに取り込むことで文字起こしや録音した音声の要約を行うことができます。発言者の識別や自動での段落分けもできるため、議事録の作成も短時間で行うことができるようになります。

また、オフライン環境での録音が可能なため、機密性の高い会議や通信環境が不安定な場所でも安心して利用できます。

日本語の認識精度も高く、ビジネス会議特有の専門用語や敬語表現を正確に処理できます。話者識別の精度が特に優れており、複数人の発言を自動的に区別して記録してくれます。

\ 今なら最大4,430円OFFクーポン配布中 /

あわせて読みたい
PLAUD NOTEとは?使い方や充電方法とPC接続について!料金や通話録音の方法 PLAUD NOTE(プラウドノート)は、AIを活用した革新的なボイスレコーダーです。 高精度な文字起こしや通話録音機能を搭載し、ビジネスや学習の効率を大幅に向上させます。 シンプルな使い方やPC接続による柔軟なデータ管理が可能で、充電方法や複数アカウントへの対応、紐づけ解除など便利な機能が満載です。 本記事では、PLAUD NOTE(プラウドノート)の特徴や使い方、料金、操作方法などを詳しく解説していきます。

PLAUD NotePin

出典:PLAUD NotePin公式

PLAUD NotePinは、より小型でシンプルなクリップ型デバイスです。見た目はピンマイクに近く、スーツやカバンに装着したまま録音・文字起こしが可能で、従来の録音機器のような存在感がありません。

PLAUD NOTEと比べると音質はやや劣りますが、バッテリー持続時間も長く、一日中の使用に耐えられる設計となっています。

移動中や立ち話の録音にも対応しており、モバイルワーカーにおすすめです。

\ 今なら最大4,430円OFFクーポン配布中 /

あわせて読みたい
PLAUD NotePinとは?使い方や機能と特徴!価格と購入方法も紹介 PLAUD NotePinとは、アメリカのNicebuild社が開発した最新の小型AIウェアラブルデバイスで、音声の録音から文字起こし・要約作成までを一貫してサポートする小型ツールです。 ビジネス・教育・医療など、さまざまな現場で活用され、データ管理の効率化を可能にします。 この記事では、PLAUD NotePinの使い方・機能・特徴・購入方法・価格について詳しく紹介します。

Notta

出典:notta公式

Nottaは、リアルタイム録音と同時にAIが即時文字起こししてくれるブラウザベースのクラウドサービスです。ZoomやGoogle Meet、Microsoft Teamsなどの会議ツールと直接連携し、会議開始から終了まで自動的に録音と文字起こしができるため、リモート会議の議事録自動化にも大きな威力を発揮します。

Geminiとの最大の違いは、ライブ会議への対応です。事前に音声ファイルを準備する必要がなく、オンライン会議のURLを共有するだけで、自動的に参加者として会議に参加し、リアルタイムで文字起こしを行います。

また、複数言語の同時処理も可能で、日本語と英語が混在する国際会議でも正確な文字起こしが可能です。生成された議事録を参加者全員に自動配信する機能もあり、会議後の共有作業も効率化できます。

\ 無料お試し実施中 /

あわせて読みたい
Nottaとは?使い方や料金プラン!WEB会議もAIで文字起こしから議事録まで一気出し Nottaとは、音声をリアルタイムで文字化し、議事録まで自動で生成するAI文字起こしツールです。Notta AIは高精度な音声認識と要約機能を備え、会議や商談の業務効率を大幅に改善します。Nottaの使い方や料金プラン、活用法までをわかりやすく解説します。

まとめ

Geminiの文字起こしは、日本語の音声にも高い精度で対応できる非常に便利なAIツールです。

Google AI Studioを通じてファイルをアップロードするだけで、会議や講義、インタビューの音声をわずか数十秒でテキスト化できるため、議事録の作成も簡単に行えます。

機密情報の取り扱いには十分注意してGeminiの文字起こしを利用し、作業効率を最大化しましょう。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次