
Googleは、音声を音声のまま翻訳する新モデル「Gemini 3.5 Live Translate」を発表しました。70以上の言語に対応し、ユーザーが話し始めると同時に翻訳を開始することで、数秒遅れの自然な同時通訳を実現します。従来のように話者が話し終えるのを待ってから翻訳する方式ではなく、次に話される内容を聞き取りながら翻訳音声を連続的に生成する点が特徴です。
Gemini 3.5 Live Translateは、翻訳の速さと品質のバランスを瞬時に判断し、会話の流れを妨げにくい自然な音声を出力します。翻訳時には、話者の声の高さや抑揚、話す速さも保持できるため、単なる文字情報の変換ではなく、会話のニュアンスを反映した音声翻訳が可能になるということです。Googleによると、同社の翻訳技術は20年前に機械学習の実験として始まり、現在ではGoogle製品全体で毎月1兆語以上が翻訳され、数十億人のユーザーに利用されています。
新モデルは、開発者向けにはGemini Live APIとGoogle AI Studioを通じてパブリックプレビューとして提供されます。企業向けには、Google Meetで一部の法人向けGoogle Workspace顧客を対象に、今月からプライベートプレビューが始まります。また、一般ユーザー向けにはAndroidとiOSのGoogle Translateアプリでグローバルに展開されます。
Google Meetでは、音声翻訳機能にGemini 3.5 Live Translateが導入される予定です。これにより、対応言語は従来の5言語から70以上に拡大し、1回の会議で2000以上の言語組み合わせに対応できるようになります。これまでは英語との相互翻訳が中心でしたが、今後は英語を介さない多言語間の会話にも対応しやすくなるでしょう。Googleは、より広範な展開を今年後半に予定しています。
Google Translateアプリでは、ヘッドホンを接続することで、話者の声の調子を反映したライブ翻訳を利用できます。Androidでは新たに「listening mode」も展開され、スマートフォンを通常の通話のように耳に当てるだけで、翻訳音声を受話口から直接聞けます。ヘッドホンがない場面や、翻訳音声を周囲に聞かせたくない場面での利用が想定されています。
企業での活用も進み始めています。配車・配送などを手がけるGrabは、ドライバーと旅行者の多言語コミュニケーションを支援するため、Gemini 3.5 Live Translateをテストしています。Grabでは月間1000万件以上の音声通話が行われており、同社は複数言語の自動検出や低遅延で正確な翻訳を評価しています。Googleは、AIが生成するすべての音声にSynthIDによる電子透かしを埋め込み、AI生成音声を検出可能にすることで、誤情報対策にも取り組むとしています。
