初の日本語リアルタイム音声対話モデル「J-Moshi」が公開　驚きの自然さで会話が実現

2025年1月25日

日本語で利用可能な初のリアルタイム音声対話モデル「J-Moshi」が公開され、AI業界で注目を集めています。

このモデルは、フランスのスタートアップ企業Kyutaiが開発した音声AIモデル「Moshi」を基盤に、名古屋大学大学院情報学研究科の研究チームが日本語仕様に最適化したものです。

J-Moshiの最大の特徴は、「話す」と「聞く」を同時に行うフルデュプレックス対話能力です。

従来の音声対話システムでは、ユーザーの発話が終わるまでAIが待機する半二重方式が一般的でした。

しかし、J-Moshiは人間の自然な会話のように、相手が話している最中に相槌を打ったり、補足的な質問を行ったりすることが可能です。

この特性により、よりスムーズで直感的なコミュニケーションが実現します。

出典：J-Moshi

技術的な特徴として、モデルサイズが7Bと非常に軽量である点が挙げられます。

この軽量設計により、低コストでの運用が可能となり、幅広いデバイスやアプリケーションでの実装が期待されています。

J-Moshiの登場は、日本語音声AIの分野にとって大きな前進と言えます。

同モデルは、2025年3月に長崎で開催される言語処理学会の年次大会「NLP2025」で発表予定とされており、さらなる注目を集めることが予想されています。

このモデルの進化が、日本国内外でのAI技術の発展を一層加速させることは間違いありません。

出典：J-Moshi

よかったらシェアしてね！

TALIX & DingTalk A1を実機レビュー！おすすめの使い方はリアルタイム文字起こしと翻訳