
日本語で利用可能な初のリアルタイム音声対話モデル「J-Moshi」が公開され、AI業界で注目を集めています。
このモデルは、フランスのスタートアップ企業Kyutaiが開発した音声AIモデル「Moshi」を基盤に、名古屋大学大学院情報学研究科の研究チームが日本語仕様に最適化したものです。
J-Moshiの最大の特徴は、「話す」と「聞く」を同時に行うフルデュプレックス対話能力です。
従来の音声対話システムでは、ユーザーの発話が終わるまでAIが待機する半二重方式が一般的でした。
しかし、J-Moshiは人間の自然な会話のように、相手が話している最中に相槌を打ったり、補足的な質問を行ったりすることが可能です。
この特性により、よりスムーズで直感的なコミュニケーションが実現します。
技術的な特徴として、モデルサイズが7Bと非常に軽量である点が挙げられます。
この軽量設計により、低コストでの運用が可能となり、幅広いデバイスやアプリケーションでの実装が期待されています。
J-Moshiの登場は、日本語音声AIの分野にとって大きな前進と言えます。
同モデルは、2025年3月に長崎で開催される言語処理学会の年次大会「NLP2025」で発表予定とされており、さらなる注目を集めることが予想されています。
このモデルの進化が、日本国内外でのAI技術の発展を一層加速させることは間違いありません。
出典:J-Moshi