会話の自然さが人間並みに―Sesameが最新音声AI「Conversational Speech Model」を公開

出典:Sesame

AI企業のSesameは、人間のように自然な会話が可能な音声AIシステム「Conversational Speech Model(CSM)」を開発し、そのデモを公開しました。

Sesameが開発したCSMは、感情的知性、会話のダイナミクス、文脈認識、一貫した個性という4つの要素を統合し、「voice presence(声の存在感)」を重視することで、これまでの音声AIの課題だった不自然な受け答えや感情表現の乏しさを克服しています。

このモデルはTiny(1B)、Small(3B)、Medium(8B)の3サイズが用意されており、客観的・主観的な評価テストにおいていずれも高い性能を記録しました。

出典:Sesame

特に中型のモデル(Medium・8B)は、主観的な評価テストにおいて人間の話者と区別がつかないレベルの自然さを示しています。ただし、会話が進んだ後の細かな文脈の把握にはまだ改善の余地があるとのことです。

今回公開されたデモには、「Maya」と「Miles」という二つのAIキャラクターが登場しています。実際に公開されたデモでは、人間と変わらないほど自然な英語での会話が披露され、学校で学んだ程度の英語力では、実際の話者との区別が難しいほどの高品質な音声が実現されています。

出典:Sesame

一方で、海外のテクノロジーコミュニティであるHacker News上では「驚異的な自然さだ」と評価される反面、「音声に含まれる不自然なほどの陽気さが気になる」といった批判的な意見も一部から出ています。

SesameのCEOを務めるブレンダン・イリベ氏は、このような課題を認めつつ、今後さらに精度を高めるための研究を継続していく方針を明らかにしました。

Sesameは、この音声生成モデル「Conversational Speech Model(CSM)」をApache 2.0ライセンスでオープンソース化する予定です。

また、現在は英語中心の対応ですが、今後20以上の言語に対応する多言語化やモデルの規模拡大も計画しているとのことです。オープンソース化により、この高度な音声技術が世界中の開発者や企業に自由に利用され、さらなるイノベーションが期待されています。


出典:Sesame

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!
目次