Metaの研究部門であるFAIR(Fundamental AI Research)は、2024年6月18日に新たなAIモデルの公開を発表しました。今回公開されたモデルは以下の4つです。
- Meta Chameleon
- マルチトークン予測
- JASCO
- AudioSeal
それぞれがAI技術の最前線をリードするものとなっています。
Meta Chameleon
最初のモデルは「Meta Chameleon」です。このモデルはテキストと画像を組み合わせて入力・出力できるもので、統一されたアーキテクチャにより設計、保守、スケーリングが容易になります。
現時点では、テキストのみを出力するモデルが公開されており、画像生成モデルはまだ公開されていません。
Chameleonモデルは、画像に対する創造的なキャプション生成やテキストと画像を組み合わせた新しいシーンの生成など、幅広い応用が期待されています。
マルチトークン予測
次に公開されたのは「マルチトークン予測」モデルです。従来の言語モデルは次の単語を予測する単純な訓練目標を持っていましたが、この新しいモデルは一度に複数の単語を予測することが可能です。
このアプローチにより、モデルの能力と訓練効率が向上し、より高速な処理が可能になります。
このモデルも研究目的で公開されており、コミュニティが独自に調査できるようになっています。
JASCO
3つ目のモデルは「Meta Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation(JASCO)」です。
このモデルはテキストから音楽を生成するだけでなく、特定のコードやビートなどの様々な条件入力を受け付けることができます。これにより、生成される音楽の質を保ちながら、より多様なコントロールが可能になります。
JASCOモデルは生成品質においても他のベースラインと比較して優れており、今後の音楽生成技術の発展が期待されています。
AudioSeal
最後に、「AudioSeal」というオーディオウォーターマーキング技術が公開されました。この技術はAI生成音声の局所検出に特化しており、従来の手法に比べて検出速度が485倍向上しています。
AudioSealはリアルタイムでの大規模な応用に適しており、AI生成コンテンツの責任ある利用を促進するために設計されています。
ここまで紹介したモデルは研究目的でのみ利用可能でしたが、この技術だけは商用ライセンスで提供されており、生成音声の検出を迅速かつ効率的に行うことができます。
AIモデルの公開理由は研究目的
MetaのFAIRチームは、これらのモデルを公開することで、研究コミュニティがさらなるイノベーションを追求できるようになることを期待しています。
公開されたモデルはすべて研究目的で使用可能であり、オープンサイエンスの精神に基づいて共有されています。これにより、AI技術の発展がさらに加速することが期待されます。
FAIRチームのこれらの取り組みは、AIの効率性、創造性、責任ある利用を促進するものであり、MetaのオープンAIエコシステムの成長と発展に貢献するものです。
研究者や開発者は、これらのモデルを活用して新しい発見や応用を模索し、AI技術の未来を切り開いていくことが期待されます。
出典:Sharing new research, models, and datasets from Meta FAIR