Stability AIは6月5日、新たなオープンソースのAIモデル「Stable Audio Open」を公開しました。このモデルは、プロンプトを使用して短いオーディオサンプルやサウンドエフェクトを生成することに特化しています。
同モデルを使用すると、最大47秒の高品質な音声データを生成することが可能です。ドラムビートや楽器のリフ、周囲の音響、効果音など、様々な音楽制作やサウンドデザインのニーズに対応します。ユーザーは独自のカスタムオーディオデータを使用して、モデルをファインチューニングすることもできます。
Stable Audio Openは、2023年9月に公開された商用モデルのStable Audioとは異なり、短い音楽クリップやサウンドエフェクトの生成に特化しています。この新しいモデルは、FreeSoundやFree Music Archiveからのオーディオデータを使用してトレーニングされており、クリエイターの権利を尊重しつつオープンなオーディオモデルを実現したということです。
Stable Audio Openのモデルの重みはHugging Faceで公開されており、サウンドデザイナーやミュージシャン、開発者、オーディオ愛好家による活用が期待されています。同社は今後もコミュニティと連携して研究と開発を続けていく予定だということです。