この記事のポイント
- Stability.aiは、音楽制作やサウンドデザインに特化した音声生成モデル「Stable Audio Open」をオープンソースとして公開しました。
- このモデルは、最大47秒のオーディオサンプルやサウンドエフェクトを生成することができ、ドラムビートや楽器のリフなど音楽クリップの作成に理想的です。
- Hugging Faceを通じてモデルのデータを入手でき、サウンドデザイナーやミュージシャンなど、幅広い利用者による使用が奨励されています。
監修者プロフィール
坂本 将磨
Microsoft AIパートナー、LinkX Japan代表。東京工業大学大学院で技術経営修士取得、研究領域:自然言語処理、金融工学。NHK放送技術研究所でAI、ブロックチェーン研究に従事。学会発表、国際ジャーナル投稿、経営情報学会全国研究発表大会にて優秀賞受賞。シンガポールでのIT、Web3事業の創業と経営を経て、LinkX Japan株式会社を創業。
Stability.aiは、音声生成モデル「Stable Audio Open」をオープンソースとして公開し、音楽制作やサウンドデザインを新しい次元へと導くことを発表しました。
このモデルはテキストをオーディオに変換することで、ドラムビートや楽器のリフなど、最大47秒長のオーディオサンプルを生成する能力を持っており、特に音楽制作者やサウンドデザイナーにとって画期的なツールとなることが期待されます。
商用版と異なり、完全な曲やボーカル生成には特化していないものの、短い音楽クリップやフォーリー等のサウンドデザインの要素に関して優れたパフォーマンスを発揮します。
また、Stable Audio Openはフリーのオーディオデータベースを活用し、AIの責任ある使用を推進しています。
この革新的な取り組みは、音声合成技術の可能性を広げ、クリエイティブな世界に新たな風をもたらすことでしょう。
オープンソース音声生成モデル「Stable Audio Open」の登場
2024年6月5日、新しいオープンソース音声生成モデル「Stable Audio Open」が発表されました。
このモデルは、テキストからオーディオへ変換する技術を使い、最大47秒間のオーディオサンプルやサウンドエフェクトを生成することができます。
特に、ドラムビートや楽器のリフ、環境音、フォーリー(効果音)など、音楽制作やサウンドデザインに特化しています。ユーザーはこのモデルを使って、自分だけのカスタムオーディオデータを作成することが可能です。
たとえば、ドラマーは自分のドラム録音を使って新しいビートを生成することができるのです。
また、このモデルは商用製品「Stable Audio」とは異なり、完全な曲やメロディー、ボーカルの生成には最適化されていませんが、短い音楽クリップやサウンドデザイン要素を生み出すためには理想的です。
Stable Audio Openは、FreeSoundやFree Music Archiveなどのオープンなオーディオデータを使って開発され、責任あるAIの使用をサポートしています。
Stable Audio Openの利用方法とコミュニティへの参加
Stable Audio Openモデルの実際の利用方法はとてもシンプルです。このモデルのウェイト(学習済みのデータ)はHugging Faceで提供されています。
サウンドデザイナーやミュージシャン、開発者、そしてオーディオ愛好家は誰でもこのモデルをダウンロードして、その機能を試すことができます。
また、ユーザーは自身の実験やフィードバックを開発者に提供することが奨励されており、これによってより良い音声生成モデルの発展が期待されています。
さらに、このプロジェクトはオーディオ生成AIの分野でのオープンな探求を目的としており、開発者とコミュニティが協力して、より良いAIを作り上げることを目指しています。
出典:stability.ai