Stability AI 在 2026 年 5 月 20 日發表 Stable Audio 3.0,這是音樂與聲音生成模型家族。重點包括開放權重、可變長度生成、inpainting、full song composition,以及使用 licensed data 訓練。
對創作者來說,這個更新的意義不只在「可以生成音樂」,而是 AI 音樂工具開始往本機、開放權重、商用授權與更長音訊生成走。
Stable Audio 3 有哪些版本?
Stable Audio 3 包含:
| 版本 | 提供方式 | 適合誰 |
|---|---|---|
| Small | Hugging Face open weights | 本機實驗、研究、開發者 |
| Medium | Hugging Face open weights | 創作實驗、較完整音訊生成 |
| Large | Stability AI API、enterprise self-hosting | 商業部署、大型工作流 |
Small 和 Medium 開放權重,讓開發者和音樂創作者可以在本機或自己的環境實驗。Large 則偏商業 API 與企業部署。
有哪些新能力?
Variable-length generation
模型可以生成不同長度的音訊,不必每次都產生固定長度。這對音效、短片配樂、loop、完整歌曲都更實用。
Full song composition
官方提到支援 full song composition,代表生成不只停在短音效或片段,而是往完整音樂結構前進。
Inpainting
Inpainting 可用於局部修補或延伸音訊。這對創作者很重要,因為實際工作中常常不是整首重做,而是改一段、接一段、修一段。
SAME autoencoder
Stability AI 也介紹了 SAME,Semantically-Aligned Music Autoencoder。它的作用是把音訊轉成更有效的 latent representation,讓 diffusion generation 更有效率,並保留音訊品質與語意結構。
授權要注意什麼?
Stable Audio 3 的商用條件要看 Stability AI 的 license。
官方提到:
- 使用者擁有輸出。
- 可在 Stability AI Community License 或 Enterprise License 下分發與商用。
- 收入超過特定門檻的企業需要 Enterprise License。
創作者或公司在商用前,應該確認自己適用哪個 license。尤其是遊戲、廣告、影視、音樂產品和品牌內容,不要只看模型能不能生成。
和一般 AI 音樂工具差在哪?
很多 AI 音樂工具是封閉 web app,使用者只能在平台裡輸入 prompt、下載結果。
Stable Audio 3 的不同點在於:
- 有 open weights。
- 支援本機或自託管方向。
- 有 API。
- 有 enterprise deployment。
- 強調 licensed data。
- 提供 inpainting 與較完整音訊生成方向。
這對開發者、遊戲工作室、音訊工具公司和需要部署控制的企業更有吸引力。
適合哪些用途?
可能用途包括:
- 遊戲 loop。
- 影片背景音樂。
- podcast intro。
- sound effects。
- 廣告 demo music。
- 教學內容配樂。
- 音樂概念草圖。
- 互動式音訊產品。
但若要正式發行商業音樂,仍要審查授權、品質、混音、版權風險與品牌需求。
官方來源
- Stability AI,Meet Stable Audio 3.0,2026-05-20。
- Stability AI Research,Introducing Stable Audio 3 & SAME,2026-05-20。
結論
Stable Audio 3 的重點,是 AI 音樂生成開始從封閉工具走向更開放、更可部署、更可編輯的模型家族。
對創作者來說,它可能成為快速探索音樂概念與聲音素材的工具。對開發者和企業來說,open weights、API、self-hosting 和授權條件會比單次生成效果更重要。AI 音樂的下一階段,會同時競爭音質、可控性、授權與部署彈性。