從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,一家主要以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

從圖像到音頻,Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI,以 AI 生成視覺效果而聞名的公司,推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型,與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同,但訓練的是音頻而非圖像,使用者可以使用它來生成歌曲或任何項目的背景音樂。

音頻擴散模型傾向於生成固定長度的音頻,這對音樂製作來說是一個問題,因為歌曲的長度可能會有所不同。Stability AI 的新平台允許用戶製作不同長度的聲音,這需要該公司在音樂上進行訓練,並添加有關歌曲開始和結束時間的文本元數據。

根據該公司的說法,它使用“由超過 800,000 個音頻文件組成的數據集進行訓練,這些文件包含音樂、音效和單一樂器的主幹音軌”,以及來自庫存音樂許可公司 AudioSparx 的文本元數據。該數據集代表了超過 19,500 小時的聲音。Stability AI 表示,通過與一家許可公司合作,它有權使用受版權保護的材料。

與其他生成式 AI 音頻平台一樣,Stable Audio 的潛在使用案例將主要用於製作Podcast或視頻的背景音樂,用以加快這些工作流程。Stability AI 也在去年宣布計劃擴展到音頻生成、視頻和 3D 圖像。

Read more

[AI郵報新年特輯] 2025 - 26 Top 5 AI 工具 & 大事件回顧

[AI郵報新年特輯] 2025 - 26 Top 5 AI 工具 & 大事件回顧

新年快樂,各位 AI 狂熱者!(文末有抽獎活動!抽十位 Manus 8000 積分 Pro 會員!) 在點開這封信、開始閱讀本週的週年回顧前,請先給螢幕前的自己鼓鼓掌。老實說,在農曆新年期間還能保持「開信」的慣性,基本上已經是 AI 成癮者了,如果開一個戒斷互助會,我想是沒有人會來的,因為就我們來說,用 AI 已經成為不想戒、不能戒的習慣了。 上週我們啟動了《AI 郵報》的年度訂戶調查(目前仍在進行中,點這裡前往填寫)。在後台看反饋時,有讀者對我們的題目設計蠻有興趣,私底下詢問我們「為什麼要問閱讀週報時,同時還在做什麼?」 這題看似閒聊,但其實是因為我之前研究 Netflix 的一個啟發。當大家在討論 Disney+ 或 YouTube 或是其他本地 OTT 對於

Elon Musk 確認 xAI 裁員——SpaceX 天價併購後的重組風暴與共同創辦人出走潮

Elon Musk 確認 xAI 裁員——SpaceX 天價併購後的重組風暴與共同創辦人出走潮

Elon Musk 確認 xAI 進行組織重組並裁員,距離 SpaceX 以 1.25 兆美元收購 xAI 僅一週多。這筆史上最大企業併購案的背後,是接連不斷的高層出走潮:12 位共同創辦人已有 6 人離職,包括 Tony Wu 和 Jimmy Ba 在 48 小時內相繼宣布離開。合併後的新公司計畫在 2026 年 IPO,但 Grok 聊天機器人面臨技術爭議與監管壓力,為這場天價 IPO 增添不確定性。