智能應用

從圖像到音頻，Stability AI 的擴散模型將改變音樂製作的遊戲規則

Stability AI，一家主要以 AI 生成視覺效果而聞名的公司，推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型，與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同，但訓練的是音頻而非圖像，使用者可以使用它來生成歌曲或任何項目的背景音樂。

Hannah

18 Sep 2023 — 2 min read

Stability AI，以 AI 生成視覺效果而聞名的公司，推出 Stable Audio 的文字到音頻生成式 AI 平台。Stable Audio 使用的是一種擴散模型，與該公司受歡迎的圖像工具 Stable Diffusion 所使用的 AI 模型相同，但訓練的是音頻而非圖像，使用者可以使用它來生成歌曲或任何項目的背景音樂。

音頻擴散模型傾向於生成固定長度的音頻，這對音樂製作來說是一個問題，因為歌曲的長度可能會有所不同。Stability AI 的新平台允許用戶製作不同長度的聲音，這需要該公司在音樂上進行訓練，並添加有關歌曲開始和結束時間的文本元數據。

根據該公司的說法，它使用“由超過 800,000 個音頻文件組成的數據集進行訓練，這些文件包含音樂、音效和單一樂器的主幹音軌”，以及來自庫存音樂許可公司 AudioSparx 的文本元數據。該數據集代表了超過 19,500 小時的聲音。Stability AI 表示，通過與一家許可公司合作，它有權使用受版權保護的材料。

與其他生成式 AI 音頻平台一樣，Stable Audio 的潛在使用案例將主要用於製作Podcast或視頻的背景音樂，用以加快這些工作流程。Stability AI 也在去年宣布計劃擴展到音頻生成、視頻和 3D 圖像。

【Vibe Coding】Gemini 3 + three.js 3D 教學｜不用寫程式也能做 3D 手勢互動粒子特效

透過一段 Prompt，就能用 Gemini 3 自動生成 three.js 3D 手勢互動粒子特效。本教學完整示範從貼指令到開啟網頁、用雙手操控粒子的全流程。

為何 OpenAI 對 ChatGPT 宣布「紅色警戒」？Google Gemini 逼出史上最大改版

OpenAI 啟動 ChatGPT 紅色警戒全力優化體驗對抗 Gemini

Anthropic 首度收購Bun！Claude Code年收入破10億美元，AI程式碼革命加速

Anthropic 用一次收購把整個開發者世界按在地上摩擦：Claude Code 半年狂奔到 10 億美元年化收入，現在直接把 JavaScript 界最快、最狠的 Bun 整個吞進肚子。從此以後：你寫前端、後端、Serverless、AI Agent、腳本、測試，全部都跑在 Anthropic 免費開源、MIT 授權、比 Node.js 快 4 倍的 Bun 上，還順便讓 Claude Code 變得更快、更穩、更便宜。

Nvidia 20 億美元入股Synopsys！AI 晶片設計革命，2026 年 EDA 市場重組

Nvidia 直接用 20 億美元 + CUDA + Omniverse 把全球 90% 市佔的 Synopsys EDA 工具綁進自己的 GPU 生態，這不是投資，這是鎖喉。晶片設計的上游從此貼上「Made by Nvidia」標籤，AMD、Intel、甚至所有想自研的雲廠，從 2026 年開始連設計工具都要看 Nvidia 臉色。

Read more

【Vibe Coding】Gemini 3 + three.js 3D 教學｜不用寫程式也能做 3D 手勢互動粒子特效

為何 OpenAI 對 ChatGPT 宣布「紅色警戒」？Google Gemini 逼出史上最大改版

Anthropic 首度收購Bun！Claude Code年收入破10億美元，AI程式碼革命加速

Nvidia 20 億美元入股Synopsys！AI 晶片設計革命，2026 年 EDA 市場重組