技術發展

OpenAI推出語音引擎預覽版，15秒聲音合成多語言人聲

OpenAI最近公開了語音引擎（Voice Engine）的預覽版，這是一項能夠重現人聲的創新AI工具。這項功能允許用戶上傳一段15秒的語音樣本，然後將這些語音資料合成更多版本，目前已開放給少數公司進行測試。這項技術的亮點在於，它能夠產生情感豐富且自然真實的聲音，與原始說話者非常相似，並且在處理完成後會刪除所使用的音訊。

OpenAI最近公開了語音引擎（Voice Engine）的預覽版，這是一項能夠重現人聲的創新AI工具。這項功能允許用戶上傳一段15秒的語音樣本，然後將這些語音資料合成更多版本，目前已開放給少數公司進行測試。這項技術的亮點在於，它能夠產生情感豐富且自然真實的聲音，與原始說話者非常相似，並且在處理完成後會刪除所使用的音訊。

在一個示例中，一名英語用戶的聲音被翻譯成多種語言，包括西班牙語、國語、德語、法語和日語，同時保留了原說話者的口音，這項技術不僅展示了OpenAI在提供高品質語音方面的能力，也引發了對於語音合成技術可能帶來的影響的討論，包括對配音員、影音內容製作等領域的潛在影響，以及公眾對這類工具被不法分子用於詐騙或散播不實資訊的擔憂。官網視聽

儘管OpenAI的Voice Engine展現了令人驚艷的成果，但公司對於這項技術的推廣採取了謹慎的態度，目前僅進行小範圍的限定測試。這種謹慎的態度反映了OpenAI對於技術濫用的擔憂，特別是在語音合成技術可能對配音員、影音內容製作等領域帶來影響，以及公眾對這類工具被不法分子用於詐騙或散播不實資訊的擔憂。

OpenAI強調，他們對於採用Voice Engine技術的合作夥伴都嚴格規範，禁止任何未經同意的使用情況，並且有針對產生的語音加入可追蹤原始來源的水印。此外，OpenAI提出了一系列措施，包括逐步淘汰以語音進行身分認證的敏感服務的驗證機制，以及開發追蹤視聽內容來源的技術，以確保人們在與真人或AI互動時能夠清晰辨識。

Thinking Machines 發布首款開放權重 AI 模型 Inkling

Thinking Machines 發布 Inkling：975B 開放權重模型，主打可自訂與多模態

Mira Murati 創辦的 Thinking Machines 發布首款 AI 模型 Inkling，採 975B 參數 MoE 架構，支援文字、圖片與音訊，並開放完整權重供企業微調與部署。

【設計師的 AI 秘笈】3 個 ChatGPT × Canva 實用玩法，AI 圖片也能拆成可編輯圖層

透過 GPT 可以直接使用 Canva 做什麼？本文整理 3 個 ChatGPT × Canva 實用玩法，教你連接 Canva、使用 Magic Layers 將 AI 圖片拆成可編輯圖層，以及生成設計、製作社群素材、搜尋與修改既有設計。

Codex Pets 完整教學：用自拍、寵物或品牌吉祥物建立自訂桌寵

Codex Pets 怎麼開啟與自訂？從角色設定、hatch-pet Prompt、九列動畫、Spritesheet 規格到桌面版、網頁版與 CLI 差異，一次完成。

GPT-5.6 Prompt 教學，從冗長規則改成成果、成功標準、限制與停止條件

GPT-5.6 Prompt 怎麼寫？OpenAI 官方提示詞教學、實戰範例與 Evals 優化

GPT-5.6 Prompt 怎麼寫？整理 OpenAI 官方提示詞指南，教你精簡冗長規則、設定成功標準與 Stop rules，並用 3 組範例和 Evals 優化結果。

Read more

Thinking Machines 發布 Inkling：975B 開放權重模型，主打可自訂與多模態

【設計師的 AI 秘笈】3 個 ChatGPT × Canva 實用玩法，AI 圖片也能拆成可編輯圖層

Codex Pets 完整教學：用自拍、寵物或品牌吉祥物建立自訂桌寵

GPT-5.6 Prompt 怎麼寫？OpenAI 官方提示詞教學、實戰範例與 Evals 優化