【深度專題】避免資料殖民!解決資料荒的下一步?來自日本的新創 APTO

生成式 AI 正在爆發成長,但背後最關鍵的燃料──高品質資料──卻正面臨全球枯竭。研究指出,現有語料可能在 2026 年前耗盡,讓模型面臨「吃不飽、吃不對」的雙重危機。 更嚴重的是,當前主流 AI 訓練大多仰賴英語世界的資料,讓模型在處理非西方語境時失準,也讓全球多數地區陷入「資料殖民」——只能使用別人定義的語言與知識。 在這場資料競賽中,日本新創 APTO 推出社群標註平台 harBest,讓資料不再專屬於少數科技巨頭,而能由全民參與、在地生產、專業分工。對台灣而言,這樣的平台不是「可以有」,而是「應該有」。

Share
【深度專題】避免資料殖民!解決資料荒的下一步?來自日本的新創 APTO

AI 正在快速進化,但真正能餵飽它的「高品質資料」卻正在快速枯竭。

根據 Epoch AI 的預估,我們可能在 2026–2032 年間,耗盡現有的高品質公開文字資料庫;美國公共電視主播 PBS 也指出,AI 系統可能在 2026 年前「吃光」人類書寫的資料 。這不是某家公司的問題,而是整個 AI 產業面臨的全球性挑戰。

OpenAI 更在技術報告中坦言:「高品質人類標註資料」是模型性能提升的關鍵,也是一切最難的來源。傳統的資料收集與清洗流程,如今正面臨「量不夠、速度慢、成本高」的三重壓力。

但資料問題不只是「不夠」,還可能是「不對」

目前主流訓練多依賴英語世界的資料,導致模型在其他文化、語言或地區使用時往往失準。這促使各國政府和企業提出「主權 AI」概念:資料的蒐集、訓練與使用應該在地化,以確保 AI 符合在地語言習慣與倫理標準。

延伸閱讀: 台灣也能打造自己的「主權 AI」?

這也讓「共享 AI 標註」成為未來的可能解方之一:如果資料無法複製,能否動員社群共同生產?

Read more

Spotify 開始頒「人類認證」勳章,每天 75,000 首歌一半是 AI 生的

Spotify 開始頒「人類認證」勳章,每天 75,000 首歌一半是 AI 生的

AI 小道消息 01 Adobe 開放公測 Firefly AI Assistant:用自然語言描述目標,AI 自動跨 Photoshop、Lightroom、Premiere 等 60+ 工具執行多步驟工作流程,整合商業授權訓練內容,所有輸出保留可編輯性,Creative Cloud Pro 及付費 Firefly 方案用戶皆可使用。 02 中國 NDRC 正式叫停 Meta $20 億收購 Manus,裁定「技術國籍跟著研發地點走,不跟公司印章走」——Manus 遷冊新加坡的「洗白」操作被直接否定;兩位共同創辦人在調查期間遭禁止離境,員工已並入 Meta 的整合如何解除仍無定論。 03 Q1 2026 財報:AWS 年增

Google 擬繞過聯發科直接向台積電下 TPU 訂單:成本、封裝、供應鏈三大戰場深度解析

Google 擬繞過聯發科直接向台積電下 TPU 訂單:成本、封裝、供應鏈三大戰場深度解析

Google 正悄悄評估是否跳過聯發科(MediaTek),以 COT(Customer-Owned Tooling)模式直接向台積電下單生產下一代 TPU v8e(Humufish)核心運算晶片。與此同時,英特爾 EMIB-T 封裝技術良率已達 90% 里程碑,但離量產標準 98% 仍有一段距離,台積電 CoWoS 也持續爭取封裝訂單。本文深度解析這場牽動台積電、聯發科、英特爾三方的 AI 晶片供應鏈重組。