【深度專題】避免資料殖民!解決資料荒的下一步?來自日本的新創 APTO
生成式 AI 正在爆發成長,但背後最關鍵的燃料──高品質資料──卻正面臨全球枯竭。研究指出,現有語料可能在 2026 年前耗盡,讓模型面臨「吃不飽、吃不對」的雙重危機。 更嚴重的是,當前主流 AI 訓練大多仰賴英語世界的資料,讓模型在處理非西方語境時失準,也讓全球多數地區陷入「資料殖民」——只能使用別人定義的語言與知識。 在這場資料競賽中,日本新創 APTO 推出社群標註平台 harBest,讓資料不再專屬於少數科技巨頭,而能由全民參與、在地生產、專業分工。對台灣而言,這樣的平台不是「可以有」,而是「應該有」。

AI 正在快速進化,但真正能餵飽它的「高品質資料」卻正在快速枯竭。
根據 Epoch AI 的預估,我們可能在 2026–2032 年間,耗盡現有的高品質公開文字資料庫;美國公共電視主播 PBS 也指出,AI 系統可能在 2026 年前「吃光」人類書寫的資料 。這不是某家公司的問題,而是整個 AI 產業面臨的全球性挑戰。
OpenAI 更在技術報告中坦言:「高品質人類標註資料」是模型性能提升的關鍵,也是一切最難的來源。傳統的資料收集與清洗流程,如今正面臨「量不夠、速度慢、成本高」的三重壓力。
但資料問題不只是「不夠」,還可能是「不對」。
目前主流訓練多依賴英語世界的資料,導致模型在其他文化、語言或地區使用時往往失準。這促使各國政府和企業提出「主權 AI」概念:資料的蒐集、訓練與使用應該在地化,以確保 AI 符合在地語言習慣與倫理標準。
延伸閱讀: 台灣也能打造自己的「主權 AI」?
這也讓「共享 AI 標註」成為未來的可能解方之一:如果資料無法複製,能否動員社群共同生產?