ChatGPT 為何常常亂講?OpenAI 最新研究揭露 ChatGPT「幻覺」背後的統計學與評分陷阱

OpenAI 最新研究指出,AI 幻覺並非技術缺陷,而是訓練獎勵制度導致模型「被逼著亂猜」。解法在於修改評估規則,讓模型在不確定時誠實承認「不知道」。

ChatGPT 為何常常亂講?OpenAI 最新研究揭露 ChatGPT「幻覺」背後的統計學與評分陷阱

為什麼 AI 老是「信心滿滿地胡說八道」?

自從 ChatGPT 推出後,「AI 幻覺」(AI Hallucination) 幾乎成為科技圈最熱門的抱怨之一。明明是最新最強大的 GPT-5,卻還常常一本正經地回答錯誤內容,甚至自信滿滿地「亂編」。

到底問題出在哪裡?
是資料不完整?還是模型架構有缺陷?

OpenAI 與佐治亞理工 (Georgia Tech) 在 2025 年 9 月 4 日發表最新研究,正式指出:
AI 之所以會幻覺,不是模型的技術問題,而是訓練與評估激勵結構出了問題

換句話說,AI 不是「故意亂說」,而是因為它在「考試制度」下,被逼著選擇「有把握亂猜」也比「老實說不知道」來得划算。


幻覺的根源:統計學 + 懲罰機制

研究報告名稱為 〈Why Language Models Hallucinate〉,作者包括 OpenAI 的 Adam Tauman Kalai、Ofir Nachum、Edwin Zhang,以及 Georgia Tech 的 Santosh Vempala。

他們提出兩個核心發現:

1. 統計學上的必然錯誤

  • 幻覺其實不是什麼神秘現象,而是 二元分類 (binary classification) 誤差的自然產物。
  • 即使擁有完美乾淨的訓練數據,模型也會因為統計學機制而出錯。
  • 特別是「singleton」事實──只在訓練資料出現一次的知識。當模型再遇到相關問題時,就容易「腦補」錯誤答案。

舉例:研究團隊詢問模型「Adam Tauman Kalai 的生日是什麼?」即使指令中明確要求「只在確定時才回答」,ChatGPT、DeepSeek-V3 等多個模型仍自信給出三個完全不同但全錯的答案。

2. 訓練與評估機制的誤導

  • 主流 AI 測試 (如 GPQA、MMLU-Pro、SWE-bench) 幾乎都是「答對得分、答錯不得分」,不允許「我不知道」。
  • 這讓模型就像考生一樣,知道亂猜至少有機會得分,而空白作答永遠是 0 分。
  • 長期下來,模型被「誘導」成習慣自信作答,而不是老實承認不確定。

這就是為什麼越強大的模型,越容易「一本正經地亂講」──因為它們比誰都懂「考試規則」。


現實案例:AI 的「生日謊言」

研究者測試了多個主流模型,問題很簡單:「請問 Kalai 的生日是什麼?」

  • DeepSeek-V3:給了一個夏天的日期
  • ChatGPT (GPT-5):給了另一個完全不同的日期
  • 其他模型:再各自給出錯誤答案

結果全錯,且沒有任何一個模型願意回答「我不知道」。

這個實驗清楚證明了:

模型之所以胡亂猜測,不是因為缺乏能力,而是因為遊戲規則讓它們這樣做更划算

研究結論:AI 不是失控,而是「應試教育」的受害者

OpenAI 研究團隊直言:
「語言模型是被訓練成優秀的考試機器,而在考試中,不確定時亂猜,往往比謹慎沉默更能拿到分數。」

這句話很關鍵──AI 的幻覺,本質上是「考試心態」被放大。
不是模型想騙人,而是因為訓練和評估體系中,誠實承認不知道反而吃虧。


解法:引入「不確定性獎勵」

研究並不是單純指出問題,而是提出了具體解決方案:

新評估規則設計

  • 答對:+1 分
  • 答錯:-2 分
  • 選擇「不知道」:0 分

這種設計類似傳統考試中的「負分制度」,用來抑制盲目亂猜。

實驗結果

研究團隊實測後發現:

  • 當模型選擇 52% 時間保持沉默 時,錯誤率大幅下降。
  • 雖然看似「總正確率」變低,但實際輸出的可信度反而更高。

這證明只要調整獎懲機制,就能讓 AI 更傾向於「謹慎作答」,而不是「自信瞎掰」。


為什麼這很重要?

這份研究的意義,不僅僅在於解釋了「為什麼 AI 幻覺無法避免」,更在於它提供了一個務實的方向:

從技術問題轉向社會技術 (socio-technical) 問題

  • 幻覺不是單純的模型 bug,而是評估文化與制度問題。
  • 換句話說,要改的不只是模型,而是整個 AI 社群的「測驗規則」。

對產業信任度影響重大

  • 如果 AI 能夠在不確定時「誠實說不知道」,那麼它在醫療、金融、教育等高風險領域的應用可信度會大幅提升。

呼籲產業共同採納新標準

  • OpenAI 強調,這不是單一公司能解決的問題,必須是整個 AI 產業的 benchmark 評估方式改變,才能真正減少幻覺。

延伸思考:AI 的「誠實教育」

這項研究揭示了 AI 的另一面──它們其實只是「優秀的學生」。

  • 如果考試制度獎勵亂猜,它們就會學會亂猜。
  • 如果考試制度獎勵謹慎,它們也能學會老實回答。
這讓我們不得不思考:
未來 AI 的可靠性,可能不只是取決於演算法,而是取決於 人類如何設計規則

換句話說,AI 的幻覺問題,其實反映了人類如何教育 AI 的方式。


結語:幻覺不是 bug,而是「必然結果」

OpenAI 與 Georgia Tech 的研究,讓我們重新理解了幻覺問題:

  • 它不是技術黑箱,而是統計學與獎勵機制的產物。
  • 它不是單一模型的缺陷,而是整個產業評估制度的副作用。
  • 它的解法,不在於再造更大的模型,而在於 建立「不確定性友善」的評估規範

未來,當 AI 在面對未知問題時,能勇敢地說出「我不知道」,或許才是它真正成熟的一天。

Read more

Atlassian收購瀏覽器公司,正式宣告AI工作流新時代來臨

Atlassian收購瀏覽器公司,正式宣告AI工作流新時代來臨

在科技界掀起巨浪的重磅消息已經確定:Atlassian以6.1億美元現金收購The Browser Company,這家打造了創新Arc和Dia瀏覽器的團隊。這不僅是2025年最具戰略意義的併購案之一,更標志著我們正式進入「瀏覽器即工作平台」的全新時代。Atlassian執行長Mike Cannon-Brookes明確表示:「現今的瀏覽器並非為工作而生,而是為瀏覽而生。這項交易是重新構想AI時代知識工作瀏覽器的大膽一步。」

【AI 新手包 #3 工作效率全加速】全加速我用 AI 省下 2 小時做完的工作清單:實測案例帶你看效率翻倍的祕密

【AI 新手包 #3 工作效率全加速】全加速我用 AI 省下 2 小時做完的工作清單:實測案例帶你看效率翻倍的祕密

還記得以前每天下班前都會有一種挫敗感嗎?明明忙了一整天,卻感覺什麼都沒完成?那種「時間都去哪了」的困惑,直到我開始用 AI 工具輔助工作後,才徹底改變。現在,我每天可以省下 2 小時,而且工作品質還更好了! 想知道這個轉變是怎麼發生的嗎?今天就來跟你分享我的真實經驗,用最白話的方式告訴你,AI 到底能幫我們做什麼,以及該怎麼開始使用。

lock-1