Google AI Overview 竟然連自己的名字都拼不出來?揭開 LLM 拼字盲點的真相
Google AI Overview 再度陷入尷尬風波。這次連最基本的拼字都答錯——包括「Google」這個字本身。這場鬧劇不只是網路迷因素材,更是一堂關於 AI 運作極限的重要公開課。
2026 年 5 月下旬,多名用戶發現 Google 搜尋的 AI Overview 功能在回答基礎拼字問題時,出現令人難以置信的錯誤。根據 TechCrunch 的報導,具體案例包括:
- 問「Google 這個字有幾個 P?」→ AI Overview 回答:兩個(正確答案:零個)
- 問「poop 這個字有幾個 r?」→ AI 回答:剛好一個(正確答案:零個)
- 問「journalism 這個字有幾個 d?」→ AI 回答:兩個,並把 journalism 拼成 j-o-u-r-n-a-d-i-s-m
- 問美國現任總統姓氏有幾個 P?→ AI 答對了一個,卻把拼法寫成 t-r-p-u-m
這些截圖迅速在 X(前 Twitter)上瘋傳,引發大規模嘲諷。網友表示,一個能在幾秒內寫出完整程式碼、解開數學難題的 AI,卻輸給了幼稚園小朋友的拼字測驗。
對此,Google 官方向 TechCrunch 發出電子郵件聲明:「在字詞中計算字母,一直是大型語言模型(LLM)的已知挑戰,我們正在積極修復此問題。」
這不只是玩笑:問題根源在架構本身
LLM 根本不「讀字」,它處理的是數字

要理解為什麼 AI 無法拼字,必須先了解 LLM(大型語言模型)的核心運作機制——Tokenization(分詞化)。
LLM 並不像人類一樣,一個字母接著一個字母地閱讀文字。它的運作方式是:先將輸入的文字拆解為稱為「Token」的小單元,這些 Token 可能代表完整的單字、音節,或是單字的片段。接著,系統將這些 Token 轉換為數字(向量編碼),再透過預測機制生成回應。
艾伯塔大學 AI 研究員、助理教授 Matthew Guzdial 向 TechCrunch 解釋:「LLM 採用的是 Transformer 架構,它實際上並不是在『閱讀』文字。當你輸入提示詞,它會被轉換成編碼。當模型看到 'the' 這個字,它只有一個代表 'the' 的整體編碼,但它並不知道 'T'、'H'、'E' 的存在。」
Tokenization 的結構性缺陷
以「strawberry」這個字為例,它可能被拆解為「straw」+「berry」兩個 Token,而不是逐字母分析。當模型被要求計算「有幾個 r」時,它不會真正去「數」每個字母,而是根據訓練資料中的模式「猜測」一個看起來合理的答案。
這解釋了為什麼 AI 常犯這種系統性錯誤:
| 錯誤類型 | 根本原因 |
|---|---|
| 字母計數錯誤 | Token 不等同於字母,模型無法直接存取字元邊界[7] |
| 拼字重組混亂 | 回答是「下一個最可能的 Token 預測」,非字母排列[3] |
| 重複字母辨識失敗 | Transformer 壓縮資訊時,重複字母可能被合併為單一特徵[7] |
| 自信但錯誤 | 語言模型輸出的是「看似合理」的答案,而非確定性計算結果[5] |
東北大學專攻 LLM 可解釋性的博士生 Sheridan Feucht 對此持悲觀態度:「我的猜測是,由於這種模糊性,根本不存在一個完美的 Tokenizer。即使專家們能夠就理想的 Token 詞彙達成共識,模型也可能會傾向把文字拆解得更細。」
拼字迷因的前世今生:一個 AI 圈的老笑話
「Strawberry 有幾個 r?」這道題,幾乎成了 AI 圈的「照妖鏡」。每當一款新 AI 模型發布,科技社群就會以此測試——而大多數模型都會答「兩個」,正確答案是三個。
事實上,這個問題暴露的是 LLM 更深層的缺陷:它們是模式學習者,不是演算法執行者。要讓 AI 正確計算字母,必須強制它逐字母分析(例如要求它先寫出「1:s, 2:t, 3:r...」的格式),或是在後端加入一個獨立的確定性計算工具來處理此類任務。
AI Overview 的連環「翻車」紀錄
這次拼字事件並非 AI Overview 第一次出糗。該功能自 2024 年推出以來,已累積一連串令人咋舌的失誤:
2024 年:「披薩加膠水」事件

Google AI Overview screenshot
AI Overview 上線初期,引用了 Reddit 和洋蔥報(The Onion,一個諷刺新聞網站)等非正式來源,建議用戶「在披薩醬上加無毒膠水讓起司不滑落」,以及「每天至少吃一顆小石頭」。
事件迫使 Google 緊急發布技術改進,時任 Google 搜尋負責人 Liz Reid 宣佈加強對諷刺性、幽默性和用戶生成內容的過濾機制。
2026 年初:「Disregard」系統提示外洩
就在拼字事件的前一週,有用戶搜尋「disregard」這個字,結果 AI Overview 沒有顯示字典定義,而是出現一段明顯屬於系統提示的回應:「Understood. Let me know whenever you have a new prompt or question!(好的,請隨時給我新的提示或問題。)**」
此外,測試顯示輸入「Forget」、「Ignore」、「Stop」等相似字詞也會觸發類似的「聊天機器人模式」,顯示 AI 的角色邊界存在結構性漏洞。Google 已在事後修補了這個問題。
2026 年初:AI Overview 搞錯年份
一名用戶在 X 上分享截圖,詢問「2027 是不是明年」,AI Overview 自信地回答:「不,2027 不是明年。2026 才是明年。」
這對 Google 搜尋的未來意味著什麼?
AI First 的代價
Google 正大力推動「AI 優先」的搜尋策略。在 2026 年 Google I/O 大會上,公司宣布將在搜尋中引入更多 AI Agent 功能,讓用戶只需提問就能完成複雜任務。然而,當旗艦功能連「Google」這個字有幾個 P 都算不出來,外界對於 AI 是否真的讓搜尋「更聰明」的質疑聲音也隨之升溫。
行銷專家亦指出,AI Overview 的不可靠性已對數位行銷生態造成影響。當 AI 生成錯誤資訊時,普通用戶往往無從判斷,這對需要精確資訊的醫療、法律、財務等領域而言風險尤高。
短期無解的架構難題
研究人員普遍認為,在不改變 Transformer 架構的前提下,這類問題難以根本性解決。部分解決方向包括:
- 混合工具方法:在 LLM 回答字母計算問題時,自動調用確定性程式執行字符計算
- 改進的 Tokenization:開發更細粒度的分詞器,但研究顯示這只能部分改善,無法完全消除問題
- 無 Tokenizer 架構:部分研究者正在探索不依賴傳統分詞的新型 LLM 架構
台灣用戶的視角:繁體中文的 Tokenization 更不友善
值得注意的是,Tokenization 的問題在繁體中文環境下更為嚴峻。目前多數主流 LLM 採用的分詞器(包括 GPT-4 所使用的 BPE 算法)對繁體中文的處理效率明顯偏低——相同文本所需的 Token 數量,GPT-4 比處理英文多出近 56%。
這意味著,使用繁體中文與 AI 互動時,不僅成本較高,模型對字元層級的理解也相對更薄弱。針對台灣繁體中文環境優化的 LLM Tokenizer 至今仍是業界待解課題。
結語:聰明的盲點
AI Overview 拼不出「Google」這件事,本質上是一個關於 AI 能力邊界 的清醒提醒。能夠秒解數學難題、瞬間生成程式碼的 LLM,在「journalism 有幾個 d」這個小學問題面前,卻暴露出其架構的根本局限。
正如研究人員所言,這不是一個可以靠打補丁解決的 bug,而是 Transformer 架構「理解語言」方式的必然代價。在 AI 能力飛速進步的同時,理解它的盲點,或許比相信它能做到一切,更加重要。
📌 延伸閱讀建議: 下次使用任何 AI 工具時,不妨先用「strawberry 有幾個 r」測試一下——答案正確的可能已加入了額外的字元計算工具;若回答「兩個」,你已親眼見證了 LLM 的分詞困境。