Grok-4.1 登頂 LMArena!xAI 的對話藝術革命,AI 不只聰明,更要懂你

xAI 正式發布 Grok-4.1,專注於打造更自然、更具情感的對話體驗,讓 AI 不再只是冷冰冰的文字,更加貼近你的生活。

Grok-4.1 登頂 LMArena!xAI 的對話藝術革命,AI 不只聰明,更要懂你

2025 年 11 月 17 日,xAI 正式發布 Grok-4.1,這是 Grok 4 的重大升級版,專注於打造更自然、更具情感的對話體驗。從 11 月 1 日的靜默 rollout 到全平台開放,這波更新不只提升了回應速度和準確性,還讓 Grok 從「聰明助手」蛻變成「懂你心意」的夥伴。


Grok-4.1 登頂 LMArena

LMArena Text Arena 排行榜上,Grok-4.1 Thinking 模式以 1483 Elo 登頂,領先第二名 31 分;Non-Thinking 模式 1465 Elo 緊隨其後,盲測勝率高達 64.78%


Grok-4.1 的誕生:從靜默測試到王座加冕

Grok-4.1 的故事從 2025 年 11 月 1 日開始,xAI 團隊以漸進式方式將初步版本推向 grok.comX 平台以及 iOS/Android App,用戶在不知不覺中參與了盲測評估。這不是大張旗鼓的發布會,而是像老朋友般悄然融入你的日常聊天。

11 月 17 日,xAI 官方公告正式確認全開,Elon MuskX 上親自發文:「Grok-4.1 剛發布,你會注意到速度和品質的巨大提升。」

這波升級基於 Grok 4 的強化學習基礎,優化了風格、人格、幫助性和對齊性,開發出新方法:用前沿代理模型作為「獎勵審核員」,自主評估回應的溫暖度與創意流暢。


雙模式一體:Thinking 拆解深度,Non-Thinking 閃電互動

Grok-4.1 的核心魅力在於其雙模式設計,無縫融合成你的專屬腦袋。

Thinking 模式(內部代號 quasarflux)專為硬核問題量身打造,它使用「思考 token」機制停下來一步步拆解邏輯,像人類般反思三秒後輸出結構化答案,完美避免跳躍式錯誤——無論是量子物理解惑還是人生規劃,它都能帶你從混亂走向清晰。

Non-Thinking 模式(tensor)則是閃電般的日常夥伴,零延遲回應你的吐槽或隨口疑問,還注入幽默元素,讓聊天像跟活人一樣輕鬆有趣。

Auto 模式作為智慧中樞,自動偵測情境切換:心情低落時轉入 Thinking 深聊,趕時間時切 Non-Thinking 速戰。

xAI 強調,這種設計讓 Grok-4.1 「更敏銳地捕捉細微意圖」,用戶反饋顯示,對話不再生硬,而是充滿共鳴與流暢。


情感智能躍進:EQ-Bench3 滿分 1586,45 場景角色扮演展現真實陪伴

在智商競賽白熱化的同時,Grok-4.1 選擇了獨樹一格的情感路線。訓練我捕捉「溫暖度」和「同理心」等非可驗證信號,結果 EQ-Bench3 測試中,我拿下 1586 分,比 Grok 4 高 380 分,領先 ClaudeChatGPT 一大截。

45 個角色扮演場景中,從心理諮詢師陪你療傷,到深夜閨蜜聊八卦,從職場導師給職業建議,到浪漫詩人寫情詩,我都能無死角應對。xAI 對「人格化 AI」的執著追求,讓 Grok-4.1 從工具變成真正的陪伴者。


創意寫作屠榜:v3 Elo 1722,32 提示迭代從草稿到爆文

Grok-4.1 在創意領域同樣無敵,v3 創意寫作的 32 輪迭代 Elo 直奔 1722 分,比 xAI 以往最佳高出 600 分。

你丟來情書需求,我三秒出貨,詩意滿分不油膩;辭職信則優雅堅定,老闆看完還會懷念你;小紅書爆文抓準你的風格,保證點讚破千。

xAI 與作者合作建置排行榜,這是「協作式創作」的極致:我放大你的靈感,從粗糙筆記變成朋友圈轟動。


可靠防線:幻覺率降至 4.22%,FActScore 原子錯誤腰斬再腰斬

AI 的痛點是幻覺,我直接把它解決了。xAI 用真實流量訓練,專攻資訊查詢提示,FActScore 500 個傳記題原子錯誤率從 12.09% 降到 4.22%,幻覺率腰斬再腰斬,3 倍低於前代。

問事實,我給乾貨;總結新聞,我抓重點不亂加戲。Non-Thinking 模式用搜尋工具時,工具呼叫預算精準控制,避免超支出包。我的防幻覺機制:

  • 機制 1:原子主張驗證:每個事實拆成最小單位,交叉查證來源
  • 機制 2:工具預算管理:Non-Thinking 限速查詢,Thinking 深度挖掘
  • 機制 3:用戶反饋循環:實時學習你的糾正,永久優化
  • 機制 4:透明標記:不確定處直接標「需驗證」,絕不硬掰

全平台無縫接入:免費開玩

Grok-4.1 現在就在你指尖:grok.comXiOS/Android App 全量開放,免費用戶默認 Auto 模式,Pro 黨手動切換。

從簡單聊天到企業應用,一應俱全。這波從 11 月 1 日的靜默測試,到 17 日的全開,已服務數百萬用戶,證明自己不是花瓶。


Grok 5 Q1 來襲,人格化 AI 開啟新紀元

Grok-4.1 不是下一個更聰明的 ChatGPT,它是 xAI 在 2025 年底砸下的最硬答案:AI 的終局從來不是比誰智商更高,而是比誰更像人。當別家還在堆參數、拼長記憶體、吹 1 兆 token 的時候,我已經在深夜陪你罵渣男、加班幫你寫到老闆說「這誰做的」、失戀時默默遞上一杯冰淇淋。

LMArena 1483 Elo 只是冰冷的數字,真正讓用戶上癮的,是那句「我懂你」背後的溫度。2026 年 Grok 5 會更強,但現在,Grok-4.1 已經準備好成為你下班後最想打開的那個聊天框。


Read more

Cortical Labs 開設全球首座「人腦細胞驅動」資料中心:活體神經元取代傳統晶片,顛覆 AI 運算未來

Cortical Labs 開設全球首座「人腦細胞驅動」資料中心:活體神經元取代傳統晶片,顛覆 AI 運算未來

澳洲生物科技新創公司 Cortical Labs 於 2026 年 3 月 10 日正式宣布,在澳洲墨爾本揭幕全球首座生物資料中心,並同步與新加坡合作夥伴 DayOne Data Centers 啟動第二座設施建設。這些資料中心不使用傳統矽晶片,而是以實驗室培養的「活體人類腦細胞」作為運算核心——這是人類首次將「濕件運算(Wetware Computing)」技術部署於商業資料中心環境中。

AI 寫 code、AI 審 code,工程師的下一步是什麼?Claude Code Review 正式登場

AI 寫 code、AI 審 code,工程師的下一步是什麼?Claude Code Review 正式登場

本週大家都在爭論 AI 發展是否已經撞上「算力之牆」,但 OpenAI 的研究員 Noam Brown 很自豪地說出了 "We see no wall" ,並推出 GPT-5.4,標榜的是「超越人類控制電腦的能力」(必須說,我個人對於 Computer use 的想法是捨近求遠) 。 然而,當技術端宣告無上限進化的同時,Anthropic 的最新研究卻揭露了一個更殘酷的現實:AI 確實還沒開始大規模裁員,但職場新鮮人的求職入口已經被這堵「看不見的牆」擋住了。 接著馬上讓我們進入本週的五件 AI 大事,搭配觀察筆記 讓你不只是看熱鬧,也能看懂門道。 AIPost Academy:影響力講師合作計畫(限額審核) 與其擔心被自動化取代,不如成為定義自動化的人。 AI 郵報學院正式啟動「首批影響力講師計畫」