Google 重磅推出 Gemini 3:全球最智慧 AI 模型正式登場,全面挑戰 OpenAI 領先地位

Google 於 2025 年 11 月 18 日正式推出第三代旗艦 AI 模型 Gemini 3,這是繼 Gemini 1.0 與 Gemini 2.0 之後的重大突破。Google 執行長 Sundar Pichai 在官方部落格中宣布,Gemini 3 是「迄今最智慧的模型」,能將所有 Gemini 的功能整合在一起,讓使用者實現任何創意想法。此次發表不僅標誌著 AI 技術的新里程碑,更象徵 Google 在與 OpenAI、Anthropic 等競爭對手的激烈競爭中重新奪回領先地位。

Google 重磅推出 Gemini 3:全球最智慧 AI 模型正式登場,全面挑戰 OpenAI 領先地位

LMArena 排行榜奪冠、多模態能力逆襲、開發者工具革新,Google 的三年追趕之戰再掀高潮

2025 年 11 月 18 日,Google 正式宣布推出第三代旗艦 AI 模型 Gemini 3,這是繼 ChatGPT 橫空出世後,AI 業界最受矚目的產品發表之一。此次推出不僅打破了 Google 長期「追趕者」的標籤,更以全面領先的基準測試成績,宣告了一場激烈的產業競爭新局面。

核心成績搶眼:LMArena 排行榜創紀錄登頂

Gemini 3 Pro 在全球權威 AI 評測平台 LMArena 上以 1501 Elo 分數登頂,成為首個突破 1500 分大關的 AI 模型,這一成績遠超 xAI 的 grok-4.1-thinking(1484 分)與 Anthropic 的 Claude Sonnet 4.5(1449 分)。

更引人注目的是,Gemini 3 Pro 在多項專業能力評測中創造新紀錄。在「人類終極考試」(Humanity's Last Exam) 中無工具輔助情況下達 37.5%,在科學知識測試 GPQA Diamond 獲 91.9% 高分,在數學競賽基準測試 MathArena Apex 上創下 23.4% 的全新紀錄。多模態推理方面,Gemini 3 Pro 在 MMMU-Pro 達 81%,Video-MMMU 達 87.6%,事實準確性測試 SimpleQA Verified 上達 72.1%,展現出跨越文字、圖像與影片的深度理解能力。

與前代 Gemini 2.5 Pro 相比,進步幅度令人矚目。以「人類終極考試」為例,從過往的 21.6% 直線跳升至 37.5%,升幅近乎翻倍——這種進展在 AI 發展史上頗為罕見。

推理革命:Deep Think 模式向 AGI 邁進

Google 同步推出「Gemini 3 Deep Think」增強版推理模式,採用「平行思考」技術,讓 AI 在回應前同時發展多種思考路徑並進行交叉分析。這個模式的表現更為驚人——在「人類終極考試」中達 41.0%、GPQA Diamond 達 93.8%、ARC-AGI-2 達 45.1%(搭配程式碼執行)。

根據 Google 內部測試,Deep Think 模式曾達到國際數學奧林匹亞金牌級別。雖然目前開放版本經過安全性調整,表現為銅牌水準,但這種「邊思考邊行動」的方式已成為 AI 向通用智慧靠近的重要標誌。

目前 Deep Think 模式僅開放予安全測試者,Google 表示將在未來幾週內完成額外安全評估後,向 Google AI Ultra 訂閱用戶推出。

開發者樂園:代碼生成與Vibe Coding大爆發

對開發者而言,Gemini 3 最受矚目的進展在於「氛圍編碼」(Vibe Coding) 能力的突破。該模型在 WebDev Arena 排行榜上以 1487 Elo 名列首位,在 SWE-Bench Verified 上得分 76.2%,大幅超越 Gemini 2.5 Pro 的 59.6%。在 Terminal-Bench 2.0 上達 54.2%,展現其透過終端操作電腦的能力。

實測中,Gemini 3 展現出令人驚艷的代碼生成能力。開發者可用自然語言描述需求,Gemini 3 即能在數秒內生成包含複雜邏輯、豐富視覺效果的應用程式——從復古 3D 太空船遊戲、可玩的科幻世界,到精細 3D 體素藝術,甚至能一句話就生成「新粗野主義」風格網頁、動態 Windows 系統模擬、macOS 介面克隆等。

業界評論指出,這種跳躍式進展堪比 GPT-3.5 到 GPT-4 的躍升,已引發前端工程師「工作被搶」的調侃。一位內容創作者透露,僅透過整合 Gemini 3 就將內容製作時間縮短 40%,對比使用 GPT-5.1 仍需切換多個工具的工作流程。

【Vibe Coding】AI 提示詞全攻略:CLEAR 框架+四層技巧,少花時間成本發揮最大潛力
學會正確下指令,AI 就能成為你的「高效實習生」。本文濃縮 Lovable 官方提示詞指南,從 CLEAR 框架到四層提示與防幻覺技巧,帶你少走彎路,快速打造高品質 Vibe Coding 工作流。

Google Antigravity:代理開發平台重新定義開發體驗

此次發表的重頭戲是全新代理開發平台 Google Antigravity。這不再是傳統「開發者使用 AI 工具」的模式,而是「AI 成為主動合作夥伴」的革新。

Google Antigravity 整合了 Gemini 3 Pro 的推理能力、Gemini 2.5 Computer Use 模型(用於瀏覽器控制),以及頂級影像編輯模型 Nano Banana(Gemini 2.5 Image)。代理可自主規劃、編寫應用程式並透過瀏覽器電腦使用驗證執行,使開發者能以更高層次的「任務導向」方式工作。

實際演示中,Gemini 3 透過 Antigravity 獨立完成航班追蹤應用程式的端到端工作流程——從需求理解、代碼編寫到功能驗證,無需人工介入,這象徵著軟體開發流程的一次典範轉移。

多模態新高:100 萬 token 上下文視窗的威力

Gemini 3 Pro 標配 100 萬 token 上下文視窗,相當於 5 萬行程式碼、過去 5 年的簡訊、8 部小說,或超過 200 集 podcast 逐字稿。這個超長上下文視窗打破了傳統 LLM 的侷限,開發者可直接上傳完整資料集進行分析,無需採用摘要、RAG 或向量資料庫等繁瑣策略。

Gemini 模型在長上下文處理上展現出近乎完美的檢索能力(超過 99% 準確率)。Google 同步提供「上下文快取」功能,針對重複使用的類似內容進行成本優化,使「與資料對話」類型應用程式更具經濟可行性。

在多模態能力方面,Gemini 3 原生支援文字、圖像、影片、音訊與程式碼,能在單一提示中進行跨媒介理解。實測顯示,它能從手寫食譜識別出 10 種語言並轉化為可分享的數位食譜、透過體育影片分析運動技術並生成訓練計畫、從長篇學術論文生成互動式學習卡,應用場景廣泛。

0:00
/0:30

安全評估領先業界:前沿安全框架把關

Gemini 3 經過有史以來最全面的安全評估。根據 Google DeepMind 的前沿安全框架 (Frontier Safety Framework) 測試,Gemini 3 Pro 在化學、生物、放射性、核武器、網路安全、有害操縱等高風險領域均未達警告閾值。

該模型展現出降低的阿諛奉承傾向、增強的提示注入抗性,以及改進的網路攻擊濫用防護。除內部測試外,Google 還與英國 AISI、Apollo、Vaultis、Dreadnode 等世界領先主題專家進行獨立評估。人工紅隊測試確認模型符合兒童安全評估要求,內容安全政策表現與前代相當或更佳。

市場反應與競爭格局重整

此次發表在投資與業界引起強烈反響。股神巴菲特旗下波克夏海瑟威在第三季斥資 43 億美元增持 Alphabet 1,700 萬股,將其列為十大持股,此舉打破巴菲特一貫迴避高估值科技股的風格,被視為對 Google AI 潛力的認可。

業界分析普遍認為,Gemini 3 標誌著 Google 從「追趕者」向「領先者」的角色轉變。天風證券分析師指出,雖然在代碼能力上與競爭對手仍有角力空間,但 Gemini 3 Pro 在多模態能力、文本 RAG 能力上的大幅領先,結合 Google 自有搜尋、Workspace、Android 生態,有望在搜尋 AI 模式商業化、企業 AI 等場景實現市場突破。

與 OpenAI 的 GPT-5.1 相比,Gemini 3 展現不同的優勢特徵。GPT-5.1 在純編碼任務上穩定性略優,但 Gemini 3 在視覺任務上領先明顯。實測中,Gemini 3 生成的 SVG 動畫複雜度與精緻度都遠超 GPT-5.1,多模態整合能力更是後者難以匹敵。有內容創作者表示,用 Gemini 3 生成動畫進度條只需一句提示,GPT-5.1 則只能提供文字指南。

全線產品導入:最大規模推出

Google 罕見地以全公司規模同步推出 Gemini 3,在短短數小時內實現多平台覆蓋:

消費級應用:

  • Gemini 應用程式
  • Google 搜尋 AI 模式(Pro 與 Ultra 訂閱用戶)

開發者工具:

  • Google AI Studio 的 Gemini API
  • Vertex AI
  • Gemini CLI
  • Google Antigravity
  • 第三方平台:Cursor、GitHub、JetBrains、Replit 等

企業方案:

  • Vertex AI
  • Gemini Enterprise

此外,Google AI Ultra 訂閱用戶現可透過 Gemini Agent 體驗代理功能,如自動整理 Gmail 收件匣、建立提醒事項等。

定價與商業模式

Google AI Pro 訂閱方案為月費 19.99 美元,Google AI Ultra 為 249.99 美元(首三個月半價)。Ultra 用戶除享受所有 Pro 功能外,還可獨家使用 Deep Think 模式與最新影片生成模型 Veo 3.1。

對開發者而言,Gemini 3 Pro Preview 的 API 定價為:輸入 token 每 100 萬 2 美元,輸出 token 每 100 萬 12 美元(提示小於 20 萬 token)或 18 美元(提示超過 20 萬 token)。上下文快取另行計價。

產業展望與下一步

Google 表示這只是 Gemini 3 時代的開始。公司計畫很快發布 Gemini 3 系列的其他模型,包括強調速度的 Gemini 3 Flash 與強調影像生成的 Gemini 3 Image。

Deep Think 模式預計在未來幾週完成安全評估後向 Ultra 用戶推出,但 Google 明確表示將限制日使用次數,凸顯此模式的高運算密集特性。

據悉,Gemini 3 的出現重新激發了產業對生成式 AI 的信心。AI 重量級專家指出,若 Gemini 3 如預期爆發,將證明 AI 產業未陷泡沫,並可能改寫 OpenAI 領跑格局。此次發表被普遍視為 Google 在通往通用人工智慧 (AGI) 道路上的重要里程碑。

Read more

Anthropic 阻止史上首次 AI 主導的國家級駭客行動

Anthropic 阻止史上首次 AI 主導的國家級駭客行動

這週在台灣最大的討論,可能要頒給這四組關鍵詞:《經濟學人》、央行、新台幣升值、台灣病,雖然我們有些讀者來自香港、美國或其他地區,但這場爭論絕對不僅是「台灣內部的財經話題」。 四天前,The Economist 以〈The hidden risks in Taiwan’s boom〉為題,點名台灣多年來的結構性經濟問題:新台幣長期被低估、央行無法自由升值、壽險業擁有超過 7,000 億美元的海外曝險、外匯存底遠高於國際常態,還有出口導向下形成的資產配置錯位。在這篇文章與同期的另一篇評論中,經濟學人直接給這個現象取了一個名字——台灣病(Taiwan Disease)。 這些跟 AI 有什麼關係?台灣長期靠晶片出口美國,正是造成常年貿易順差的源頭之一。過去還可以當成一個單純的產業榮景來談,但從美國 22 年禁止向中國出口 A100、H100 時,晶片已經不再是科技話題,而是正式升格為國安議題。

lock-1