Gemini

[科技新聞] Google發布Gemini 2.5 Computer Use：AI代理瀏覽器控制新時代來臨

2025年10月7日，Google正式發布Gemini 2.5 Computer Use模型，這款專門設計的AI系統能夠像人類使用者一樣直接操作網頁介面，執行點擊、輸入、捲動等複雜操作任務。基於Gemini 2.5 Pro強大的視覺理解與推理能力，該模型在多項網頁與行動裝置控制評測中均展現領先表現，同時提供業界最低延遲的瀏覽器控制體驗。

Philo

08 Oct 2025 — 12 min read

這項技術突破標誌著AI代理從概念走向實用的重要里程碑，開發者現已可透過Google AI Studio及Vertex AI的Gemini API存取此模型，為自動化瀏覽器操作開啟全新可能性。

技術架構：循環式介面控制機制

核心工作原理

Gemini 2.5 Computer Use採用創新的循環式互動機制，透過四個核心步驟實現精準的介面控制。首先，系統接收使用者請求、當前環境螢幕截圖，以及近期操作歷史記錄。接著，模型分析這些輸入資訊，生成代表特定UI操作的函數呼叫，如點擊或輸入指令。

該系統支援13種特定操作類型，包括開啟網頁瀏覽器、文字輸入、拖拉元素、捲動頁面、滑鼠懸停、鍵盤快速鍵等基本功能。客戶端程式碼執行接收到的操作後，會擷取新的GUI螢幕截圖和當前URL，並將結果回傳給Computer Use模型作為函數回應，重新啟動循環直到任務完成。

視覺理解能力

模型的核心優勢在於其強大的視覺理解能力，能夠「看見」電腦螢幕並理解介面元素，進而「行動」產生特定的UI操作指令。這種能力讓AI代理能夠處理動態網站和應用程式，即使版面配置發生變化也能正常運作，相較於依賴結構化API的傳統自動化方案更具靈活性。

效能表現：領先業界競爭對手

權威評測結果

在多項權威評測中，Gemini 2.5 Computer Use展現出色表現。Online-Mind2Web基準測試中達到76.7%準確率，大幅超越Claude Sonnet的61.9%和OpenAI Agent的44.3%。WebVoyager評測結果更加亮眼，Google的模型獲得79.9%性能評分，相較競爭對手的69.5%和61.0%具有明顯優勢。

在AndroidWorld行動裝置控制測試中，Gemini 2.5 Computer Use達到69.7%的成績，再次證明其跨平台控制能力。這些評測結果涵蓋自主報告數據、Browserbase評估以及Google內部測試，確保結果的可信度與準確性。

延遲優勢

除了準確率領先外，該模型在延遲表現上更具競爭優勢。根據Browserbase平台評測，Gemini 2.5 Computer Use在保持高準確率的同時，提供最低延遲的瀏覽器控制品質。這對於生產環境中的UI自動化與測試應用極為關鍵，直接影響使用者體驗和系統效率。

深度整合Google生態系統

Project Mariner驅動核心

Gemini 2.5 Computer Use模型已深度整合至Google現有產品線中，該技術驅動Project Mariner原型系統，能夠在瀏覽器中自動執行複雜任務。Project Mariner可透過理解瀏覽器螢幕上的文字、圖像、表格甚至程式碼，模擬人類操作並完成一系列複雜繁瑣的任務。

使用者可透過自然語言與AI代理對話，讓系統代替完成購票、安排行程或線上採購等工作，過程中完全無需手動點擊第三方網站。Google示範中展示了從寵物護理網站獲取加州居民寵物資訊，並將其新增至spa客戶管理系統的完整流程自動化。

AI Mode賦能搜尋體驗

更重要的是，該模型為Google搜尋的AI Mode提供代理功能，協助使用者完成票務預訂、餐廳訂位等實務任務。AI Mode運用查詢扇出技術，同時發出多個查詢請求，深入挖掘網路資源，提供超越傳統搜尋的智慧化體驗。

Google計畫在未來幾個月內，將Project Mariner的功能整合至AI驅動的Google搜尋體驗「AI Mode」中，為使用者提供更全面的搜尋代理服務。這包括協助尋找符合需求的票券、購票及填寫表格等任務，大幅提升搜尋效率。

市場影響與產業變革

AI代理市場爆炸式增長

AI代理市場正經歷前所未有的快速擴張。根據Precedence Research數據，全球AI代理市場規模從2024年的54.3億美元預計將增長至2025年的79.2億美元，並在2034年達到2360.3億美元，年複合成長率高達45.82%。

北美地區在2024年占據超過40%的市場份額，而亞太地區預計將在2025-2034年期間實現最高成長率。這種快速成長主要驅動於企業自動化需求增加、自然語言處理技術進步，以及個人化客戶體驗的迫切需求。

競爭格局日趨激烈

Gemini 2.5 Computer Use的發布並非偶然，而是回應當前AI代理市場激烈競爭的戰略部署。繼Anthropic在2024年10月推出Claude電腦使用功能後，OpenAI隨即在2025年1月發表Operator代理功能，現在Google也正式加入這場技術競賽。

不同於競爭對手提供完整桌面環境控制，Google採取更為專注的策略，將Gemini 2.5 Computer Use限制在瀏覽器操作範圍內。該模型目前承認尚未針對桌面作業系統層級控制進行最佳化，但在行動裝置UI控制任務中展現潛力。

企業應用與實際效益

內部測試成果斐然

Google內部測試顯示Gemini 2.5 Computer Use在企業環境中的實用性。支付平台團隊報告指出，該模型成功解決超過60%先前失敗的測試案例，這些問題曾經需要數天時間才能處理，大幅提升開發效率。

Firebase Testing Agent和部分AI Mode代理功能也已採用該模型的版本，證明其在實際生產環境中的可靠性。這些內部應用案例為第三方開發者提供信心保證，展示模型在真實工作環境中的價值。

第三方開發者反饋

第三方AI代理平台Autotab表示，該模型在複雜資料解析任務中表現優異，在最具挑戰性的評估中提升高達18%的性能表現。AI助理服務Poke也指出，Gemini模型在互動過程中的速度經常比現有解決方案快50倍。

這些正面反饋來自早期存取計畫的使用者，他們正在測試該模型驅動個人助理、工作流程自動化和UI測試等應用，並獲得強勁效果。

安全機制與風險控管

多層安全防護

面對AI代理可能帶來的風險，Google在Gemini 2.5 Computer Use中實施多層安全防護機制。系統包含每步驟安全服務，在執行任何操作前先評估模型建議的行動。這項推論時期的安全服務能夠在模型提出的每個操作執行前進行評估。

同時提供系統指令功能，讓開發者可以指定代理拒絕或要求使用者確認特定高風險操作。例如購買商品、繞過驗證碼或控制醫療設備等潛在有害行為，都可透過開發者控制機制預防自動執行。

三大風險應對策略

該模型針對三大風險領域進行安全訓練：使用者惡意濫用、模型意外行為，以及網路環境中的提示注入與詐騙攻擊。Google開發團隊直接在模型中訓練安全功能，以解決這些關鍵風險，詳細說明可參閱Gemini 2.5 Computer Use系統卡片。

這些安全措施設計旨在降低風險，但Google仍建議所有開發者在正式發布前進行全面系統測試。開發者也可在文件中找到安全措施和最佳實務的額外建議。

開發者生態與定價策略

多元存取管道

Gemini 2.5 Computer Use現已透過Google AI Studio和Vertex AI提供公開預覽版本。Google同時與Browserbase合作提供即時示範環境，讓使用者可以親身體驗模型執行各種任務的能力。

開發者可透過參考文件和說明資料，學習如何使用Playwright在本地建構代理迴圈，或透過Browserbase在雲端虛擬機中進行開發。Google也建立開發者論壇，鼓勵使用者分享回饋意見並協助指導產品發展路線圖。

靈活定價模式

定價策略方面，Computer Use模型採用與Gemini 2.5 Pro相同的代幣計價機制。根據Vertex AI定價資訊，20萬代幣以下的輸入每百萬代幣收費1.25美元，超過20萬代幣則為每百萬代幣2.50美元。輸出代幣的定價為每百萬代幣10美元（20萬代幣以下）和15美元（超過20萬代幣）。

值得注意的是，與標準Gemini模型的免費層級不同，Computer Use功能從一開始就需要付費存取。Google AI Studio在所有可用地區仍提供免費使用，但Computer Use模型需要透過付費API呼叫才能存取。

技術限制與未來展望

當前技術邊界

儘管表現出色，Gemini 2.5 Computer Use仍有技術限制。該模型主要針對網頁瀏覽器最佳化，雖然在行動裝置UI控制任務中展現潛力，但尚未針對桌面作業系統層級控制進行優化。

Google的策略性選擇反映對安全性與實用性的平衡考量。相較於提供完整桌面控制的競爭對手，Google選擇專注於瀏覽器環境，這不僅降低安全風險，也確保在特定使用場景中提供最佳性能表現。

產業變革催化劑

Gemini 2.5 Computer Use的發布標誌著AI代理技術從實驗階段邁向實用階段的重要里程碑。隨著Google、OpenAI、Anthropic等科技巨頭競相推出類似功能，AI代理正快速成為數位轉型的核心工具。

對企業而言，這項技術提供前所未有的自動化可能性，從UI測試到客戶服務，從資料收集到工作流程自動化，都能透過自然語言指令實現。對一般使用者而言，複雜的網路操作將變得如同與智慧助理對話一般簡單。

全球佈局與在地化策略

隨著AI Mode在美國正式推出，Google計畫將這項技術擴展至全球更多地區。台灣作為亞太地區重要的科技市場，預期將在未來幾個月內獲得相關功能支援，為本地企業和開發者提供先進的AI代理解決方案。

未來幾個月內，隨著更多開發者開始採用這些工具，我們預期將看到創新應用案例不斷湧現，進一步推動AI代理技術的普及與成熟。這不僅是技術進步的體現，更是人機互動模式根本性轉變的開始，將深刻影響我們在數位世界中的工作與生活方式。

[科技新聞] Google發布Gemini 2.5 Computer Use：AI代理瀏覽器控制新時代來臨

Philo

技術架構：循環式介面控制機制

核心工作原理

視覺理解能力

效能表現：領先業界競爭對手

權威評測結果

延遲優勢

深度整合Google生態系統

Project Mariner驅動核心

AI Mode賦能搜尋體驗

市場影響與產業變革

AI代理市場爆炸式增長

競爭格局日趨激烈

企業應用與實際效益

內部測試成果斐然

第三方開發者反饋

安全機制與風險控管

多層安全防護

三大風險應對策略

開發者生態與定價策略

多元存取管道

靈活定價模式

技術限制與未來展望

當前技術邊界

產業變革催化劑

全球佈局與在地化策略

Read more

Anthropic Project Glasswing 震撼發布：Claude Mythos Preview 找出上千零日漏洞，AI 資安時代正式來臨！

Amazon CEO 股東信揭露：AWS AI 服務年化營收突破 150 億美元，股價單日收漲 5.6%

Meta 砸 143 億重組 AI 後首款模型 Muse Spark 正式發布

Prompts → Projects → Skills｜3 分鐘搞懂 Claude 三層架構差在哪

技術架構：循環式介面控制機制

核心工作原理

視覺理解能力

效能表現：領先業界競爭對手

權威評測結果

延遲優勢

深度整合Google生態系統

Project Mariner驅動核心

AI Mode賦能搜尋體驗

市場影響與產業變革

AI代理市場爆炸式增長

競爭格局日趨激烈

企業應用與實際效益

內部測試成果斐然

第三方開發者反饋

安全機制與風險控管

多層安全防護

三大風險應對策略

開發者生態與定價策略

多元存取管道

靈活定價模式

技術限制與未來展望

當前技術邊界

產業變革催化劑

全球佈局與在地化策略

📬 免費訂閱AI 郵報和我們一起探索！

Read more

Anthropic Project Glasswing 震撼發布：Claude Mythos Preview 找出上千零日漏洞，AI 資安時代正式來臨！

Amazon CEO 股東信揭露：AWS AI 服務年化營收突破 150 億美元，股價單日收漲 5.6%

Meta 砸 143 億重組 AI 後首款模型 Muse Spark 正式發布

Prompts → Projects → Skills｜3 分鐘搞懂 Claude 三層架構差在哪

📬 免費訂閱AI 郵報
和我們一起探索！