Alibaba Qwen3-VL震撼發布! 2小時視頻全掃描,細節定位準到秒,挑戰 GPT5

Qwen3-VL 終極三秒總結 Alibaba 把原本要燒幾百億美元、讓 Google 和 OpenAI 憂心忡忡的「兩小時視頻精準理解 + 視覺數學屠榜」能力,直接打包成免費開源扔到 Hugging Face 上。這不是升級,這是降維打擊。 封閉模型還在賣雲端算力,Alibaba 已經把視覺 AI 的「神經」白送全世界。

Alibaba Qwen3-VL震撼發布! 2小時視頻全掃描,細節定位準到秒,挑戰 GPT5

Alibaba Cloud 低調發布 Qwen3-VL,全球首個能完整分析2小時視頻的視覺語言模型。這不是小升級,而是視覺 AI 的革命:從掃描短片到精準定位長時序事件,開源視覺 AI 從「跟跑」變「領跑」,Google Gemini 2.5 Pro + OpenAI GPT-5 企業夢碎,2026 年視頻分析市場將血流成河。


2小時視頻全掃描,細節定位準到秒

Qwen3-VL 的殺手鐧是超長視頻理解:在「針尖於乾草堆」測試中,將語義重要畫面隨機插入兩小時視頻(約 100 萬 Token),模型精準定位並分析,準確率 100%(30 分鐘視頻)與 99.5%(兩小時)。

The Decoder 指出,這超越大多數視覺語言模型的連貫分析能力,僅與 Google Gemini 1.5 Pro(2024 早期版)競爭,但 Qwen3-VL 開源免費;Unite.AI 補充,使用文字時間戳如「<3.8 秒>」取代傳統 T-RoPE,提升時間定位精準度。

8,000 Token 擴展到 256,000 Token 上下文,讓模型一口氣處理數百頁文件或長視頻,企業用戶直接爽翻:監控視頻故障預測、醫療影像診斷、廣告內容分析,一掃而空。


MathVista 85.8% 完勝 GPT-5,OCR 39 語言 70%+ 準確

Qwen3-VL 在視覺數學領域稱王:MathVista 準確率 85.8%,領先 GPT-5 81.3% 與 Gemini 2.5 Pro 的 73.3%;MathVision 74.6%,完勝 GPT-5 的 65.8%。這得益於訓練階段的 6000 萬 STEM 任務與 300 萬 PDF 資料;文件理解 DocVQA 達 96.5%,MMLongBench-Doc 56.2%,科學圖表 CharXiv 描述 90.5%、推理 66.2%。OCR 支援 39 語言,OCRBench 875 分,32 語言超 70% 準確,遠超 Qwen2.5-VL 的 10 語言。

Unite.AI 強調,這讓 Qwen3-VL 成為教育科技與科學工具的首選,開源下全球研究者可即刻迭代。


Interleaved MRoPE + DeepStack + 文字時間戳,開源家族全覆蓋

Unite.AI 詳細拆解三項創新:Interleaved MRoPE 均勻分佈時間/寬/高維度位置嵌入,提升長視頻處理;DeepStack 融合多層 Vision Transformer 中間結果,提供細粒度視覺細節;文字時間戳取代 T-RoPE,簡化時間對齊。

訓練分四階段,用 10,000 GPU 處理 1 兆 Token(網路爬取 + 300 萬 PDF + 6000 萬 STEM 任務)。家族包括密集變體(2B/4B/8B/32B)與專家混合(30B-A3B/235B-A22B,471 GB),Apache 2.0 開源 Hugging Face 下載,8B 變體超 200 萬次。

The Decoder 指出,GUI 代理任務 ScreenSpot Pro 61.8%AndroidWorld 63.7%,開源下研究者可自由擴展。


中國 5.15 億用戶 + 全球 3 億下載,Gemini/GPT-5 企業夢碎

Qwen3-VL 延續 Qwen2.5-VL 的 2800 引用熱潮,Unite.AI 預測將加速教育/科學應用,中國 5.15 億生成式 AI 用戶 + 全球 3 億 Qwen 下載,讓 Alibaba 從跟跑變領跑。

The Decoder 警告,雖然 MMMU-Pro 69.3% 落後 GPT-5 的 78.4%,但視覺專長已縮小開源/封閉差距。

2026 年視頻分析市場將血洗,企業從 Gemini/GPT-5 轉向免費 Qwen3-VL,Meta/OpenAI 生態壓力倍增。


Source

Qwen3-VL can scan two-hour videos and pinpoint nearly every detail

Alibaba Releases Qwen3-VL Technical Report Detailing Two-Hour Video Analysis

Read more

【ChatGPT App 設計教學】如何打造不可或缺的 AI 工具?OpenAI 官方指南深度解析

【ChatGPT App 設計教學】如何打造不可或缺的 AI 工具?OpenAI 官方指南深度解析

2025 年 11 月 24 日,OpenAI 官方發布由 Corey Ching 撰寫的文章〈What Makes a Great ChatGPT App〉,為全球開發者提出一套「ChatGPT App 設計準則」。 這份指南的關鍵目標只有一個:未來的 ChatGPT App,必須真正強化模型能力,而不是把既有產品硬塞進對話框。 這也意味著:隨著 OpenAI Apps SDK 和應用商店生態逐漸成熟,我們需要徹底改變對「軟體」與「產品」的想像——從畫面與流程,轉向「能力集」與「任務完成度」。 ChatGPT App 的本質:從「介面」到「能力集」

Claude Opus 4.5 上線:Anthropic 正面迎戰 GPT-5.1 與 Gemini 3

Claude Opus 4.5 上線:Anthropic 正面迎戰 GPT-5.1 與 Gemini 3

「AI 不是一個新搜尋引擎,而是正在成為整個網路的『新表層』。」 我想很多人都看過「網路冰山」這張圖。上方的 Surface Web 只占整體的 4%,指的是被 Google、Bing 這些搜尋引擎索引的公開網頁;越往下是 Deep Web(需要登入的資料庫、訂閱內容),再往下才是匿名協議的 Dark Web。 過去這張圖之所以經典,是因為它提醒我們: 你看到的網路,其實只是冰山最上面的一截。 但前幾天我在測試 ChatGPT Shopping 的功能時, 我突然意識到 ── AI 正在悄悄改寫這張冰山的結構。 AI 出現後,我每天待在 ChatGPT、Claude、Gemini 的時間,已經遠遠高於使用 Google。AI 成了我的主要入口,Google 則變成次要查證工具。這個使用習慣的改變,透漏了一個重要的訊息:

lock-1