【深度專題】NVIDIA 讓機器人「夢中練功」:AI 怎麼讓它無師自通?

機器人真的能靠「做夢」學習和訓練嗎? NVIDIA 研究團隊提出新技術 DreamGen,讓機器人光靠看影片、做夢,就能學會全新的任務動作。

【深度專題】NVIDIA 讓機器人「夢中練功」:AI 怎麼讓它無師自通?

機器人能「做夢」訓練技能?AI 教學邏輯的轉變

一台人形機器人站在桌前,沒有任何人控制,卻能優雅地完成「澆花」、「燙衣服」、「開筆電」等完全不同類型的任務。

它怎麼做到的?

不同於傳統機器人學習人類「操作示範」,也不是靠模擬器裡種種的錯誤中學習,而是「做夢」。更準確地說,是 AI 利用影片生成模型,在腦中「預演」自己完成任務的過程,並從這些想像中推論出如何在現實中行動。

這是 DreamGen

0:00
/0:39

DreamGen:不再模仿學習,AI 靠「想像力」也能學會行動

長久以來,機器人的學習基本上都遵循著「模仿學習」。人操作一次,機器人錄下來、一遍又一遍,重複練習訓練直到能執行。這個方式直觀好理解,但仰賴人力、不夠靈活,當任務一改、場景一變,就得重來,耗時也吃力。

DreamGen 改變了這個邏輯。它提出一個新假設:與其照著人類示範模仿,不如讓機器人「自己想像」要怎麼做。

它只需要一個簡單任務的操作示範,比如「把杯子撿起來放到桌上」,就能透過影片生成模型,幫機器人「幻想」出各種任務情境的變化版本。不同環境、不同角度、不同物件,AI 都能在腦中模擬一遍,並推理出:該怎麼做、什麼時機做、怎麼做得剛剛好。

這些幻想出來的影片,叫做 neural trajectories(神經軌跡)。它們就像機器人在腦中排演過的任務藍圖,而 DreamGen 的技術流程,就是要把這些「腦中劇本」變成真實世界中可執行的動作策略。

0:00
/0:13

現在你也可以線上親自體驗 DreamGen 的 demo,上傳輸入影像,寫下Prompt,看看 AI 怎麼靠「幻想影片」學會動作: https://dreamgen-u8q2hhdcu.brevlab.com

不只是訓練能力,也是訓練「想像力」

想像你是一位料理新手,只學過一次煎荷包蛋。傳統的做法是你得自己煎上十幾次,從錯誤中找到節奏與火候。

但如果你看了各種料理影片,腦中開始預演不同瓦斯爐、不同鍋子、不同食材的變化,你會發現,你已經默默在腦中練習過幾十次。等你實際動手,成功率也高了許多。

DreamGen 就是像這樣,它幫機器人建立一套「腦中模擬機制」。整個流程包含四個步驟:

  1. 學會動態結構:先微調影片世界模型,讓它理解機器人自己的肢體構造與運動邏輯。
  2. 生成影片:輸入一張畫面加上一句文字指令(例如:「把水倒進杯子」),就能生成完整的任務影片。
  3. 推論出行動:再透過逆向動力模型(Inverse Dynamics Model, IDM),從影片中推理出每一步的動作序列。
  4. 訓練控制策略:最後,將這些影片與動作對應起來,餵給下游模型學習,讓機器人能實際執行。

重點在於:你不需要示範一百次,只需要給一個起點,剩下的由 AI 自己腦補。

白話一點,DreamGen 給了機器人舉一反三、甚至反百的能力。

機器人不只是會幻想,它還能做出來

DreamGen 讓人驚豔的,不只是「會想像」,而是這些「想像出來的動作流程」,竟然真的能應用在現實世界中。

研究團隊只給機器人看過「撿東西放桌上」這一種任務,但在 DreamGen 的幫助下,它居然能執行完全沒見過的新任務,比如「澆花」、「打開微波爐」、「掀開鍋蓋」等等。這在 AI 領域被稱作零樣本泛化(Zero-Shot Generalization),也就是「從未訓練過,也能執行」。

而且 DreamGen 不只泛化任務,還能跨平台跨設備應用。不論是高階機械手臂 Franka,還是平價版本的 SO-100,甚至不同視角(像是手腕視角、俯視鏡頭)都能對應處理。

它學到的不是某個動作,而是如何學會新的動作方式本身

機器人不只是技能轉移,也讓機器人學會「如何學習」。

DreamGen:改寫「誰教誰」的學習邏輯

過去我們對 AI 能力的評估,通常跟資料量成正比:資料越多、模型越強。但 DreamGen 換了一種觀點:不是資料多才重要,而是資料生成得夠好更重要。

在現有方法中,即使是像 Vision-Language-Action 這類機器人基礎模型(robot foundation models),也都得靠人類用遠端操控示範,才能累積足夠訓練資料。這表示再怎麼強的模型,也受限於人類一天 24 小時的上限。

DreamGen 打破這個限制。它讓學習的瓶頸,從「人力供應」轉向「算力擴充」。你不再需要一群工程師日以繼夜示範任務,而是讓幾百張 GPU 一起幫機器人「做夢練功」。

這種邏輯的改變,就像人類學習的演進歷程:我們從親身經歷,轉向靠書本、電影、模擬器來建構認知世界。DreamGen 讓機器人也踏上了這條路。

它不只有訓練動作,也在訓練「理解行為的能力」。

下一波機器人新世代,或許從這場夢開始

我們看著語言模型、影像生成、影片推理的 AI 一路演進,到今日實現機器人也能自我學習。

DreamGen 並非完美技術,但它代表了一個方向:AI 不只是聽從指令的工具,也是主動學習的參與者。是一種機器學習哲學的突破。

想像未來的某天,你剛搬進新家,對機器人說:「幫我收一下廚房。」它只需要看一張照片,自己在腦中「做夢」一輪,就知道該從哪開始、怎麼分類、哪裡該打掃。

而那場夢,或許就從 DreamGen 開始。

source: NVIDIA Research, DreamGen

Read more

Anthropic 聯手 Google Cloud 砸數十億美元:100 萬 TPU 助 Claude 衝刺 AGI,挑戰 AI 算力極限!

Anthropic 聯手 Google Cloud 砸數十億美元:100 萬 TPU 助 Claude 衝刺 AGI,挑戰 AI 算力極限!

Anthropic 宣布擴大與 Google Cloud 的合作,價值數十億美元,將部署高達 100 萬個 TPUs,預計 2026 年帶來超過 1 吉瓦計算容量。這不僅為 Anthropic 的 Claude 模型注入強大動力,也彰顯其在 AGI(通用人工智慧)賽道的野心。 Anthropic 與 Google TPU 合作升級 Anthropic 計畫大幅擴大 Google Cloud TPU 使用,高達 100 萬個晶片,總價值數十億美元,打造超過 1 吉瓦的計算容量,預計 2026 年上線。 Google Cloud CEO Thomas Kurian

OpenAI 推出 AI 瀏覽器 Atlas,瀏覽器大戰正式開打?

OpenAI 推出 AI 瀏覽器 Atlas,瀏覽器大戰正式開打?

AI 開始取代你的第一個分頁?OpenAI 推出 AI 瀏覽器 Atlas,能看畫面、能記住網站、還能自動點選完成任務,正式加入 AI 瀏覽器大戰;Anthropic 也將 Claude Code 推上雲端,一邊改 code、一邊處理多個任務成為可能;Netflix 則開始用 AI 協助預算試算與腳本製作,將生成式 AI 拉進影視產業的幕後;Meta 大砍 600 名 FAIR & AI 基礎產品結構員工;我們也整理了他對 AI 發展邏輯的核心思維。這些新聞背後,藏著哪些你該注意的信號?

lock-1
OpenAI 不演了!收購 Mac AI 專屬工具 Sky,從 ChatGPT 到桌面,工作模式即將大變天

OpenAI 不演了!收購 Mac AI 專屬工具 Sky,從 ChatGPT 到桌面,工作模式即將大變天

OpenAI 又放大招!公司宣布收購 Apple 前員工創辦的 Software Applications Incorporated,其新創的旗艦產品 Sky 是 Mac 上的自然語言 AI 介面,能「看懂」螢幕並直接操作應用。這支 12 人小團隊將加入 OpenAI,把 Sky 的 macOS 魔法融入 ChatGPT,讓 AI 從聊天工具升級為你的桌面助手。 Sky:Mac 桌面上的隱形助手 Sky 不是單純的聊天工具,而是專為 Mac 打造的自然語言介面。它能看懂你螢幕上的內容並直接行動,寫報告時幫你拉資料、規劃行程時自動填入日曆、編碼時即時除錯。 想像一下:你邊寫報告邊問「幫我找最新市場數據」,Sky 直接在 Excel 開檔、