【深度專題】NVIDIA 讓機器人「夢中練功」:AI 怎麼讓它無師自通?

機器人真的能靠「做夢」學習和訓練嗎? NVIDIA 研究團隊提出新技術 DreamGen,讓機器人光靠看影片、做夢,就能學會全新的任務動作。

【深度專題】NVIDIA 讓機器人「夢中練功」:AI 怎麼讓它無師自通?

機器人能「做夢」訓練技能?AI 教學邏輯的轉變

一台人形機器人站在桌前,沒有任何人控制,卻能優雅地完成「澆花」、「燙衣服」、「開筆電」等完全不同類型的任務。

它怎麼做到的?

不同於傳統機器人學習人類「操作示範」,也不是靠模擬器裡種種的錯誤中學習,而是「做夢」。更準確地說,是 AI 利用影片生成模型,在腦中「預演」自己完成任務的過程,並從這些想像中推論出如何在現實中行動。

這是 DreamGen

0:00
/0:39

DreamGen:不再模仿學習,AI 靠「想像力」也能學會行動

長久以來,機器人的學習基本上都遵循著「模仿學習」。人操作一次,機器人錄下來、一遍又一遍,重複練習訓練直到能執行。這個方式直觀好理解,但仰賴人力、不夠靈活,當任務一改、場景一變,就得重來,耗時也吃力。

DreamGen 改變了這個邏輯。它提出一個新假設:與其照著人類示範模仿,不如讓機器人「自己想像」要怎麼做。

它只需要一個簡單任務的操作示範,比如「把杯子撿起來放到桌上」,就能透過影片生成模型,幫機器人「幻想」出各種任務情境的變化版本。不同環境、不同角度、不同物件,AI 都能在腦中模擬一遍,並推理出:該怎麼做、什麼時機做、怎麼做得剛剛好。

這些幻想出來的影片,叫做 neural trajectories(神經軌跡)。它們就像機器人在腦中排演過的任務藍圖,而 DreamGen 的技術流程,就是要把這些「腦中劇本」變成真實世界中可執行的動作策略。

0:00
/0:13

現在你也可以線上親自體驗 DreamGen 的 demo,上傳輸入影像,寫下Prompt,看看 AI 怎麼靠「幻想影片」學會動作: https://dreamgen-u8q2hhdcu.brevlab.com

不只是訓練能力,也是訓練「想像力」

想像你是一位料理新手,只學過一次煎荷包蛋。傳統的做法是你得自己煎上十幾次,從錯誤中找到節奏與火候。

但如果你看了各種料理影片,腦中開始預演不同瓦斯爐、不同鍋子、不同食材的變化,你會發現,你已經默默在腦中練習過幾十次。等你實際動手,成功率也高了許多。

DreamGen 就是像這樣,它幫機器人建立一套「腦中模擬機制」。整個流程包含四個步驟:

  1. 學會動態結構:先微調影片世界模型,讓它理解機器人自己的肢體構造與運動邏輯。
  2. 生成影片:輸入一張畫面加上一句文字指令(例如:「把水倒進杯子」),就能生成完整的任務影片。
  3. 推論出行動:再透過逆向動力模型(Inverse Dynamics Model, IDM),從影片中推理出每一步的動作序列。
  4. 訓練控制策略:最後,將這些影片與動作對應起來,餵給下游模型學習,讓機器人能實際執行。

重點在於:你不需要示範一百次,只需要給一個起點,剩下的由 AI 自己腦補。

白話一點,DreamGen 給了機器人舉一反三、甚至反百的能力。

機器人不只是會幻想,它還能做出來

DreamGen 讓人驚豔的,不只是「會想像」,而是這些「想像出來的動作流程」,竟然真的能應用在現實世界中。

研究團隊只給機器人看過「撿東西放桌上」這一種任務,但在 DreamGen 的幫助下,它居然能執行完全沒見過的新任務,比如「澆花」、「打開微波爐」、「掀開鍋蓋」等等。這在 AI 領域被稱作零樣本泛化(Zero-Shot Generalization),也就是「從未訓練過,也能執行」。

而且 DreamGen 不只泛化任務,還能跨平台跨設備應用。不論是高階機械手臂 Franka,還是平價版本的 SO-100,甚至不同視角(像是手腕視角、俯視鏡頭)都能對應處理。

它學到的不是某個動作,而是如何學會新的動作方式本身

機器人不只是技能轉移,也讓機器人學會「如何學習」。

DreamGen:改寫「誰教誰」的學習邏輯

過去我們對 AI 能力的評估,通常跟資料量成正比:資料越多、模型越強。但 DreamGen 換了一種觀點:不是資料多才重要,而是資料生成得夠好更重要。

在現有方法中,即使是像 Vision-Language-Action 這類機器人基礎模型(robot foundation models),也都得靠人類用遠端操控示範,才能累積足夠訓練資料。這表示再怎麼強的模型,也受限於人類一天 24 小時的上限。

DreamGen 打破這個限制。它讓學習的瓶頸,從「人力供應」轉向「算力擴充」。你不再需要一群工程師日以繼夜示範任務,而是讓幾百張 GPU 一起幫機器人「做夢練功」。

這種邏輯的改變,就像人類學習的演進歷程:我們從親身經歷,轉向靠書本、電影、模擬器來建構認知世界。DreamGen 讓機器人也踏上了這條路。

它不只有訓練動作,也在訓練「理解行為的能力」。

下一波機器人新世代,或許從這場夢開始

我們看著語言模型、影像生成、影片推理的 AI 一路演進,到今日實現機器人也能自我學習。

DreamGen 並非完美技術,但它代表了一個方向:AI 不只是聽從指令的工具,也是主動學習的參與者。是一種機器學習哲學的突破。

想像未來的某天,你剛搬進新家,對機器人說:「幫我收一下廚房。」它只需要看一張照片,自己在腦中「做夢」一輪,就知道該從哪開始、怎麼分類、哪裡該打掃。

而那場夢,或許就從 DreamGen 開始。

source: NVIDIA Research, DreamGen

Read more

【ChatGPT Agent】AI 現在不只會想,還能「動手做」!從研究到行動的新里程碑

【ChatGPT Agent】AI 現在不只會想,還能「動手做」!從研究到行動的新里程碑

2025 年 7 月,OpenAI 正式推出 ChatGPT Agent 模式,這是一個結合 AI 推理力與實際操作能力的全新技術突破。從「幫你規劃晚餐並購買食材」到「分析競品並生成簡報」,ChatGPT 不再只是對話模型,而是變成你身邊最懂事、會執行的數位助理。 🔍 ChatGPT Agent 是什麼?一個能幫你完成任務的 AI ChatGPT Agent 是 OpenAI 打造的一套「代理型系統(agentic system)」,它能主動選擇工具、執行網頁操作、分析資料並產出結果。你可以給它任務指令,像是: * 根據行事曆與新聞準備客戶會議簡報 * 幫你查資料、做分析,並整理成 Excel 或 PPT 幫你規劃與預訂旅行行程、晚餐聚會等 它會自己打開網頁、篩選內容、下載檔案、