OpenAI

【科技解密】OpenAI最新突破：拆解AI“黑箱”！用「稀疏電路」看懂人工智慧如何思考

OpenAI用稀疏電路打開AI黑箱，發現可理解的內部計算迴路，有望訓練出透明且強大的AI系統。

Vicky Tsai

18 Nov 2025 — 11 min read

為什麼理解AI這麼難？黑箱問題的困境

時至今日，我們生活中使用的最先進的AI系統，無論是 ChatGPT、Claude 還是 Gemini，都依賴於一種核心結構：神經網路（Neural Network）。

但奇怪的是，這些功能強大的模型，並不是由工程師一行行寫下明確的、循序漸進的指令。相反地，它們是通過調整數十億個內部連接（我們稱之為「權重」），不斷學習直到精通某項任務。

這項學習的成果，卻是一個極度複雜且密集的連接網路，人類難以直接理解，因此被稱為「黑箱問題（black-box problem）」。我們設計了訓練規則，但卻無法預測或理解模型內部具體產生了哪些行為。我們可以觀察到AI的輸入和輸出，但卻幾乎無法理解中間的運算邏輯。

換句話說：我們知道AI是如何被訓練出來的，但卻不知道它「為什麼這樣想」。

在AI系統越來越強大，並開始在科學、教育和醫療決策中產生實際影響的今天，理解它們的工作原理至關重要。這就是「可解釋性（Interpretability）」研究成為 AI 安全與可靠性關鍵的原因。

什麼是「可解釋性」？兩種理解AI的路徑

可解釋性是指幫助我們理解「為什麼模型會產生某個特定輸出」的方法。這項研究支持了多項關鍵目標，例如提供更好的監督、對不安全或有策略性誤導的行為提供早期預警。它也補充了其他安全措施，像是可擴展的監督、對抗性訓練和紅隊測試。

目前，研究領域主要有兩條路徑來實現可解釋性：

思維鏈解釋（Chain-of-Thought Interpretability）：這種方法是激勵模型在得出最終答案的過程中，「解釋自己的工作」。它利用這些解釋來監測模型的行為，對於當前的推理模型來說，這些解釋對於識別像是欺騙行為等問題行為很有幫助。然而，這種方法過於依賴模型的「自我描述」，是一個相對脆弱（brittle）的策略，可能隨時間推移而失效。
機械可解釋性（Mechanistic Interpretability）：這是本次OpenAI研究的重點。它尋求完全反向工程（reverse engineer）模型的計算過程，試圖從最細微的層次（granular level）解釋模型的行為。雖然在過去它較少被立即應用，但原則上，它可以對模型的行為提供更完整、更有信心的解釋，因為它只需要做更少的假設。

OpenAI 的最新研究，正是屬於第二類，它試圖真正打開AI的「大腦」，從「電路層面」看清其內部結構。

顛覆性假設：將「密集網路」變成「稀疏電路」

以往的機械可解釋性研究，都是從已經訓練好的、密集（dense）且糾結（tangled）的網路開始。在這些密集的網路中，每個單獨的神經元都連接到數千個其他神經元，並且大多數神經元似乎同時執行許多不同的功能，使得理解模型幾乎成為不可能的任務。

OpenAI 團隊提出了一個具有顛覆性的研究假設：

「如果我們從一開始就訓練『解開』的神經網路，讓它擁有更多的神經元，但每個神經元只與幾十個連接相連，網路會不會變得更簡單，更容易理解？」

這就是「學習稀疏模型（learning sparse models）」的新方法。

研究人員以與現有語言模型（如 GPT-2）非常相似的架構進行訓練，但做了一個關鍵的修改：

強制絕大多數模型的權重為零。
這限制了模型只能使用極少數神經元之間的可能連接。
結果是：每個神經元只連接到下一層中的少數幾個神經元。

這種簡單的改變，被認為能大大解開（substantially disentangles）模型內部的計算過程。

你可以把密集的網路想像成一團無法解開的電線球。而稀疏模型，就像是將這團電線球拆開，只保留那些最關鍵、最必要的幾根導線，這樣我們就能清楚地看到每條線具體「在做什麼」。

稀疏模型的成果：發現可拆解的「思維迴路」

這項工作的核心目標是證明：我們可以訓練模型使其更容易被解釋。對於簡單的行為，研究人員發現，使用他們的方法訓練的稀疏模型包含小巧、分離（disentangled）的電路，這些電路既可理解，又足以執行該行為。

為了衡量稀疏模型的計算被分離的程度，研究人員設計了一系列簡單的算法任務，並檢查是否可以隔離模型中負責每種行為的特定部分——這被稱為「電路（circuits）」。

範例一：Python 引號匹配任務

考慮一個簡單的編程任務：模型在訓練 Python 代碼時，必須正確地補全字串的引號。

如果字串以單引號開頭（例如：'hello'），它必須以單引號結尾。
如果字串以雙引號開頭（例如："hello"），它必須以雙引號結尾。

這要求模型必須「記住」開頭的引號類型，並在結尾處重現它。

驚人的發現：研究人員在最可解釋的模型中，發現了一個完全分離的電路，它精確地執行了這個算法。

這個電路運作方式如下：

編碼：在第一層，它將單引號和雙引號編碼到不同的內部通道（residual channels）中。
轉換：接著，使用一個 MLP（前饋網路）層，將這個信息轉換成兩個通道——一個通道檢測是否有任何引號，另一個通道區分單引號或雙引號。
記憶/複製：在第10層，使用一個注意力機制（attention operation）來忽略中間的文本（ intervening tokens），找到先前的引號，並將其類型複製到最後的記號上。
輸出：最終，模型根據複製的類型預測匹配的閉合引號。

研究人員強調，圖中顯示的這些確切連接足以執行該任務——即使移除模型的其他部分，這個小電路仍然能工作。同時，它們也是必要的——刪除這些連接中的少數幾個邊緣，會導致模型失敗。

這證明了模型的「思維迴路」可以像電子電路一樣被拆解、驗證，並理解其運作機制。

範例二：更複雜的變數綁定

對於更複雜的行為，例如程式碼中的「變數綁定（Variable Binding）」，雖然電路更難以完全解釋，但研究人員仍能取得相對簡單的部分解釋，這些解釋對於預測模型行為很有幫助。

例如，當模型在程式碼中看到 current = set() 時，當它在後續看到 current.add() 時，它需要「記得」 current 的類型是一個 set 集合。

研究發現，模型內部存在兩個關鍵的注意力操作：

第一個操作在定義變數時，將變數名稱複製到 set() 記號上。
第二個操作在後續使用變數時，將類型從 set() 記號複製過來。

這兩個操作形成了一個「變數綁定迴路」，揭示了模型是如何一步步「理解變數關係」的。

能力與透明度：我們可以同時擁有嗎？

當然，我們會擔心這種「稀疏化」會不會讓AI變笨？這聽起來就像是給AI「削骨」。

研究者繪製了模型性能（Capability）與可解釋性（Interpretability）之間的關係曲線。他們發現：

對於固定大小的稀疏模型，增加稀疏度（設置更多權重為零），會降低能力，但增加可解釋性。
然而，擴大模型規模時，這條界線會向外移動。

這項發現暗示了一個非常重要的未來方向：我們可以構建出規模更大、同時既強大又透明（capable and interpretable）的AI系統。

結語與展望：通往可讀AI的漫長道路

這項工作是邁向「使模型計算更容易理解」這一宏大目標的早期一步。研究團隊坦言，當前的稀疏模型遠小於像是 GPT-5 或 o3-mini 等前沿模型，且其大部分計算仍然未被完全解釋。

但這仍然是個很有前景的早期結果。未來，研究人員希望將這些技術擴展到更大的模型。通過列舉潛藏在這些稀疏模型中、更複雜推理背後的「電路主題（circuit motifs）」，我們可以發展出一種理解方式，幫助我們更好地研究前沿模型。

為了克服訓練稀疏模型的效率問題，他們提出了兩條發展路徑：

從現有的密集模型中提取稀疏電路：這相當於從一棟運作中的大樓裡，找到執行特定功能的可獨立運作的電路板。
開發更高效的「可解釋性訓練」技術：讓未來的大模型在訓練時，就能自然形成結構化的電路，而不是事後再去剖析。

最終目標是逐漸擴大我們能夠可靠解釋的模型部分，並建立工具來使未來的系統更容易被分析、除錯和評估。這項研究為我們帶來了希望，或許有一天，我們真的能夠「閱讀」AI的大腦，清楚地知道它做出每一個判斷和選擇的原因。

理解AI的「稀疏電路」概念，就像是拆解一部複雜的機器：

想像AI是一個巨大且充滿線路的工廠，原先的密集神經網路就像是工廠裡所有的電線都纏繞在一起，你無法知道哪根線控制哪台機器。而 「稀疏電路」技術，就像是工程師將這些電線一根根解開，只保留那些執行特定功能（如「報價單確認」或「計算變數」）所必需的線路。透過這種方式，當機器做出特定反應時（例如：引用了單引號），我們可以直接追蹤到是哪幾根線路在發揮作用，從而真正理解它的工作原理，讓AI工廠變得透明化且可管理。