能勝任統計學家?Transformers超強學習機制「自動算法選擇」

機器之心專欄

機器之心編輯部

Salesforce AI Research、北京大學和 UC 伯克利合作的最新論文,發現 Transformer 模型在上下文中學習(in-context learning)的新機制:「自動算法選擇」,類似統計與機器學習專家能夠現實完成的工作。

ChatGPT 等基於 Transformer 的大語言模型具備極強的在上下文中學習(In-Context Learning,ICL)的能力:輸入少量示例樣本,即能夠正確回答同類問題。如何理解這種 ICL 能力?本文作者實驗發現並證明一種 ICL 的新機制:自動算法選擇,可以允許單一 Transformer 模型在不同輸入數據上選擇執行完全不同的,適合該數據的學習算法,類似統計與機器學習專家能夠現實完成的工作。基於量化的 Transformer 構造,文章一併給出 Transformer 實現 ICL 的一套全面的統計理論,包含近似精度,預測表現,以及預訓練的樣本複雜度。

論文地址:https://arxiv.org/abs/2306.04637Transformer 能在 ICL 中完成機器學習任務ChatGPT 等基於 Transformer 的大模型可以根據輸入的文本,自上下文中學習。如何系統地理解這種能力?NeurIPS 2022 的一篇論文(Garg et al. 2022)考察了 Transformer 從上下文中進行機器學習任務的能力。將 N 個訓練樣本與 1 個測試樣本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作為一個序列輸入 Transformer,要求 Transformer 輸出 y_{N+1}。這些樣本來自簡單的統計模型,例如線性模型,但每個序列由不同的模型參數(w_\star)生成。Transformer 如果想總是正確地預測 y_{N+1},那麼就需要從訓練樣本中學習真正的參數 w_\star,並利用其進行預測。Garg et al. 發現,訓練好的 Transformer 總是能夠精準地預測 y_{N+1},並且預測表現能夠媲美該數據上的最優算法。例如線性模型上,Transformer 的預測效果可以媲美最小二乘法(Least Squares),稀疏線性模型上媲美 Lasso,決策樹上能超過 Gradient Boosting。

Figure 1: Transformer 能在 ICL 中完成機器學習任務 (Garg et al. 2022)Transformer 雖然在各個任務中實現最優算法,然而這些算法都只是標準的機器學習算法,遠不能完全解釋 ChatGPT 等大模型強大的 ICL 能力。還存在更強的機制嗎?自動算法選擇現實生活中,統計學家與機器學習專家會如何分析數據?給定一個數據集,統計學家會先確定數據的結構,規模等,然後根據數據的特點選擇最適合的算法。如果不確定哪個算法合適,則會同時嘗試多個算法,然後利用驗證集(validation split)或交叉驗證(cross-validation)等選擇表現最好的算法。本文作者發現,Transformer 也能夠進行類似的自動算法選擇。自動算法選擇允許一個單獨的 Transformer 模型,在不同的 ICL 問題上選擇不同的算法,類似統計學家可以現實完成的工作。作者給出兩種一般的算法選擇機制,從理論上證明 Transformer 模型可以實現這兩個機制,並且實驗上驗證了 Transformer 能夠近似實現這兩種機制,達到了比單一機器學習算法更強的效果。機制 1:用驗證集做算法選擇在這一機制中,Transformer 先將輸入數據分為訓練集和驗證集。接下來在訓練集上同時執行 K 個算法,然後在驗證集上測試 K 個算法的表現,最終用表現最好的算法 k_star 給出預測。

Figure 2: 用驗證集做算法選擇(右)及實例(左)。應用這一機制,Transformer 可以完成一大類算法選擇。如下圖當中,通過恰當的預訓練,Transformer 可同時實現在兩個帶不同正則化的 ridge regression 算法,並對具體數據分布實現較優的那個算法。進一步,對這一任務,我們在理論上也能夠證明 Transformer 能夠近似整個任務的 Bayes 最優表現。 Figure 3: 單一 Transformer 可以在兩個帶不同噪音的線性模型中同時接近最優。在每個模型中,Transformer 的預測都接近該模型上 Bayes 最優算法(帶不同正則化的 ridge regression)。機制 2:提前對數據分布進行檢驗在這一機制中,Transformer 通過提前檢驗數據分布(如計算一些統計量),來決定恰當的算法。例如在下圖當中,單一的 Transformer 可以在回歸問題上實現回歸算法(如線性回歸),在分類問題上實現分類算法(如 Logistic Regression)。

Figure 4: 提前對數據分布進行檢驗(右)及實例(左)。

Figure 5: 單一 Transformer 可以同時在回歸問題和分類問題上接近最優表現:在回歸問題上表現接近最小二乘法,在分類問題上接近 Logistic Regression。

理論框架除了自動算法選擇,本文的另一大貢獻是給出了 Transformer 進行 ICL 的一套完整的統計學習理論,涵蓋
  • Transformer 如何實現各種機器學習算法的具體構造,如最小二乘法,Lasso,ridge regression,解廣義線性模型的凸優化算法,神經網絡上的梯度下降法等;
  • 對上述 Transformer 大小(層數、attention head 個數、權重矩陣的範數)的精確界;
  • 上述 Transformer 在標準統計假設下,在 ICL 中的預測表現;
  • Transformer 實現自動算法選擇時類似的保證;
  • 通過預訓練 Transformer 達到上述效果的樣本複雜度。
這套理論給出了 Transformer 進行 ICL 的一整套分析框架。作者相信這一框架可以推廣到一大類相關問題當中,給出類似的理論保證。結語本文從理論和實驗上發現 Transformer 模型在 ICL 中能夠進行自動算法選擇,並給出了一整套進行 ICL 的理論框架。基於本文的結論還有很大的探索空間,例如其它進行 ICL 或自動算法選擇的機制;在 ICL 中逼近 Bayes 最優表現的其它機制;預訓練的 Transformer 如何實現算法選擇的內部機理;對其它 ICL 任務的分析。作者相信,對這些問題的進一步探索,能對大模型有更多有趣的發現。作者簡介本文作者 Yu Bai 現任 Salesforce Research 資深研究科學家。Fan Chen 本科畢業於北京大學,即將博士入學麻省理工大學。Huan Wang、Caiming Xiong 分別現任 Salesforce Research 研究主管及副總裁。Song Mei 現任 加州大學伯克利統計系助理教授。

© THE END 

轉載請聯繫本公眾號獲得授權

投稿或尋求報道:content@jiqizhixin.com