能勝任統計學家？Transformers超強學習機制「自動算法選擇」

Name: GPipe論文精讀【論文精讀】
Uploaded: 2023-07-18T21:47:38+08:00
Description: GPipe論文精讀【論文精讀】

分類：八卦

瀏覽數：3747

2023-07-18

機器之心專欄

機器之心編輯部

Salesforce AI Research、北京大學和 UC 伯克利合作的最新論文，發現 Transformer 模型在上下文中學習（in-context learning）的新機制：「自動算法選擇」，類似統計與機器學習專家能夠現實完成的工作。

ChatGPT 等基於 Transformer 的大語言模型具備極強的在上下文中學習（In-Context Learning，ICL）的能力：輸入少量示例樣本，即能夠正確回答同類問題。如何理解這種 ICL 能力？本文作者實驗發現並證明一種 ICL 的新機制：自動算法選擇，可以允許單一 Transformer 模型在不同輸入數據上選擇執行完全不同的，適合該數據的學習算法，類似統計與機器學習專家能夠現實完成的工作。基於量化的 Transformer 構造，文章一併給出 Transformer 實現 ICL 的一套全面的統計理論，包含近似精度，預測表現，以及預訓練的樣本複雜度。

論文地址：https://arxiv.org/abs/2306.04637Transformer 能在 ICL 中完成機器學習任務ChatGPT 等基於 Transformer 的大模型可以根據輸入的文本，自上下文中學習。如何系統地理解這種能力？NeurIPS 2022 的一篇論文（Garg et al. 2022）考察了 Transformer 從上下文中進行機器學習任務的能力。將 N 個訓練樣本與 1 個測試樣本 (x_1, y_1, …, x_N, y_N, x_{N+1}) 作為一個序列輸入 Transformer，要求 Transformer 輸出 y_{N+1}。這些樣本來自簡單的統計模型，例如線性模型，但每個序列由不同的模型參數（w_\star）生成。Transformer 如果想總是正確地預測 y_{N+1}，那麼就需要從訓練樣本中學習真正的參數 w_\star，並利用其進行預測。Garg et al. 發現，訓練好的 Transformer 總是能夠精準地預測 y_{N+1}，並且預測表現能夠媲美該數據上的最優算法。例如線性模型上，Transformer 的預測效果可以媲美最小二乘法（Least Squares），稀疏線性模型上媲美 Lasso，決策樹上能超過 Gradient Boosting。

Figure 1: Transformer 能在 ICL 中完成機器學習任務 (Garg et al. 2022)Transformer 雖然在各個任務中實現最優算法，然而這些算法都只是標準的機器學習算法，遠不能完全解釋 ChatGPT 等大模型強大的 ICL 能力。還存在更強的機制嗎？自動算法選擇現實生活中，統計學家與機器學習專家會如何分析數據？給定一個數據集，統計學家會先確定數據的結構，規模等，然後根據數據的特點選擇最適合的算法。如果不確定哪個算法合適，則會同時嘗試多個算法，然後利用驗證集（validation split）或交叉驗證（cross-validation）等選擇表現最好的算法。本文作者發現，Transformer 也能夠進行類似的自動算法選擇。自動算法選擇允許一個單獨的 Transformer 模型，在不同的 ICL 問題上選擇不同的算法，類似統計學家可以現實完成的工作。作者給出兩種一般的算法選擇機制，從理論上證明 Transformer 模型可以實現這兩個機制，並且實驗上驗證了 Transformer 能夠近似實現這兩種機制，達到了比單一機器學習算法更強的效果。機制 1：用驗證集做算法選擇在這一機制中，Transformer 先將輸入數據分為訓練集和驗證集。接下來在訓練集上同時執行 K 個算法，然後在驗證集上測試 K 個算法的表現，最終用表現最好的算法 k_star 給出預測。

Figure 2: 用驗證集做算法選擇（右）及實例（左）。應用這一機制，Transformer 可以完成一大類算法選擇。如下圖當中，通過恰當的預訓練，Transformer 可同時實現在兩個帶不同正則化的 ridge regression 算法，並對具體數據分布實現較優的那個算法。進一步，對這一任務，我們在理論上也能夠證明 Transformer 能夠近似整個任務的 Bayes 最優表現。

Figure 3: 單一 Transformer 可以在兩個帶不同噪音的線性模型中同時接近最優。在每個模型中，Transformer 的預測都接近該模型上 Bayes 最優算法（帶不同正則化的 ridge regression）。機制 2：提前對數據分布進行檢驗在這一機制中，Transformer 通過提前檢驗數據分布（如計算一些統計量），來決定恰當的算法。例如在下圖當中，單一的 Transformer 可以在回歸問題上實現回歸算法（如線性回歸），在分類問題上實現分類算法（如 Logistic Regression）。

Figure 4: 提前對數據分布進行檢驗（右）及實例（左）。

Figure 5: 單一 Transformer 可以同時在回歸問題和分類問題上接近最優表現：在回歸問題上表現接近最小二乘法，在分類問題上接近 Logistic Regression。

理論框架除了自動算法選擇，本文的另一大貢獻是給出了 Transformer 進行 ICL 的一套完整的統計學習理論，涵蓋

Transformer 如何實現各種機器學習算法的具體構造，如最小二乘法，Lasso，ridge regression，解廣義線性模型的凸優化算法，神經網絡上的梯度下降法等；
對上述 Transformer 大小（層數、attention head 個數、權重矩陣的範數）的精確界；
上述 Transformer 在標準統計假設下，在 ICL 中的預測表現；
Transformer 實現自動算法選擇時類似的保證；
通過預訓練 Transformer 達到上述效果的樣本複雜度。

這套理論給出了 Transformer 進行 ICL 的一整套分析框架。作者相信這一框架可以推廣到一大類相關問題當中，給出類似的理論保證。結語本文從理論和實驗上發現 Transformer 模型在 ICL 中能夠進行自動算法選擇，並給出了一整套進行 ICL 的理論框架。基於本文的結論還有很大的探索空間，例如其它進行 ICL 或自動算法選擇的機制；在 ICL 中逼近 Bayes 最優表現的其它機制；預訓練的 Transformer 如何實現算法選擇的內部機理；對其它 ICL 任務的分析。作者相信，對這些問題的進一步探索，能對大模型有更多有趣的發現。作者簡介本文作者 Yu Bai 現任 Salesforce Research 資深研究科學家。Fan Chen 本科畢業於北京大學，即將博士入學麻省理工大學。Huan Wang、Caiming Xiong 分別現任 Salesforce Research 研究主管及副總裁。Song Mei 現任加州大學伯克利統計系助理教授。

轉載請聯繫本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin.com

“能勝任統計學家？Transformers超強學習機制「自動算法選擇」”相關視頻

GPipe論文精讀【論文精讀】...

58:48

ViT論文逐段精讀【論文精讀】...

1:11:31

Swin Transformer論文精讀【論文精讀】...

1:00:22

MAE 論文逐段精讀【論文精讀】...

47:04

【機器學習2021】Transformer (上)...