OpenAI o1比博士還「聰明」，全球11位AI大咖怎麼看？

分類：娛樂頭條

瀏覽數：4421

2024-09-13

騰訊科技訊 9月13日消息，據國外媒體報道，美國當地時間周四，openai推出了名為openai o1的新人工智能模型，這也是其首個具有「推理」能力的大模型，它能通過類似人類的推理過程來逐步分析問題，直至得出正確結論。

openai o1有o1-preview和o1-mini兩個版本，僅支持文本，向所有chatgpt的plus和team用戶推出，並在api中向tier 5開發者推出。根據openai官網的評測，這款模型尤其擅長處理數學和代碼問題，甚至在物理、生物和化學問題基準測試中的準確度超過了人類博士水平。

此外，openai o1在物理、化學、數學、邏輯等多維度的基準測試中，水平均超過了gpt-4o：

（gpt-4o和01基準測試對比，來源：openai）

比博士還聰明的openai o1，調動了全球的ai名人好奇心，除了openai的多位高管，英偉達高級科學家jim fan、紐約大學教授、美國知名ai學者加里·馬庫斯（gary marcus）、卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾（james campbell）等紛紛一睹為快，並在x上表達自己的看法。

我們匯總了全球11位關注ai的知名企業家、科學家的看法，有意思的是，整體的評價態度基本分為兩個陣營：

一個陣營以openai的高管和研究員為代表，他們大多數都給了「好評」，認為新模型開啟了新一輪的ai技術範式，幫助大模型走向更複雜的推理時代；而在openai之外的多數「編外人士」，給出的評價相對克制，雖然沒有否定openai o1的創新，但他們認為新模型的能力還沒有被充分測試，並且它距離agi依舊很遙遠。

「好評」陣營：openai o1打開了新的技術範式

在openai發佈openai o1預覽版及其極速版openai o1-mini之後，該公司多位高管以及研究人員發帖，認為新模型將ai推向更複雜的推理時代。

openai首席執行官山姆·奧特曼（sam altman）：openai o1是我們迄今為止最強大的人工智能模型。儘管它並非盡善盡美，仍帶有一定的缺陷與局限性，但初次體驗便足以令人印象深刻。更重要的是，這也預示一個新範式的誕生——人工智能已邁入能夠進行廣泛而複雜推理的新時代。

openai總裁格雷格·布羅克曼（greg brockman）：openai o1是我們首個通過強化學習進行訓練的模型，它在回答問題之前會進行深思熟慮。這是一個充滿巨大機遇的新模型，無論在數量（推理度量已有顯著提升）還是質量（通過簡單英語「閱讀模型的思維」，忠實的思維鏈讓模型變得更可解釋）上，都有明顯改進。

這項技術仍處於早期階段，帶來了新的安全機會，我們正在積極探索，包括可靠性、幻覺問題以及對抗性攻擊的魯棒性。

思維鏈作者、openai研究員jason wei：openai o1是一個在給出最終答案之前會進行思考的模型，它不僅僅通過提示來訓練思維鏈，而是通過強化學習讓模型更好地完成思考過程。

在深度學習的歷史上，我們一直在擴展訓練計算，但思維鏈是一種自適應計算方式，也能在推理時進行擴展。

雖然openai o1在aime和gpqa的測試中顯得很強大，但不一定能直接轉化為用戶可以感受到的效果。即使對科學工作者來說，找出gpt-4不如openai o1的提示並不容易，但一旦找到，你會覺得非常驚奇。我們都需要找到更具挑戰性的提示。

人工智能用人類語言模擬思維鏈在很多方面表現出色。這個模型能像人類一樣處理問題，比如將複雜的步驟拆解成簡單的步驟、識別並糾正錯誤，以及嘗試不同的方法。

這個領域已經被完全重新定義了。

openai研究員馬克斯·施瓦澤（max schwarzer）：我一直認為，你不需要一個gpt-6級的基礎模型來實現人類水平的推理能力，強化學習才是通往agi的關鍵。今天，我們有了證明——openai o1。

作為openai創始成員之一，前特斯拉ai高級總監安德烈·卡帕西（andrej karpathy）的評論畫風格外不同，他吐槽了模型的「懶惰」問題：openai o1-mini一直拒絕為我解決黎曼假設（riemann hypothesis），模型的「懶惰」仍然是一個主要問題。

英偉達高級研究科學家jim fan和卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾（james campbell）雖然不是openai工作人員，也給了好評。

英偉達高級研究科學家jim fan： 這可能是自2022年原始chinchilla縮放定律以來，大語言模型研究中最重要的進展。關鍵在於兩個曲線的協同作用，而不是單一曲線。人們通過延伸訓練縮放定律來預測大語言模型能力將陷入停滯，卻未曾預見到推理縮放才是真正打破收益遞減的關鍵。

我在2月份曾提到，任何自我提升的大語言模型算法都沒能在三輪之後取得顯著進展。沒有人能在大語言模型領域重現alphago的成功，在這個領域，更多的計算能力將可達到超越人類的水平。不過，現在我們翻開了新的一頁。

博士生坎貝爾 vs 奧特曼：卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾（james campbell）發帖，展示了openai o1預覽版在美國數學邀請賽（aime）上的表現，顯示其解答了83%的問題。相較之下，gpt - 4o僅解答出13%的問題。坎貝爾寫道：「一切都結束了！」對此，openai首席執行官山姆·奧特曼（sam altman）回復稱：「我們還會回來的！」

「中差評」陣營：買家需謹慎，它並沒有那麼聰明

huggingface首席執行官兼聯合創始人克萊門特·德蘭吉（clement delangue）：再一次，人工智能系統並不是在「思考」，而是在「處理」和「運行預測」——就像谷歌或電腦一樣。這種技術往往給人一種錯誤的印象，讓你覺得這些系統像人類一樣智能，但這只是廉價的宣傳和營銷策略，讓你覺得它們比實際情況更聰明。

紐約大學教授、美國知名ai學者加里·馬庫斯（gary marcus）：openai關於gpt的新模型確實令人印象深刻，但是：

1. 它不是agi（通用人工智能），而且距離這個目標還很遠。

2.仔細閱讀並理解其中的細節。關於它如何工作的細節並不多，已測試的內容也沒有全面披露。它與gpt-4的其餘部分並未完全整合。（為什麼？）

3.完整的新模型並未向付費訂閱者發佈，只推出了一個迷你版和預覽版。因此，業界還未能對其進行充分測試。

4.報告顯示，openai o1在許多領域表現良好，但在某些方面舊模型表現更佳。它並不是一個全面超越舊模型的神奇改進。

5.我們不清楚具體的訓練內容，但即使是一些基礎任務，如井字棋（tic-tac-toe），也存在問題。

6.openai誇大了它在法律考試上的成功，經過仔細審查，這些說法經不起推敲。科學審查需要時間，目前這些結果尚未經過同行評審。

7.它聲稱能在幾秒鐘內完成的任務，若給它一個月時間，可能會讓人驚訝。但如果給它一個高度專業化的任務，比如編寫複雜的軟件代碼，它可能會令人失望，因為openai希望你認為它無所不能。

8. 買家需謹慎。

沃頓商學院管理學教授伊森·莫里克（ethan mollick）：我已經用了1個月的「草莓」（openai o1），它在許多方面都很驚人，但也有些限制。也許最重要的是，這是一個信號，表明了未來事情的發展方向。

新的人工智能模型被稱為「o1-預覽」（為什麼人工智能公司總是這麼不擅長命名？），它在解決問題之前會先「思考」一下問題。這使得它能夠解決那些需要計劃和迭代的複雜問題，比如新穎的數學或科學難題。事實上，它在解決極其困難的物理問題上，現在甚至可以超過人類的博士專家。

需要明確的是，「o1-預覽」並不是在所有方面都表現得更好。例如，它並不比gpt-4o更強。但對於需要規劃的任務，表現卻非常好。例如，我給它下達了這樣的指令：參考下面的論文，考慮老師和學生的觀點，弄清楚如何使用多個代理和生成式ai構建一個教學模擬器。編寫代碼並詳細說明你的方法。然後我把我們論文的全文貼了上去，唯一的提示是要構建完整的代碼。你可以看到下面系統生成的結果。

評估這些複雜的輸出確實很困難，因此展示草莓模型的收益（以及局限性）最簡單的方法是用一個遊戲：填字遊戲。我從一個非常難的填字遊戲中提取了8條線索，並將其翻譯成文本（因為我還不能看到圖像）。不妨自己嘗試一下這個謎題，我敢打賭你會覺得它很有挑戰性。

填字遊戲對大語言模型來說顯得尤其棘手，因為它們需要反覆試錯：嘗試並排除許多相互關聯的答案。而大語言模型無法做到這一點，因為它們每次只能在其答案中添加一個token。例如，當我把這個謎題給claude時，它首先給出的答案是「star」（錯誤的），然後用這個錯誤的答案嘗試解答剩下的謎題，最後甚至連答案都猜不出來。沒有規划過程，它只能不斷嘗試。

但如果我把這個謎題給草莓會怎樣呢？這個模型首先「思考」了整整108秒（大多數問題能在更短時間內解決）。你可以看到它的思路，下面是一個樣本（還有很多我沒包括），這些思路非常啟發人——值得花時間讀一讀。

大語言模型會反覆迭代，創造和排除想法，結果通常相當出色。然而，「o1-預覽」似乎還是基於gpt-4o，有點過於字面化，難以破解這個較難的謎題。例如，「星系團」並不是指真正的星系，而是三星galaxy手機（這也讓我困惑）——答案是「應用程序」。在決定是否為coma（一個真實的星系團）之前，它一直在嘗試實際的星系名稱。因此，剩下的結果雖然有創意，但不完全正確，也不符合規則。

為了嘗試更進一步，我決定給它一個提示：「1向下是apps。」人工智能又花了一分鐘。再次，在它的思維樣本中（見左邊），你可以看到它如何迭代想法。最終，它給出的答案完全正確，解決了所有難題的提示，儘管它確實生成了一個新線索——這不是我給它的謎題。

所以，如果沒有「草莓」，「o1-預覽」所做的事情是不可能實現的，但它仍然不是完美的：錯誤和幻覺仍然存在，且它仍受限於gpt-4o作為底層模型的「智能」。自從有了新模型，我沒停止用claude來評論我的帖子，claude在風格上仍然表現更好，但我確實停止用它處理任何複雜的計劃或問題解決任務。「o1-預覽」在這些領域代表了巨大的飛躍。

使用「o1-預覽」意味着面臨人工智能的範式變化。計劃成了一種代理形式，人工智能在沒有我們幫助的情況下自己得出解決方案。可以看出，人工智能做了大量的思考，產生了完整的結果，作為人類夥伴的角色感覺被削弱了。人工智能會自主完成任務，然後給出答案。當然，我可以通過分析它的推理找出錯誤，但我不再感覺自己與人工智能的輸出有聯繫，也不再覺得自己在解決方案的形成中扮演重要角色。這不一定是壞事，但確實是一種改變。

隨着這些系統不斷升級，逐漸走向真正的自主代理，我們需要弄清楚如何保持在這個循環中——既要捕捉錯誤，又要掌握我們試圖解決問題的核心。「o1-預覽」展示了可能前所未見的人工智能功能，即使它目前存在一些局限性。這給我們留下了一個關鍵問題：隨着人工智能的發展，我們如何與它更好地合作？這是「o1-預覽」目前還無法解決的問題。

和很多人直接的褒貶觀點不同，作為對話式搜索引擎perplexity ceo，阿拉溫德·斯里尼瓦斯（aravind srinivas）試圖「猜測」openai o1模型的原理。他不認為「草莓」所給出的答案是經由反覆批判性反饋精心提煉的結果，而且認為單純依賴大型語言模型來得出答案並不足夠可靠。他建議，將代碼執行融入其中，並結合從知識圖譜中直接提取的事實，這一做法在實際應用中可能更為有效。

總體而言，openai o1的「思考」時間更長、更擅長處理標準化程度更高的「理科」問題了，這對科學領域的發展來說是一件好事。但除了是非分明的邏輯推理問題，世界上所存在的更多問題，都是沒有標準答案的，對芸芸眾生而言，一千個人眼中有一千個哈姆雷特，如果大模型能為人類解決這類非標問題，或許才能接近真正的agi。(編譯/金鹿編輯/可君、周小燕)