OpenAI o1比博士還「聰明」,全球11位AI大咖怎麼看?

騰訊科技訊 9月13日消息,據國外媒體報道,美國當地時間周四,openai推出了名為openai o1的新人工智能模型,這也是其首個具有「推理」能力的大模型,它能通過類似人類的推理過程來逐步分析問題,直至得出正確結論。

openai o1有o1-preview和o1-mini兩個版本,僅支持文本,向所有chatgpt的plus和team用戶推出,並在api中向tier 5開發者推出。根據openai官網的評測,這款模型尤其擅長處理數學和代碼問題,甚至在物理、生物和化學問題基準測試中的準確度超過了人類博士水平。

此外,openai o1在物理、化學、數學、邏輯等多維度的基準測試中,水平均超過了gpt-4o:

(gpt-4o和01基準測試對比,來源:openai)

比博士還聰明的openai o1,調動了全球的ai名人好奇心,除了openai的多位高管,英偉達高級科學家jim fan、紐約大學教授、美國知名ai學者加里·馬庫斯(gary marcus)、卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾(james campbell)等紛紛一睹為快,並在x上表達自己的看法。

我們匯總了全球11位關注ai的知名企業家、科學家的看法,有意思的是,整體的評價態度基本分為兩個陣營:

一個陣營以openai的高管和研究員為代表,他們大多數都給了「好評」,認為新模型開啟了新一輪的ai技術範式,幫助大模型走向更複雜的推理時代;而在openai之外的多數「編外人士」,給出的評價相對克制,雖然沒有否定openai o1的創新,但他們認為新模型的能力還沒有被充分測試,並且它距離agi依舊很遙遠。

「好評」陣營:openai o1打開了新的技術範式

在openai發佈openai o1預覽版及其極速版openai o1-mini之後,該公司多位高管以及研究人員發帖,認為新模型將ai推向更複雜的推理時代。

openai首席執行官山姆·奧特曼(sam altman):openai o1是我們迄今為止最強大的人工智能模型。儘管它並非盡善盡美,仍帶有一定的缺陷與局限性,但初次體驗便足以令人印象深刻。更重要的是,這也預示一個新範式的誕生——人工智能已邁入能夠進行廣泛而複雜推理的新時代。

openai總裁格雷格·布羅克曼(greg brockman):openai o1是我們首個通過強化學習進行訓練的模型,它在回答問題之前會進行深思熟慮。這是一個充滿巨大機遇的新模型,無論在數量(推理度量已有顯著提升)還是質量(通過簡單英語「閱讀模型的思維」,忠實的思維鏈讓模型變得更可解釋)上,都有明顯改進。

這項技術仍處於早期階段,帶來了新的安全機會,我們正在積極探索,包括可靠性、幻覺問題以及對抗性攻擊的魯棒性。

思維鏈作者、openai研究員jason wei:openai o1是一個在給出最終答案之前會進行思考的模型,它不僅僅通過提示來訓練思維鏈,而是通過強化學習讓模型更好地完成思考過程。

在深度學習的歷史上,我們一直在擴展訓練計算,但思維鏈是一種自適應計算方式,也能在推理時進行擴展。

雖然openai o1在aime和gpqa的測試中顯得很強大,但不一定能直接轉化為用戶可以感受到的效果。即使對科學工作者來說,找出gpt-4不如openai o1的提示並不容易,但一旦找到,你會覺得非常驚奇。我們都需要找到更具挑戰性的提示。

人工智能用人類語言模擬思維鏈在很多方面表現出色。這個模型能像人類一樣處理問題,比如將複雜的步驟拆解成簡單的步驟、識別並糾正錯誤,以及嘗試不同的方法。

這個領域已經被完全重新定義了。

openai研究員馬克斯·施瓦澤(max schwarzer):我一直認為,你不需要一個gpt-6級的基礎模型來實現人類水平的推理能力,強化學習才是通往agi的關鍵。今天,我們有了證明——openai o1。

作為openai創始成員之一,前特斯拉ai高級總監安德烈·卡帕西(andrej karpathy)的評論畫風格外不同,他吐槽了模型的「懶惰」問題:openai o1-mini一直拒絕為我解決黎曼假設(riemann hypothesis),模型的「懶惰」仍然是一個主要問題。

英偉達高級研究科學家jim fan和卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾(james campbell)雖然不是openai工作人員,也給了好評。

英偉達高級研究科學家jim fan: 這可能是自2022年原始chinchilla縮放定律以來,大語言模型研究中最重要的進展。關鍵在於兩個曲線的協同作用,而不是單一曲線。人們通過延伸訓練縮放定律來預測大語言模型能力將陷入停滯,卻未曾預見到推理縮放才是真正打破收益遞減的關鍵。

我在2月份曾提到,任何自我提升的大語言模型算法都沒能在三輪之後取得顯著進展。沒有人能在大語言模型領域重現alphago的成功,在這個領域,更多的計算能力將可達到超越人類的水平。不過,現在我們翻開了新的一頁。

博士生坎貝爾 vs 奧特曼:卡內基梅隆大學計算機科學博士生詹姆斯·坎貝爾(james campbell)發帖,展示了openai o1預覽版在美國數學邀請賽(aime)上的表現,顯示其解答了83%的問題。相較之下,gpt - 4o僅解答出13%的問題。坎貝爾寫道:「一切都結束了!」 對此,openai首席執行官山姆·奧特曼(sam altman)回復稱:「我們還會回來的!」

「中差評」陣營:買家需謹慎,它並沒有那麼聰明

huggingface首席執行官兼聯合創始人克萊門特·德蘭吉(clement delangue):再一次,人工智能系統並不是在「思考」,而是在「處理」和「運行預測」——就像谷歌或電腦一樣。這種技術往往給人一種錯誤的印象,讓你覺得這些系統像人類一樣智能,但這只是廉價的宣傳和營銷策略,讓你覺得它們比實際情況更聰明。

紐約大學教授、美國知名ai學者加里·馬庫斯(gary marcus):openai關於gpt的新模型確實令人印象深刻,但是:

1. 它不是agi(通用人工智能),而且距離這個目標還很遠。

2.仔細閱讀並理解其中的細節。關於它如何工作的細節並不多,已測試的內容也沒有全面披露。它與gpt-4的其餘部分並未完全整合。(為什麼?)

3.完整的新模型並未向付費訂閱者發佈,只推出了一個迷你版和預覽版。因此,業界還未能對其進行充分測試。

4.報告顯示,openai o1在許多領域表現良好,但在某些方面舊模型表現更佳。它並不是一個全面超越舊模型的神奇改進。

5.我們不清楚具體的訓練內容,但即使是一些基礎任務,如井字棋(tic-tac-toe),也存在問題。

6.openai誇大了它在法律考試上的成功,經過仔細審查,這些說法經不起推敲。科學審查需要時間,目前這些結果尚未經過同行評審。

7.它聲稱能在幾秒鐘內完成的任務,若給它一個月時間,可能會讓人驚訝。但如果給它一個高度專業化的任務,比如編寫複雜的軟件代碼,它可能會令人失望,因為openai希望你認為它無所不能。

8. 買家需謹慎。

沃頓商學院管理學教授伊森·莫里克(ethan mollick) :我已經用了1個月的「草莓」(openai o1),它在許多方面都很驚人,但也有些限制。也許最重要的是,這是一個信號,表明了未來事情的發展方向。

新的人工智能模型被稱為「o1-預覽」(為什麼人工智能公司總是這麼不擅長命名?),它在解決問題之前會先「思考」一下問題。這使得它能夠解決那些需要計劃和迭代的複雜問題,比如新穎的數學或科學難題。事實上,它在解決極其困難的物理問題上,現在甚至可以超過人類的博士專家。

需要明確的是,「o1-預覽」並不是在所有方面都表現得更好。例如,它並不比gpt-4o更強。但對於需要規劃的任務,表現卻非常好。例如,我給它下達了這樣的指令:參考下面的論文,考慮老師和學生的觀點,弄清楚如何使用多個代理和生成式ai構建一個教學模擬器。編寫代碼並詳細說明你的方法。然後我把我們論文的全文貼了上去,唯一的提示是要構建完整的代碼。你可以看到下面系統生成的結果。

評估這些複雜的輸出確實很困難,因此展示草莓模型的收益(以及局限性)最簡單的方法是用一個遊戲:填字遊戲。我從一個非常難的填字遊戲中提取了8條線索,並將其翻譯成文本(因為我還不能看到圖像)。不妨自己嘗試一下這個謎題,我敢打賭你會覺得它很有挑戰性。

填字遊戲對大語言模型來說顯得尤其棘手,因為它們需要反覆試錯:嘗試並排除許多相互關聯的答案。而大語言模型無法做到這一點,因為它們每次只能在其答案中添加一個token。例如,當我把這個謎題給claude時,它首先給出的答案是「star」(錯誤的),然後用這個錯誤的答案嘗試解答剩下的謎題,最後甚至連答案都猜不出來。沒有規划過程,它只能不斷嘗試。

但如果我把這個謎題給草莓會怎樣呢?這個模型首先「思考」了整整108秒(大多數問題能在更短時間內解決)。你可以看到它的思路,下面是一個樣本(還有很多我沒包括),這些思路非常啟發人——值得花時間讀一讀。

大語言模型會反覆迭代,創造和排除想法,結果通常相當出色。然而,「o1-預覽」似乎還是基於gpt-4o,有點過於字面化,難以破解這個較難的謎題。例如,「星系團」並不是指真正的星系,而是三星galaxy手機(這也讓我困惑)——答案是「應用程序」。在決定是否為coma(一個真實的星系團)之前,它一直在嘗試實際的星系名稱。因此,剩下的結果雖然有創意,但不完全正確,也不符合規則。

為了嘗試更進一步,我決定給它一個提示:「1向下是apps。」人工智能又花了一分鐘。再次,在它的思維樣本中(見左邊),你可以看到它如何迭代想法。最終,它給出的答案完全正確,解決了所有難題的提示,儘管它確實生成了一個新線索——這不是我給它的謎題。

所以,如果沒有「草莓」,「o1-預覽」所做的事情是不可能實現的,但它仍然不是完美的:錯誤和幻覺仍然存在,且它仍受限於gpt-4o作為底層模型的「智能」。自從有了新模型,我沒停止用claude來評論我的帖子,claude在風格上仍然表現更好,但我確實停止用它處理任何複雜的計劃或問題解決任務。「o1-預覽」在這些領域代表了巨大的飛躍。

使用「o1-預覽」意味着面臨人工智能的範式變化。計劃成了一種代理形式,人工智能在沒有我們幫助的情況下自己得出解決方案。可以看出,人工智能做了大量的思考,產生了完整的結果,作為人類夥伴的角色感覺被削弱了。人工智能會自主完成任務,然後給出答案。當然,我可以通過分析它的推理找出錯誤,但我不再感覺自己與人工智能的輸出有聯繫,也不再覺得自己在解決方案的形成中扮演重要角色。這不一定是壞事,但確實是一種改變。

隨着這些系統不斷升級,逐漸走向真正的自主代理,我們需要弄清楚如何保持在這個循環中——既要捕捉錯誤,又要掌握我們試圖解決問題的核心。「o1-預覽」展示了可能前所未見的人工智能功能,即使它目前存在一些局限性。這給我們留下了一個關鍵問題:隨着人工智能的發展,我們如何與它更好地合作?這是「o1-預覽」目前還無法解決的問題。

和很多人直接的褒貶觀點不同,作為對話式搜索引擎perplexity ceo,阿拉溫德·斯里尼瓦斯(aravind srinivas)試圖「猜測」openai o1模型的原理。他不認為「草莓」所給出的答案是經由反覆批判性反饋精心提煉的結果,而且認為單純依賴大型語言模型來得出答案並不足夠可靠。他建議,將代碼執行融入其中,並結合從知識圖譜中直接提取的事實,這一做法在實際應用中可能更為有效。

總體而言,openai o1的「思考」時間更長、更擅長處理標準化程度更高的「理科」問題了,這對科學領域的發展來說是一件好事。但除了是非分明的邏輯推理問題,世界上所存在的更多問題,都是沒有標準答案的,對芸芸眾生而言,一千個人眼中有一千個哈姆雷特,如果大模型能為人類解決這類非標問題,或許才能接近真正的agi。(編譯/金鹿 編輯/可君、周小燕)