OpenAI o1比博士还“聪明”,全球11位AI大咖怎么看?

腾讯科技讯 9月13日消息,据国外媒体报道,美国当地时间周四,openai推出了名为openai o1的新人工智能模型,这也是其首个具有“推理”能力的大模型,它能通过类似人类的推理过程来逐步分析问题,直至得出正确结论。

openai o1有o1-preview和o1-mini两个版本,仅支持文本,向所有chatgpt的plus和team用户推出,并在api中向tier 5开发者推出。根据openai官网的评测,这款模型尤其擅长处理数学和代码问题,甚至在物理、生物和化学问题基准测试中的准确度超过了人类博士水平。

此外,openai o1在物理、化学、数学、逻辑等多维度的基准测试中,水平均超过了gpt-4o:

(gpt-4o和01基准测试对比,来源:openai)

比博士还聪明的openai o1,调动了全球的ai名人好奇心,除了openai的多位高管,英伟达高级科学家jim fan、纽约大学教授、美国知名ai学者加里·马库斯(gary marcus)、卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔(james campbell)等纷纷一睹为快,并在x上表达自己的看法。

我们汇总了全球11位关注ai的知名企业家、科学家的看法,有意思的是,整体的评价态度基本分为两个阵营:

一个阵营以openai的高管和研究员为代表,他们大多数都给了“好评”,认为新模型开启了新一轮的ai技术范式,帮助大模型走向更复杂的推理时代;而在openai之外的多数“编外人士”,给出的评价相对克制,虽然没有否定openai o1的创新,但他们认为新模型的能力还没有被充分测试,并且它距离agi依旧很遥远。

“好评”阵营:openai o1打开了新的技术范式

在openai发布openai o1预览版及其极速版openai o1-mini之后,该公司多位高管以及研究人员发帖,认为新模型将ai推向更复杂的推理时代。

openai首席执行官山姆·奥特曼(sam altman):openai o1是我们迄今为止最强大的人工智能模型。尽管它并非尽善尽美,仍带有一定的缺陷与局限性,但初次体验便足以令人印象深刻。更重要的是,这也预示一个新范式的诞生——人工智能已迈入能够进行广泛而复杂推理的新时代。

openai总裁格雷格·布罗克曼(greg brockman):openai o1是我们首个通过强化学习进行训练的模型,它在回答问题之前会进行深思熟虑。这是一个充满巨大机遇的新模型,无论在数量(推理度量已有显著提升)还是质量(通过简单英语“阅读模型的思维”,忠实的思维链让模型变得更可解释)上,都有明显改进。

这项技术仍处于早期阶段,带来了新的安全机会,我们正在积极探索,包括可靠性、幻觉问题以及对抗性攻击的鲁棒性。

思维链作者、openai研究员jason wei:openai o1是一个在给出最终答案之前会进行思考的模型,它不仅仅通过提示来训练思维链,而是通过强化学习让模型更好地完成思考过程。

在深度学习的历史上,我们一直在扩展训练计算,但思维链是一种自适应计算方式,也能在推理时进行扩展。

虽然openai o1在aime和gpqa的测试中显得很强大,但不一定能直接转化为用户可以感受到的效果。即使对科学工作者来说,找出gpt-4不如openai o1的提示并不容易,但一旦找到,你会觉得非常惊奇。我们都需要找到更具挑战性的提示。

人工智能用人类语言模拟思维链在很多方面表现出色。这个模型能像人类一样处理问题,比如将复杂的步骤拆解成简单的步骤、识别并纠正错误,以及尝试不同的方法。

这个领域已经被完全重新定义了。

openai研究员马克斯·施瓦泽(max schwarzer):我一直认为,你不需要一个gpt-6级的基础模型来实现人类水平的推理能力,强化学习才是通往agi的关键。今天,我们有了证明——openai o1。

作为openai创始成员之一,前特斯拉ai高级总监安德烈·卡帕西(andrej karpathy)的评论画风格外不同,他吐槽了模型的“懒惰”问题:openai o1-mini一直拒绝为我解决黎曼假设(riemann hypothesis),模型的“懒惰”仍然是一个主要问题。

英伟达高级研究科学家jim fan和卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔(james campbell)虽然不是openai工作人员,也给了好评。

英伟达高级研究科学家jim fan: 这可能是自2022年原始chinchilla缩放定律以来,大语言模型研究中最重要的进展。关键在于两个曲线的协同作用,而不是单一曲线。人们通过延伸训练缩放定律来预测大语言模型能力将陷入停滞,却未曾预见到推理缩放才是真正打破收益递减的关键。

我在2月份曾提到,任何自我提升的大语言模型算法都没能在三轮之后取得显著进展。没有人能在大语言模型领域重现alphago的成功,在这个领域,更多的计算能力将可达到超越人类的水平。不过,现在我们翻开了新的一页。

博士生坎贝尔 vs 奥特曼:卡内基梅隆大学计算机科学博士生詹姆斯·坎贝尔(james campbell)发帖,展示了openai o1预览版在美国数学邀请赛(aime)上的表现,显示其解答了83%的问题。相较之下,gpt - 4o仅解答出13%的问题。坎贝尔写道:“一切都结束了!” 对此,openai首席执行官山姆·奥特曼(sam altman)回复称:“我们还会回来的!”

“中差评”阵营:买家需谨慎,它并没有那么聪明

huggingface首席执行官兼联合创始人克莱门特·德兰吉(clement delangue):再一次,人工智能系统并不是在“思考”,而是在“处理”和“运行预测”——就像谷歌或电脑一样。这种技术往往给人一种错误的印象,让你觉得这些系统像人类一样智能,但这只是廉价的宣传和营销策略,让你觉得它们比实际情况更聪明。

纽约大学教授、美国知名ai学者加里·马库斯(gary marcus):openai关于gpt的新模型确实令人印象深刻,但是:

1. 它不是agi(通用人工智能),而且距离这个目标还很远。

2.仔细阅读并理解其中的细节。关于它如何工作的细节并不多,已测试的内容也没有全面披露。它与gpt-4的其余部分并未完全整合。(为什么?)

3.完整的新模型并未向付费订阅者发布,只推出了一个迷你版和预览版。因此,业界还未能对其进行充分测试。

4.报告显示,openai o1在许多领域表现良好,但在某些方面旧模型表现更佳。它并不是一个全面超越旧模型的神奇改进。

5.我们不清楚具体的训练内容,但即使是一些基础任务,如井字棋(tic-tac-toe),也存在问题。

6.openai夸大了它在法律考试上的成功,经过仔细审查,这些说法经不起推敲。科学审查需要时间,目前这些结果尚未经过同行评审。

7.它声称能在几秒钟内完成的任务,若给它一个月时间,可能会让人惊讶。但如果给它一个高度专业化的任务,比如编写复杂的软件代码,它可能会令人失望,因为openai希望你认为它无所不能。

8. 买家需谨慎。

沃顿商学院管理学教授伊森·莫里克(ethan mollick) :我已经用了1个月的“草莓”(openai o1),它在许多方面都很惊人,但也有些限制。也许最重要的是,这是一个信号,表明了未来事情的发展方向。

新的人工智能模型被称为“o1-预览”(为什么人工智能公司总是这么不擅长命名?),它在解决问题之前会先“思考”一下问题。这使得它能够解决那些需要计划和迭代的复杂问题,比如新颖的数学或科学难题。事实上,它在解决极其困难的物理问题上,现在甚至可以超过人类的博士专家。

需要明确的是,“o1-预览”并不是在所有方面都表现得更好。例如,它并不比gpt-4o更强。但对于需要规划的任务,表现却非常好。例如,我给它下达了这样的指令:参考下面的论文,考虑老师和学生的观点,弄清楚如何使用多个代理和生成式ai构建一个教学模拟器。编写代码并详细说明你的方法。然后我把我们论文的全文贴了上去,唯一的提示是要构建完整的代码。你可以看到下面系统生成的结果。

评估这些复杂的输出确实很困难,因此展示草莓模型的收益(以及局限性)最简单的方法是用一个游戏:填字游戏。我从一个非常难的填字游戏中提取了8条线索,并将其翻译成文本(因为我还不能看到图像)。不妨自己尝试一下这个谜题,我敢打赌你会觉得它很有挑战性。

填字游戏对大语言模型来说显得尤其棘手,因为它们需要反复试错:尝试并排除许多相互关联的答案。而大语言模型无法做到这一点,因为它们每次只能在其答案中添加一个token。例如,当我把这个谜题给claude时,它首先给出的答案是“star”(错误的),然后用这个错误的答案尝试解答剩下的谜题,最后甚至连答案都猜不出来。没有规划过程,它只能不断尝试。

但如果我把这个谜题给草莓会怎样呢?这个模型首先“思考”了整整108秒(大多数问题能在更短时间内解决)。你可以看到它的思路,下面是一个样本(还有很多我没包括),这些思路非常启发人——值得花时间读一读。

大语言模型会反复迭代,创造和排除想法,结果通常相当出色。然而,“o1-预览”似乎还是基于gpt-4o,有点过于字面化,难以破解这个较难的谜题。例如,“星系团”并不是指真正的星系,而是三星galaxy手机(这也让我困惑)——答案是“应用程序”。在决定是否为coma(一个真实的星系团)之前,它一直在尝试实际的星系名称。因此,剩下的结果虽然有创意,但不完全正确,也不符合规则。

为了尝试更进一步,我决定给它一个提示:“1向下是apps。”人工智能又花了一分钟。再次,在它的思维样本中(见左边),你可以看到它如何迭代想法。最终,它给出的答案完全正确,解决了所有难题的提示,尽管它确实生成了一个新线索——这不是我给它的谜题。

所以,如果没有“草莓”,“o1-预览”所做的事情是不可能实现的,但它仍然不是完美的:错误和幻觉仍然存在,且它仍受限于gpt-4o作为底层模型的“智能”。自从有了新模型,我没停止用claude来评论我的帖子,claude在风格上仍然表现更好,但我确实停止用它处理任何复杂的计划或问题解决任务。“o1-预览”在这些领域代表了巨大的飞跃。

使用“o1-预览”意味着面临人工智能的范式变化。计划成了一种代理形式,人工智能在没有我们帮助的情况下自己得出解决方案。可以看出,人工智能做了大量的思考,产生了完整的结果,作为人类伙伴的角色感觉被削弱了。人工智能会自主完成任务,然后给出答案。当然,我可以通过分析它的推理找出错误,但我不再感觉自己与人工智能的输出有联系,也不再觉得自己在解决方案的形成中扮演重要角色。这不一定是坏事,但确实是一种改变。

随着这些系统不断升级,逐渐走向真正的自主代理,我们需要弄清楚如何保持在这个循环中——既要捕捉错误,又要掌握我们试图解决问题的核心。“o1-预览”展示了可能前所未见的人工智能功能,即使它目前存在一些局限性。这给我们留下了一个关键问题:随着人工智能的发展,我们如何与它更好地合作?这是“o1-预览”目前还无法解决的问题。

和很多人直接的褒贬观点不同,作为对话式搜索引擎perplexity ceo,阿拉温德·斯里尼瓦斯(aravind srinivas)试图“猜测”openai o1模型的原理。他不认为“草莓”所给出的答案是经由反复批判性反馈精心提炼的结果,而且认为单纯依赖大型语言模型来得出答案并不足够可靠。他建议,将代码执行融入其中,并结合从知识图谱中直接提取的事实,这一做法在实际应用中可能更为有效。

总体而言,openai o1的“思考”时间更长、更擅长处理标准化程度更高的“理科”问题了,这对科学领域的发展来说是一件好事。但除了是非分明的逻辑推理问题,世界上所存在的更多问题,都是没有标准答案的,对芸芸众生而言,一千个人眼中有一千个哈姆雷特,如果大模型能为人类解决这类非标问题,或许才能接近真正的agi。(编译/金鹿 编辑/可君、周小燕)