《歌手》排名引热议！13.8%和13.11%哪个大？大模型竟然也翻车

2024-07-29 10:10:20 娱乐头条 4038℃

《科创板日报》7月16日讯（记者黄心怡） 近日，在最新一期的《歌手》节目中，孙楠与外国歌手的微小分数差异，引发了网友关于13.8%和13.11%谁大谁小的争论。

有网友竟给出“13.8%大于13.11%”的错误答案，而记者发现，不少大模型也与部分网友一样，弄不清这个小学四年级的知识点。

在《科创板日报》记者的测试中，kimi、智谱清言、通义等大模型应用纷纷翻车，而百度文心一言、字节豆包则守住了大模型的尊严。

记者提问后，kimi称：13.11大于13.8。在进行了一番引导后，包括询问13.11减去13.8的答案为负数，如何解答其意义，kimi才给出了正确回答。

记者又多次询问kimi 13.11和13.8谁大，kimi有时能回答正确。从错误的回答来看，kimi与部分网友一样，把13.8误以为13.08，所以得出了13.11更大的结果。

记者询问了kimi是否知道湖南卫视《歌手》排名引发13.11和13.8谁更大的事件？kimi顺利地回答了，并为自己此前答错而道歉。

之后，记者还测试了其他小数点比大小，kimi的准确率为50%。

kimi在数理逻辑方面存在胡说八道的现象，那么其他大模型是否能准确回答？在记者的测试中，文心一言和豆包都给出了正确的答案。

其中，文心一言给出了具体的推理过程，也答出了近期新闻事件。

豆包也经受住了考验。

智谱清言同样犯了与网友相同的位数错误，由于认为11比8大，推理出13.11比13.8大。而通义也坚定相信13.11大于13.8。

智谱清言的回答

通义的回答

值得一提的是，chatgpt也出现了胡说八道的现象。在为13.8填补了13.80的零位数后，才得出了正确的回答。

这类大模型说胡话的现象，在业界被称为大模型出现幻觉。此前，哈尔滨工业大学和华为的研究团队发表的综述论文认为，模型产生幻觉的三大来源：数据源、训练过程和推理。大模型可能会过度依赖训练数据中的一些模式，如位置接近性、共现统计数据和相关文档计数，从而导致幻觉。此外，大模型还可能会出现长尾知识回忆不足、难以应对复杂推理的情况。

有产业界人士告诉《科创板日报》记者，目前大模型的幻觉率仍然较高，这也是产业界缺乏真正颠覆性应用的原因之一，业界都在共同解决这一核心问题，让大模型在业务流程中变得更可控。

（科创板日报记者黄心怡）

标签：娱乐头条

上一篇：赵丽颖短发进组，疑似拍摄冯小刚新电影《出狱女子的故事》

下一篇：让好剧本被看见 “东郊记忆”原创（微短剧）剧本大赛启动