《歌手》排名引熱議！13.8%和13.11%哪個大？大模型竟然也翻車

2024-07-29 10:10:20 娛樂頭條 4038℃

《科創板日報》7月16日訊（記者黃心怡） 近日，在最新一期的《歌手》節目中，孫楠與外國歌手的微小分數差異，引發了網友關於13.8%和13.11%誰大誰小的爭論。

有網友竟給出“13.8%大於13.11%”的錯誤答案，而記者發現，不少大模型也與部分網友一樣，弄不清這個小學四年級的知識點。

在《科創板日報》記者的測試中，kimi、智譜清言、通義等大模型應用紛紛翻車，而百度文心一言、字節豆包則守住了大模型的尊嚴。

記者提問後，kimi稱：13.11大於13.8。在進行了一番引導後，包括詢問13.11減去13.8的答案為負數，如何解答其意義，kimi才給出了正確回答。

記者又多次詢問kimi 13.11和13.8誰大，kimi有時能回答正確。從錯誤的回答來看，kimi與部分網友一樣，把13.8誤以為13.08，所以得出了13.11更大的結果。

記者詢問了kimi是否知道湖南衛視《歌手》排名引發13.11和13.8誰更大的事件？kimi順利地回答了，並為自己此前答錯而道歉。

之後，記者還測試了其他小數點比大小，kimi的準確率為50%。

kimi在數理邏輯方面存在胡說八道的現象，那麼其他大模型是否能準確回答？在記者的測試中，文心一言和豆包都給出了正確的答案。

其中，文心一言給出了具體的推理過程，也答出了近期新聞事件。

豆包也經受住了考驗。

智譜清言同樣犯了與網友相同的位數錯誤，由於認為11比8大，推理出13.11比13.8大。而通義也堅定相信13.11大於13.8。

智譜清言的回答

通義的回答

值得一提的是，chatgpt也出現了胡說八道的現象。在為13.8填補了13.80的零位數後，才得出了正確的回答。

這類大模型說胡話的現象，在業界被稱為大模型出現幻覺。此前，哈爾濱工業大學和華為的研究團隊發表的綜述論文認為，模型產生幻覺的三大來源：數據源、訓練過程和推理。大模型可能會過度依賴訓練數據中的一些模式，如位置接近性、共現統計數據和相關文檔計數，從而導致幻覺。此外，大模型還可能會出現長尾知識回憶不足、難以應對複雜推理的情況。

有產業界人士告訴《科創板日報》記者，目前大模型的幻覺率仍然較高，這也是產業界缺乏真正顛覆性應用的原因之一，業界都在共同解決這一核心問題，讓大模型在業務流程中變得更可控。

（科創板日報記者黃心怡）

標籤：娛樂頭條

上一篇：趙麗穎短髮進組，疑似拍攝馮小剛新電影《出獄女子的故事》

下一篇：讓好劇本被看見 “東郊記憶”原創（微短劇）劇本大賽啟動