《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車

娛樂頭條 4038℃

《科創板日報》7月16日訊(記者 黃心怡) 近日,在最新一期的《歌手》節目中,孫楠與外國歌手的微小分數差異,引發了網友關於13.8%和13.11%誰大誰小的爭論。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

有網友竟給出“13.8%大於13.11%”的錯誤答案,而記者發現,不少大模型也與部分網友一樣,弄不清這個小學四年級的知識點 。

在《科創板日報》記者的測試中,kimi、智譜清言、通義等大模型應用紛紛翻車,而百度文心一言、字節豆包則守住了大模型的尊嚴。

記者提問後,kimi稱:13.11大於13.8。在進行了一番引導後,包括詢問13.11減去13.8的答案為負數,如何解答其意義,kimi才給出了正確回答。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

記者又多次詢問kimi 13.11和13.8誰大,kimi有時能回答正確。從錯誤的回答來看,kimi與部分網友一樣,把13.8誤以為13.08,所以得出了13.11更大的結果

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

記者詢問了kimi是否知道湖南衛視《歌手》排名引發13.11和13.8誰更大的事件?kimi順利地回答了,並為自己此前答錯而道歉。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

之後,記者還測試了其他小數點比大小,kimi的準確率為50%。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

kimi在數理邏輯方面存在胡說八道的現象,那麼其他大模型是否能準確回答?在記者的測試中,文心一言和豆包都給出了正確的答案。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

其中,文心一言給出了具體的推理過程,也答出了近期新聞事件。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

豆包也經受住了考驗。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

智譜清言同樣犯了與網友相同的位數錯誤,由於認為11比8大,推理出13.11比13.8大。而通義也堅定相信13.11大於13.8。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

智譜清言的回答

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

通義的回答

值得一提的是,chatgpt也出現了胡說八道的現象。在為13.8填補了13.80的零位數後,才得出了正確的回答。

《歌手》排名引熱議!13.8%和13.11%哪個大?大模型竟然也翻車 - 陸劇吧

這類大模型說胡話的現象,在業界被稱為大模型出現幻覺。此前,哈爾濱工業大學和華為的研究團隊發表的綜述論文認為,模型產生幻覺的三大來源:數據源、訓練過程和推理。大模型可能會過度依賴訓練數據中的一些模式,如位置接近性、共現統計數據和相關文檔計數,從而導致幻覺。此外,大模型還可能會出現長尾知識回憶不足、難以應對複雜推理的情況。

有產業界人士告訴《科創板日報》記者,目前大模型的幻覺率仍然較高,這也是產業界缺乏真正顛覆性應用的原因之一,業界都在共同解決這一核心問題,讓大模型在業務流程中變得更可控。

(科創板日報記者 黃心怡)
標籤: 娛樂頭條