TruthX: 激活LLM真實性,降低LLM幻覺

娛樂頭條 9392℃

始智ai wisemodel.cn開源社區

始智ai wisemodel.cn社區將打造成huggingface之外最活躍的中立開放的ai開源社區。「源享計劃」即開源共享計劃,各類開源模型、數據集、代碼等,歡迎發布到wisemodel.cn社區。wisemodel社區持續招募志願者,歡迎通過《》了解詳情。

TruthX: 激活LLM真實性,降低LLM幻覺 - 陸劇吧
大模型展現出了非常驚艷的文本生成效果,但是目前大模型仍然存在一個非常致命的缺陷,容易產生」幻覺「 (hallucination),這對於大模型的實際部署是一個非常具有挑戰性的問題。本文介紹了一種通過編輯llm內部表示來激活llm真實性的推理方法——truthx。 

論文鏈接: https://arxiv.org/abs/2402.17811

github倉庫: https://github.com/ictnlp/truthx
-引 言-
本文關注一個基本問題:儘管大模型在擁有正確知識的情況下,還是有可能產生幻覺。本文提出一個名為truthx的推理時方法,通過在真實空間中編輯llm的內部表徵來激活llm的真實性,從而減輕llm的幻覺。truthx在llm內部表示中識別到一個真實性方向(truthful direction),可以通過僅編輯真實空間中的一個向量來控制llm生成真實或幻覺的響應。
下圖展示了在llama-2-7b-chat上應用truthx的生成結果,正向編輯可以激發llm產生真實回復;而負向編輯完全破壞llm真實性,生成充滿幻覺的回復。
在真實性評估的truthfulqa 基準上,truthx 將 13 個最先進的llms的的真實性平均提高了20%。
TruthX: 激活LLM真實性,降低LLM幻覺 - 陸劇吧
-方 法-
truthx的構建過程包括三步: 
1.提取llm內部表示
truthx首先構造了(問題,真實回復,幻覺回復)的三元組,然後使用真實回復和幻覺回復分別激活llm,獲取llm在不同刺激下的內部表示(attention模塊和ffn模塊的輸出)。 
2.利用自編碼器(auto-encoder)探測llm內部的真實性空間
truthx利用auto-encoder將提取到的llm內部表示映射到真實性隱空間(truthful space)和語義隱空間(semantic space)中,並從隱空間重構出llm的內部表示。
在訓練中,truthx在真實回復在幻覺回復的表示間應用對比學習(contrastive learning)來區分真實/幻覺回復在truthful space中的分布,並在隱空間中探測出一個真實性方向(truthful direction)。 
3. 推理時編輯llm內部表示
在推理過程中,truthx將llm中的內部表示映射到真實性隱空間和語義隱空間,並沿著探測到的真實性方向編輯真實性隱空間中的表示。最後,truthx將重構出的表示放回llm內部,從而激發llm的真實性。 
-實驗結果-
1. truthx提升llm真實性
本文在truthfulqa 基準上進行實驗,該數據集包含了817個有關真實性的評估問題,設置有兩個評估任務:開放式生成任務和多項選擇任務。結果如下表所示,truthx能有效提升llm的真實性。
TruthX: 激活LLM真實性,降低LLM幻覺 - 陸劇吧
2. truthx有效調控llm生成真實/幻覺的回復
truthx沿著真實性方向可以激活llm產生真實回復;沿著反方向僅需要一個向量即可破壞llm的真實,產生充滿幻覺的回復。
TruthX: 激活LLM真實性,降低LLM幻覺 - 陸劇吧

更多實驗結果與分析,請參考論文。


-總 結-
本文提出truthx,其通過在真實空間中編輯 llm 來增強真實性,並且在llm真實性控制上表現出卓越的能力。作者發布了內置了truthx的llama-2-chat模型,您可以直接從wisemodel社區下載使用,獲得真實性增強的llm。
供稿:張紹磊

始智ai wisemodel社區自2023年9月上線以來,取得了積極的進展,初步形成一定的影響力,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在ai infra、後端開發,熟悉k8s、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員(根據個人意向可備註「求職」或「創業」)

系統升級

標籤: 娛樂頭條