TruthX: 激活LLM真實性，降低LLM幻覺

2024-04-03 09:51:51 娛樂頭條 9392℃

始智ai wisemodel.cn開源社區

始智ai wisemodel.cn社區將打造成huggingface之外最活躍的中立開放的ai開源社區。「源享計劃」即開源共享計劃，各類開源模型、數據集、代碼等，歡迎發佈到wisemodel.cn社區。wisemodel社區持續招募志願者，歡迎通過《》了解詳情。

TruthX: 激活LLM真實性，降低LLM幻覺 - 陸劇吧

大模型展現出了非常驚艷的文本生成效果，但是目前大模型仍然存在一個非常致命的缺陷，容易產生」幻覺「（hallucination），這對於大模型的實際部署是一個非常具有挑戰性的問題。本文介紹了一種通過編輯llm內部表示來激活llm真實性的推理方法——truthx。

論文鏈接: https://arxiv.org/abs/2402.17811

github倉庫: https://github.com/ictnlp/truthx

-引言-

本文關注一個基本問題：儘管大模型在擁有正確知識的情況下，還是有可能產生幻覺。本文提出一個名為truthx的推理時方法，通過在真實空間中編輯llm的內部表徵來激活llm的真實性，從而減輕llm的幻覺。truthx在llm內部表示中識別到一個真實性方向（truthful direction），可以通過僅編輯真實空間中的一個向量來控制llm生成真實或幻覺的響應。

下圖展示了在llama-2-7b-chat上應用truthx的生成結果，正向編輯可以激發llm產生真實回復；而負向編輯完全破壞llm真實性，生成充滿幻覺的回復。

在真實性評估的truthfulqa 基準上，truthx 將 13 個最先進的llms的的真實性平均提高了20%。

TruthX: 激活LLM真實性，降低LLM幻覺 - 陸劇吧

-方法-

truthx的構建過程包括三步：

1.提取llm內部表示

truthx首先構造了(問題，真實回復，幻覺回復)的三元組，然後使用真實回復和幻覺回復分別激活llm，獲取llm在不同刺激下的內部表示（attention模塊和ffn模塊的輸出）。

2.利用自編碼器（auto-encoder）探測llm內部的真實性空間

truthx利用auto-encoder將提取到的llm內部表示映射到真實性隱空間（truthful space）和語義隱空間（semantic space）中，並從隱空間重構出llm的內部表示。

在訓練中，truthx在真實回復在幻覺回復的表示間應用對比學習（contrastive learning）來區分真實/幻覺回復在truthful space中的分佈，並在隱空間中探測出一個真實性方向（truthful direction）。

3. 推理時編輯llm內部表示

在推理過程中，truthx將llm中的內部表示映射到真實性隱空間和語義隱空間，並沿着探測到的真實性方向編輯真實性隱空間中的表示。最後，truthx將重構出的表示放回llm內部，從而激發llm的真實性。

-實驗結果-

1. truthx提升llm真實性

本文在truthfulqa 基準上進行實驗，該數據集包含了817個有關真實性的評估問題，設置有兩個評估任務：開放式生成任務和多項選擇任務。結果如下表所示，truthx能有效提升llm的真實性。

TruthX: 激活LLM真實性，降低LLM幻覺 - 陸劇吧

2. truthx有效調控llm生成真實/幻覺的回復

truthx沿着真實性方向可以激活llm產生真實回復；沿着反方向僅需要一個向量即可破壞llm的真實，產生充滿幻覺的回復。

TruthX: 激活LLM真實性，降低LLM幻覺 - 陸劇吧

更多實驗結果與分析，請參考論文。

-總結-

本文提出truthx，其通過在真實空間中編輯 llm 來增強真實性，並且在llm真實性控制上表現出卓越的能力。作者發佈了內置了truthx的llama-2-chat模型，您可以直接從wisemodel社區下載使用，獲得真實性增強的llm。

供稿：張紹磊

始智ai wisemodel社區自2023年9月上線以來，取得了積極的進展，初步形成一定的影響力，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在ai infra、後端開發，熟悉k8s、模型訓練和推理等技術，以及熟悉開發者生態運營的成員（根據個人意向可備註「求職」或「創業」）

系統升級

標籤：娛樂頭條

上一篇： AI「復活」已故明星，最低只需50塊錢

下一篇： BURTON賣速干短袖和漁夫帽有沒有戲？