TruthX: 激活LLM真实性,降低LLM幻觉

娱乐头条 9392℃

始智ai wisemodel.cn开源社区

始智ai wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的ai开源社区。“源享计划”即开源共享计划,各类开源模型、数据集、代码等,欢迎发布到wisemodel.cn社区。wisemodel社区持续招募志愿者,欢迎通过《》了解详情。

TruthX: 激活LLM真实性,降低LLM幻觉 - 陆剧吧
大模型展现出了非常惊艳的文本生成效果,但是目前大模型仍然存在一个非常致命的缺陷,容易产生”幻觉“ (hallucination),这对于大模型的实际部署是一个非常具有挑战性的问题。本文介绍了一种通过编辑llm内部表示来激活llm真实性的推理方法——truthx。 

论文链接: https://arxiv.org/abs/2402.17811

github仓库: https://github.com/ictnlp/truthx
-引 言-
本文关注一个基本问题:尽管大模型在拥有正确知识的情况下,还是有可能产生幻觉。本文提出一个名为truthx的推理时方法,通过在真实空间中编辑llm的内部表征来激活llm的真实性,从而减轻llm的幻觉。truthx在llm内部表示中识别到一个真实性方向(truthful direction),可以通过仅编辑真实空间中的一个向量来控制llm生成真实或幻觉的响应。
下图展示了在llama-2-7b-chat上应用truthx的生成结果,正向编辑可以激发llm产生真实回复;而负向编辑完全破坏llm真实性,生成充满幻觉的回复。
在真实性评估的truthfulqa 基准上,truthx 将 13 个最先进的llms的的真实性平均提高了20%。
TruthX: 激活LLM真实性,降低LLM幻觉 - 陆剧吧
-方 法-
truthx的构建过程包括三步: 
1.提取llm内部表示
truthx首先构造了(问题,真实回复,幻觉回复)的三元组,然后使用真实回复和幻觉回复分别激活llm,获取llm在不同刺激下的内部表示(attention模块和ffn模块的输出)。 
2.利用自编码器(auto-encoder)探测llm内部的真实性空间
truthx利用auto-encoder将提取到的llm内部表示映射到真实性隐空间(truthful space)和语义隐空间(semantic space)中,并从隐空间重构出llm的内部表示。
在训练中,truthx在真实回复在幻觉回复的表示间应用对比学习(contrastive learning)来区分真实/幻觉回复在truthful space中的分布,并在隐空间中探测出一个真实性方向(truthful direction)。 
3. 推理时编辑llm内部表示
在推理过程中,truthx将llm中的内部表示映射到真实性隐空间和语义隐空间,并沿着探测到的真实性方向编辑真实性隐空间中的表示。最后,truthx将重构出的表示放回llm内部,从而激发llm的真实性。 
-实验结果-
1. truthx提升llm真实性
本文在truthfulqa 基准上进行实验,该数据集包含了817个有关真实性的评估问题,设置有两个评估任务:开放式生成任务和多项选择任务。结果如下表所示,truthx能有效提升llm的真实性。
TruthX: 激活LLM真实性,降低LLM幻觉 - 陆剧吧
2. truthx有效调控llm生成真实/幻觉的回复
truthx沿着真实性方向可以激活llm产生真实回复;沿着反方向仅需要一个向量即可破坏llm的真实,产生充满幻觉的回复。
TruthX: 激活LLM真实性,降低LLM幻觉 - 陆剧吧

更多实验结果与分析,请参考论文。


-总 结-
本文提出truthx,其通过在真实空间中编辑 llm 来增强真实性,并且在llm真实性控制上表现出卓越的能力。作者发布了内置了truthx的llama-2-chat模型,您可以直接从wisemodel社区下载使用,获得真实性增强的llm。
供稿:张绍磊

始智ai wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在ai infra、后端开发,熟悉k8s、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”)

系统升级

标签: 娱乐头条