TruthX: 激活LLM真实性，降低LLM幻觉

2024-04-03 09:51:51 娱乐头条 9392℃

始智ai wisemodel.cn开源社区

始智ai wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的ai开源社区。“源享计划”即开源共享计划，各类开源模型、数据集、代码等，欢迎发布到wisemodel.cn社区。wisemodel社区持续招募志愿者，欢迎通过《》了解详情。

TruthX: 激活LLM真实性，降低LLM幻觉 - 陆剧吧

大模型展现出了非常惊艳的文本生成效果，但是目前大模型仍然存在一个非常致命的缺陷，容易产生”幻觉“ （hallucination），这对于大模型的实际部署是一个非常具有挑战性的问题。本文介绍了一种通过编辑llm内部表示来激活llm真实性的推理方法——truthx。

论文链接: https://arxiv.org/abs/2402.17811

github仓库: https://github.com/ictnlp/truthx

-引言-

本文关注一个基本问题：尽管大模型在拥有正确知识的情况下，还是有可能产生幻觉。本文提出一个名为truthx的推理时方法，通过在真实空间中编辑llm的内部表征来激活llm的真实性，从而减轻llm的幻觉。truthx在llm内部表示中识别到一个真实性方向（truthful direction），可以通过仅编辑真实空间中的一个向量来控制llm生成真实或幻觉的响应。

下图展示了在llama-2-7b-chat上应用truthx的生成结果，正向编辑可以激发llm产生真实回复；而负向编辑完全破坏llm真实性，生成充满幻觉的回复。

在真实性评估的truthfulqa 基准上，truthx 将 13 个最先进的llms的的真实性平均提高了20%。

TruthX: 激活LLM真实性，降低LLM幻觉 - 陆剧吧

-方法-

truthx的构建过程包括三步：

1.提取llm内部表示

truthx首先构造了(问题，真实回复，幻觉回复)的三元组，然后使用真实回复和幻觉回复分别激活llm，获取llm在不同刺激下的内部表示（attention模块和ffn模块的输出）。

2.利用自编码器（auto-encoder）探测llm内部的真实性空间

truthx利用auto-encoder将提取到的llm内部表示映射到真实性隐空间（truthful space）和语义隐空间（semantic space）中，并从隐空间重构出llm的内部表示。

在训练中，truthx在真实回复在幻觉回复的表示间应用对比学习（contrastive learning）来区分真实/幻觉回复在truthful space中的分布，并在隐空间中探测出一个真实性方向（truthful direction）。

3. 推理时编辑llm内部表示

在推理过程中，truthx将llm中的内部表示映射到真实性隐空间和语义隐空间，并沿着探测到的真实性方向编辑真实性隐空间中的表示。最后，truthx将重构出的表示放回llm内部，从而激发llm的真实性。

-实验结果-

1. truthx提升llm真实性

本文在truthfulqa 基准上进行实验，该数据集包含了817个有关真实性的评估问题，设置有两个评估任务：开放式生成任务和多项选择任务。结果如下表所示，truthx能有效提升llm的真实性。

TruthX: 激活LLM真实性，降低LLM幻觉 - 陆剧吧

2. truthx有效调控llm生成真实/幻觉的回复

truthx沿着真实性方向可以激活llm产生真实回复；沿着反方向仅需要一个向量即可破坏llm的真实，产生充满幻觉的回复。

TruthX: 激活LLM真实性，降低LLM幻觉 - 陆剧吧

更多实验结果与分析，请参考论文。

-总结-

本文提出truthx，其通过在真实空间中编辑 llm 来增强真实性，并且在llm真实性控制上表现出卓越的能力。作者发布了内置了truthx的llama-2-chat模型，您可以直接从wisemodel社区下载使用，获得真实性增强的llm。

供稿：张绍磊

始智ai wisemodel社区自2023年9月上线以来，取得了积极的进展，初步形成一定的影响力，为了加快公司发展，我们长期需要技术、运营等人才加盟，技术侧重在ai infra、后端开发，熟悉k8s、模型训练和推理等技术，以及熟悉开发者生态运营的成员（根据个人意向可备注“求职”或“创业”）

系统升级

标签：娱乐头条

上一篇： AI“复活”已故明星，最低只需50块钱

下一篇： BURTON卖速干短袖和渔夫帽有没有戏？