当前位置：首页 > news >正文

文献阅读 | Survey of Hallucination in Natural Language Generation

news 2025/9/15 1:13:50

问题描述

本文主要讲了NLG中的幻觉现象

幻觉定义：模型生成不忠实于源内容或无意义的文本

幻觉分类：内在幻觉（矛盾、完全错误的）、外在幻觉（无法被验证）

幻觉危害：隐私泄露

成因：

评估指标：

统计 metric：基于 n-gram 重叠，如 PARENT（结合源和目标）、Knowledge F1（对话任务知识重叠）。
模型 - based metric：
- IE-based：提取关系 tuple 对比（如（实体，关系，属性）匹配）；
- QA-based：通过问答对一致性评估（如 FEQA、QAGS）；
- NLI-based：计算源与生成文本的 entailment 概率；
- 忠实性分类模型：基于合成数据训练（如 Zhou 等构建的幻觉标注数据）；
- LM-based：对比条件 / 非条件 LM 的损失（损失低则为幻觉 token）。
人类评估：评分（如 1-5 分）或对比，关注忠实性、事实一致性等。

缓解方法

数据相关：
- 构建忠实数据集（如 TOTTO 通过人工修正确保忠实性）；
- 自动清洗（过滤低质量样本、修正数据）；
- 增强信息（加入实体、外部知识）。
建模与推理：

架构改进：双编码器（处理文本 + 知识）、注意力机制调整（如聚焦注意力）；
训练方法：强化学习（基于忠实性奖励）、多任务学习（如摘要 + entailment 任务）；
后处理：生成 - 修正策略（如 SpanFact 通过跨度选择修正）。

未来方向

指标：细粒度区分内在 / 外在幻觉、整合事实核查、跨任务通用指标。
缓解：通用数据处理方法、数字幻觉处理、提升可控性（平衡忠实性与多样性）

查看全文

http://www.wxhsa.cn/company.asp?id=4123

技术 | LLaMA Factory微调记录重修版

【simpleFOC】一个电机如何模拟不同旋钮的手感反馈？

第一周作业2

第一次课堂作业

[高可用/负载均衡] Ribbon LoadBalancer: 开源的客户端式负载均衡框架

梦话周记

【电机控制】无刷电机结构阐述---磁极数、槽数

2025年医疗行业API安全最佳实践与深度案例分析：从理论到全面落地

25.9.14

.net PublishSingleFile 打包程序提取

Arabic	Hebrew	Polish
Bulgarian	Hindi	Portuguese
Catalan	Hmong Daw	Romanian
Chinese Simplified	Hungarian	Russian
Chinese Traditional	Indonesian	Slovak
Czech	Italian	Slovenian
Danish	Japanese	Spanish
Dutch	Klingon	Swedish
English	Korean	Thai
Estonian	Latvian	Turkish
Finnish	Lithuanian	Ukrainian
French	Malay	Urdu
German	Maltese	Vietnamese
Greek	Norwegian	Welsh
Haitian Creole	Persian

问题描述

缓解方法

未来方向

相关文章：