当前位置: 首页 > news >正文

文献阅读 | Survey of Hallucination in Natural Language Generation

问题描述

本文主要讲了NLG中的幻觉现象

幻觉定义:模型生成不忠实于源内容无意义的文本

幻觉分类:内在幻觉(矛盾、完全错误的)、外在幻觉(无法被验证)

幻觉危害:隐私泄露

成因:image

 评估指标:

  • 统计 metric:基于 n-gram 重叠,如 PARENT(结合源和目标)、Knowledge F1(对话任务知识重叠)。
  • 模型 - based metric:
    • IE-based:提取关系 tuple 对比(如(实体,关系,属性)匹配);
    • QA-based:通过问答对一致性评估(如 FEQA、QAGS);
    • NLI-based:计算源与生成文本的 entailment 概率;
    • 忠实性分类模型:基于合成数据训练(如 Zhou 等构建的幻觉标注数据);
    • LM-based:对比条件 / 非条件 LM 的损失(损失低则为幻觉 token)。
  • 人类评估:评分(如 1-5 分)或对比,关注忠实性、事实一致性等。

缓解方法

  • 数据相关:
    • 构建忠实数据集(如 TOTTO 通过人工修正确保忠实性);
    • 自动清洗(过滤低质量样本、修正数据);
    • 增强信息(加入实体、外部知识)。
  • 建模与推理:
    • 架构改进:双编码器(处理文本 + 知识)、注意力机制调整(如聚焦注意力);
    • 训练方法:强化学习(基于忠实性奖励)、多任务学习(如摘要 + entailment 任务);
    • 后处理:生成 - 修正策略(如 SpanFact 通过跨度选择修正)。

 

未来方向

  • 指标:细粒度区分内在 / 外在幻觉、整合事实核查、跨任务通用指标。
  • 缓解:通用数据处理方法、数字幻觉处理、提升可控性(平衡忠实性与多样性)
http://www.wxhsa.cn/company.asp?id=4123

相关文章:

  • 技术 | LLaMA Factory微调记录重修版
  • 支付中心的钱包类业务应该怎么设计
  • MySQL索引浅析
  • WF 2025 游记
  • 17.时间处理
  • [MCP][02]快速入门MCP开发
  • numpy入门
  • 【simpleFOC】一个电机如何模拟不同旋钮的手感反馈?
  • 第一周作业2
  • 第一次课堂作业
  • [高可用/负载均衡] Ribbon LoadBalancer: 开源的客户端式负载均衡框架
  • 梦话周记
  • 【电机控制】无刷电机结构阐述---磁极数、槽数
  • 金刚怒目是我哭
  • nginx使用默认端口80作为服务端口
  • 机器学习和推荐算法顶级会议和期刊
  • java使用mysql
  • 2025年医疗行业API安全最佳实践与深度案例分析:从理论到全面落地
  • 2026 NOI 做题记录(二)
  • lc1027-最长等差数列
  • 13
  • np.zeros函数
  • Langchain之让LLM拥有记忆
  • 25.9.14
  • .net PublishSingleFile 打包程序提取
  • 实用指南:Java类加载机制
  • C 语言注释
  • 扫描线
  • C语言中的查找与排序算法整理
  • k8s练习