当前位置: 首页 > news >正文

强化学习(二十):模仿学习

一、概念

1、很多情况下,环境没有明确的奖励,例如聊天,自动驾驶的操作,无法明确定义好坏

2、不知道该怎么定义奖励时,可以收集专家示范

3、模仿学习(imitation learning,IL):智能体通过专家示范来学习,环境没有奖励给智能体

 

二、行为克隆

1、类似于监督学习,专家做什么,智能体就做一模一样的事情

2、缺点

数据少,状态有限

完全模仿专家,而专家可能有不好的行为

训练数据和测试数据不匹配

 

三、逆强化学习

1、强化学习通过环境和奖励函数,找到最优动作

2、逆强化学习没有奖励函数,只有专家,反向推导出奖励函数,并找到最优动作

 

四、第三人视角模仿学习

智能体在模仿专家学习的时候,是以第三人视角学习的,但是真正操作的时候,就变成了第一人视角

 

 

 

 

 

 

参考:

https://datawhalechina.github.io/easy-rl/#/

 

http://www.wxhsa.cn/company.asp?id=4536

相关文章:

  • 重生之从零开始的神经网络算法学习之路 —— 第七篇 重拾 PyTorch(超分辨率重建和脚本的使用)
  • 从基础到实践(四十五):车载显示屏LCD、OLED、Mini-LED、MicroLED的工作原理、设计差异等说明 - 教程
  • 国产项目管理工具崛起:Gitee如何以本土化优势重构开发协作生态
  • GAS_Aura-Sending Gameplay Events
  • 【IEEE-智造领空天,寰宇链未来】第五届机电一体化技术与航空航天工程国际学术会议(ICMTAE 2025)
  • 进程间通信(消息队列)
  • 有点长所以单发的闲话(对acgn的看法(存疑))
  • 【光照】Unity中的[光照模型]概念辨析
  • 深入解析:Shell脚本监控系统资源详解
  • 计算几何全家桶
  • 完整教程:从无声视频中“听见”声音:用视觉语言模型推理音频描述
  • Win10如何安装语音包
  • C#通过TCP/IP控制康奈视读码枪实现方案
  • 链表
  • 利用三方APP[IP切换助手]使用socks5
  • 智能卫浴雷达模块感应方案WT4101寿命长不怕干扰
  • 修改Windows 资源器中文件的创建时间或更新时间
  • Mysql练习,15个必练语句带你玩转数据库
  • 威力导演2026中文版 CyberLink PowerDirector 2026 v24.0 旗舰版更新内容
  • 越权漏洞
  • GAS_Aura-Ability Tasks
  • 本地大模型的崛起:为什么越来越多人不用云端 AI?
  • Gitee:国产代码托管平台如何重塑企业研发效能版图
  • CompassBench 大模型评测
  • Windows截图工具Acropalypse漏洞剖析:开发者中心安全的重要教训
  • bootstrap-flex总结
  • 【源码解读之 Mybatis】【基础篇】-- 第2篇:配置系统深度解析
  • eSIM笔记
  • 拯救者Y7000过热降频解决方法
  • 普通大语言模型(LLM)和向量化模型(Embedding Model)的区别以及其各自的作用