当前位置：首页 > news >正文

强化学习（二十）：模仿学习

news 2025/9/15 11:47:04

一、概念

1、很多情况下，环境没有明确的奖励，例如聊天，自动驾驶的操作，无法明确定义好坏

2、不知道该怎么定义奖励时，可以收集专家示范

3、模仿学习（imitation learning，IL）：智能体通过专家示范来学习，环境没有奖励给智能体

二、行为克隆

1、类似于监督学习，专家做什么，智能体就做一模一样的事情

2、缺点

数据少，状态有限

完全模仿专家，而专家可能有不好的行为

训练数据和测试数据不匹配

三、逆强化学习

1、强化学习通过环境和奖励函数，找到最优动作

2、逆强化学习没有奖励函数，只有专家，反向推导出奖励函数，并找到最优动作

四、第三人视角模仿学习

智能体在模仿专家学习的时候，是以第三人视角学习的，但是真正操作的时候，就变成了第一人视角

参考：

https://datawhalechina.github.io/easy-rl/#/

http://www.wxhsa.cn/company.asp?id=4536

相关文章：

重生之从零开始的神经网络算法学习之路 —— 第七篇重拾 PyTorch（超分辨率重建和脚本的使用）

从基础到实践（四十五）：车载显示屏LCD、OLED、Mini-LED、MicroLED的工作原理、设计差异等说明 - 教程

国产项目管理工具崛起：Gitee如何以本土化优势重构开发协作生态

GAS_Aura-Sending Gameplay Events

【IEEE-智造领空天，寰宇链未来】第五届机电一体化技术与航空航天工程国际学术会议（ICMTAE 2025）

进程间通信(消息队列)

有点长所以单发的闲话（对acgn的看法（存疑））

【光照】Unity中的[光照模型]概念辨析

深入解析：Shell脚本监控系统资源详解

计算几何全家桶

完整教程：从无声视频中“听见”声音：用视觉语言模型推理音频描述

Win10如何安装语音包

C#通过TCP/IP控制康奈视读码枪实现方案

利用三方APP[IP切换助手]使用socks5

智能卫浴雷达模块感应方案WT4101寿命长不怕干扰

修改Windows 资源器中文件的创建时间或更新时间

Mysql练习，15个必练语句带你玩转数据库

威力导演2026中文版 CyberLink PowerDirector 2026 v24.0 旗舰版更新内容

GAS_Aura-Ability Tasks

本地大模型的崛起：为什么越来越多人不用云端 AI？

Gitee：国产代码托管平台如何重塑企业研发效能版图

CompassBench 大模型评测

Windows截图工具Acropalypse漏洞剖析：开发者中心安全的重要教训

bootstrap-flex总结

【源码解读之 Mybatis】【基础篇】-- 第2篇：配置系统深度解析

拯救者Y7000过热降频解决方法

普通大语言模型（LLM）和向量化模型（Embedding Model）的区别以及其各自的作用