一、概念
1、很多情况下,环境没有明确的奖励,例如聊天,自动驾驶的操作,无法明确定义好坏
2、不知道该怎么定义奖励时,可以收集专家示范
3、模仿学习(imitation learning,IL):智能体通过专家示范来学习,环境没有奖励给智能体
二、行为克隆
1、类似于监督学习,专家做什么,智能体就做一模一样的事情
2、缺点
数据少,状态有限
完全模仿专家,而专家可能有不好的行为
训练数据和测试数据不匹配
三、逆强化学习
1、强化学习通过环境和奖励函数,找到最优动作
2、逆强化学习没有奖励函数,只有专家,反向推导出奖励函数,并找到最优动作
四、第三人视角模仿学习
智能体在模仿专家学习的时候,是以第三人视角学习的,但是真正操作的时候,就变成了第一人视角
参考:
https://datawhalechina.github.io/easy-rl/#/