马尔可夫决策
马尔可夫决策:随机动态环境下序贯决策,其核心假设是 “马尔可夫性”—— 即 “未来状态的概率分布仅依赖于当前状态,与当前状态之前的历史无关”。MDP 的最终目标是找到一套最优策略 π(π: S→A,即 “在每个状态下选择哪个动作” 的规则)
马尔可夫决策可以表示成一个四元组,S(状态空间)、A(动作空间)、P(状态转移概率)、R(奖励函数)
马尔可夫决策:随机动态环境下序贯决策,其核心假设是 “马尔可夫性”—— 即 “未来状态的概率分布仅依赖于当前状态,与当前状态之前的历史无关”。MDP 的最终目标是找到一套最优策略 π(π: S→A,即 “在每个状态下选择哪个动作” 的规则)
马尔可夫决策可以表示成一个四元组,S(状态空间)、A(动作空间)、P(状态转移概率)、R(奖励函数)