当前位置：首页 > news >正文

马尔可夫决策

news 2025/9/13 21:56:35

马尔可夫决策

马尔可夫决策：随机动态环境下序贯决策，其核心假设是 “马尔可夫性”—— 即 “未来状态的概率分布仅依赖于当前状态，与当前状态之前的历史无关”。MDP 的最终目标是找到一套最优策略 π（π: S→A，即 “在每个状态下选择哪个动作” 的规则）

马尔可夫决策可以表示成一个四元组，S（状态空间）、A（动作空间）、P（状态转移概率）、R（奖励函数）

1. 状态空间 S

零配件状态（8 种）：S₁= 零配件 1、S₂= 零配件 2、…、S₈= 零配件 8（每个零配件为独立状态，需单独决策是否检测 / 装配）；
半成品状态（3 种）：S₉= 半成品 1、S₁₀= 半成品 2、S₁₁= 半成品 3（由不同零配件装配而成，需决策是否检测 / 销售 / 继续装配）；
成品状态（1 种）：S₁₂= 成品（由 3 个半成品装配而成，需决策是否检测 / 销售 / 拆解）。

2. 动作空间 A：定义每个状态下的决策选项

动作空间 A 包含 5 种核心决策动作，覆盖生产全流程的关键选择，且不同状态下可执行的动作需符合生产逻辑（如 “拆解” 仅适用于成品，不适用于零配件）：

3. 状态转移概率 P：量化生产中的随机性

状态转移概率 P (s'|s,a) 表示 “在状态 s 下执行动作 a 后，转移到状态 s' 的概率”，论文结合 “次品率” 和 “装配规则” 量化这一概率，核心设定如下：

4. 奖励函数 R：用 “收益 / 损失” 引导最优决策

奖励函数 R (s,a) 是 MDP 的 “目标导向”，通过对 “状态 - 动作” 组合赋予正负值（正值 = 奖励，负值 = 惩罚），量化该决策的即时收益 / 成本，核心设计原则是 “收益 - 成本 = 净奖励”

马尔可夫决策MDP的求解：从 “策略评估” 到 “最优决策：求解马尔可夫决策使用模拟退火算法，因此，论文引入模拟退火算法，通过 “随机搜索 + 梯度降温”

查看全文

http://www.wxhsa.cn/company.asp?id=3058

十九、指令流水线的基本概念

本地布署Diffusers库实现文生图 - yi

20250913 NFLS 模拟赛部分题目

帐号内容定位

基于YOLOv8的茶叶病害识别项目｜完整源码数据集+图形化界面+训练教程

2025第三届“陇剑杯”网络安全大赛初赛-夺旗闯关赛wp

《Python数据结构与算法分析》第二弹《2.2.2 异序词检测示例》

深入解析：柱状图（Vue3）

计算机毕业设计springboot基于微信小程序的手机点餐软件基于Spring Boot框架的微信小程序点餐体系设计与实现微信小脚本点餐应用开发：Spring Boot技术的应用

二叉树的相关知识

原假设的选择准则：总损失视角的假设检验

dfs序基础+树上差分

Python中的if __name__ == __main__是什么？

钻石

随机游走理解

【基于协同过滤的校园二手交易强大的平台】

Neural ODE原理与PyTorch实现：深度学习模型的自适应深度调节

[SSL]

笔记《机器人动力学理论及其应用》上交桂凯博士-中科深谷机器人大讲堂第10期

马尔可夫决策

1. 状态空间 S

2. 动作空间 A：定义每个状态下的决策选项

3. 状态转移概率 P：量化生产中的随机性

4. 奖励函数 R：用 “收益 / 损失” 引导最优决策

马尔可夫决策MDP的求解：从 “策略评估” 到 “最优决策：求解马尔可夫决策使用模拟退火算法，因此，论文引入模拟退火算法，通过 “随机搜索 + 梯度降温”

相关文章：