当前位置: 首页 > news >正文

动态规划和马尔可夫决策对比

二、三大关键维度的效果对比

1. 问题适配性:动态规划适配 “简单线性流程”,MDP 适配 “复杂网状流程”

动态规划的优势在于 “处理线性、低维度的多阶段决策”,MDP 的优势在于 “处理多维、网状的动态决策”,二者在论文场景中的适配效果差异显著:

  • 动态规划在问题二中的适配效果(优)
    问题二的生产流程是 “零配件检测→成品装配→成品检测→不合格品处理” 的线性顺序,无分支工序(如无 “半成品单独销售”“多路径装配”),且状态仅涉及 “2 种零配件 + 1 种成品”,维度低、逻辑简单。
    动态规划通过 “逆序递推”(从不合格品处理倒推至零配件检测),可高效遍历 16 种决策路径(2×2×2×2),快速找到 “净成本最小” 的全局最优解(六种场景均为 “不检测、不拆解”),且计算复杂度低(多层嵌套循环即可实现),完全适配该场景的 “简单线性” 需求。
  • MDP 在问题三中的适配效果(优)
    问题三的生产流程是 “8 种零配件→3 种半成品(工序 1)→1 种成品(工序 2)” 的网状结构,存在 “半成品单独销售”“不合格成品拆解回收半成品” 等分支决策,状态涉及 12 种对象(8+3+1),维度高、逻辑复杂。
    动态规划无法直接处理 “多状态并行决策”(如同时判断 8 种零配件的检测 / 装配决策),而 MDP 通过 “状态空间 S(12 种对象)+ 动作空间 A(5 种决策)+ 转移概率 P(多环节转换随机性)” 的框架,可系统覆盖 “零配件装配→半成品销售→成品拆解” 的全流程决策,完美适配该场景的 “多维网状” 需求 —— 若强行用动态规划求解,需拆解成数十个子问题,会出现 “维度爆炸”(决策路径达 5¹² 种),计算无法实现。

2. 随机性处理能力:动态规划 “被动使用已知概率”,MDP “主动建模概率转移”

生产决策的核心随机性是 “次品率”,二者处理随机性的逻辑不同,导致在复杂场景中的效果差异:

  • 动态规划的随机性处理(局限)
    动态规划在问题二中仅 “被动代入已知次品率”,不主动建模随机性的传递过程。例如,计算 “成品检测决策成本” 时,直接使用题目给定的 “成品次品率 p_成品”,无需考虑 “p_成品如何由零配件次品率推导而来”(默认 “零配件合格则成品合格”),随机性处理停留在 “单环节静态概率” 层面。
    这种方式在 “状态简单、概率已知” 的问题二中可行,但在问题三中完全失效 —— 问题三需计算 “8 种零配件→3 种半成品” 的装配次品率(如半成品 1 的次品率 = 1-(1-p₁)×(1-p₂)×(1-p₃))、“半成品→成品” 的转移概率,动态规划无法主动建模这种 “多环节概率传递”,只能依赖外部计算结果,失去优化灵活性。
  • MDP 的随机性处理(优势)
    MDP 将随机性内化为 “状态转移概率 P (s'|s,a)”,主动建模 “动作→状态转换” 的概率逻辑。例如:
    • 零配件 1 执行 “装配” 动作后,转移到 “合格半成品 1” 的概率 =(1-p₁)×(1-p₂)×(1-p₃)(需联动其他 2 种零配件的次品率);
    • 成品执行 “销售” 动作后,转移到 “市场调换” 状态的概率 = p_成品,转移到 “正常销售” 状态的概率 = 1-p_成品。
      这种 “主动建模” 能力使 MDP 能处理 “多环节随机性传递”,在问题三中准确量化 “某一零配件不检测→半成品不合格→成品调换损失” 的连锁风险,而动态规划无法实现这种 “随机性链条” 的建模,效果远逊于 MDP。

3. 决策目标覆盖:动态规划聚焦 “短期成本最小”,MDP 聚焦 “长期奖励最大”

二者的决策目标导向不同,适配论文中 “不同阶段的企业需求”:

  • 动态规划的目标导向(短期局部)
    问题二的目标是 “最小化单批次生产的净成本”(短期目标),动态规划通过 “递推计算各阶段成本之和”,可精准实现这一目标。例如,对比 “零配件检测成本(2 元)” 与 “次品流入市场的调换损失(5 元)”,直接得出 “不检测更划算” 的结论,目标聚焦且计算直接。
  • MDP 的目标导向(长期全局)
    问题三的目标是 “多批次生产的长期收益最大”(长期目标),需考虑 “半成品销售的即时收益” 与 “成品装配的远期收益”“不合格品拆解的回收价值” 等长期权衡。
    MDP 通过 “奖励函数 R(即时收益 / 损失)+ 折扣因子 γ(未来奖励现值)” 的设计,可计算 “长期累积奖励”—— 例如,“半成品 1 销售” 的即时奖励 = 销售收入 - 销售成本,“半成品 1 装配为成品” 的远期奖励 = 成品销售收入 - 装配成本,MDP 通过贝尔曼方程平衡二者,最终选择 “半成品销售、成品检测” 的最优策略,而动态规划仅能计算单批次成本,无法覆盖 “长期收益” 目标,效果不足。
http://www.wxhsa.cn/company.asp?id=3069

相关文章:

  • 20250913 之所思 - 人生如梦
  • 动态规划
  • 电视剧和综艺
  • 天地图编辑多边形和折线时,双击删除编辑点
  • POCamp 2023
  • 美团AI面试
  • 技术面:Spring (bean的生命周期、创建方式、注入方式、作用域)
  • 马尔可夫决策
  • 十九、指令流水线的基本概念
  • 本地布署Diffusers库 实现文生图 - yi
  • 【光照】[光照模型]发展里程碑时间线
  • 算法设计作业-week1
  • git merge
  • C语言学习
  • Ubuntu 的剪贴板
  • IDAPro--MCP详细配置教程
  • 20250913 NFLS 模拟赛 部分题目
  • 帐号内容定位
  • 基于YOLOv8的茶叶病害识别项目|完整源码数据集+图形化界面+训练教程
  • 2025第三届“陇剑杯”网络安全大赛初赛-夺旗闯关赛wp
  • 《Python数据结构与算法分析》第二弹《2.2.2 异序词检测示例》
  • 深入解析:柱状图(Vue3)
  • 计算机毕业设计springboot基于微信小程序的手机点餐软件 基于Spring Boot框架的微信小程序点餐体系设计与实现 微信小脚本点餐应用开发:Spring Boot技术的应用
  • 二叉树的相关知识
  • 原假设的选择准则:总损失视角的假设检验
  • dfs序基础+树上差分
  • Python中的if __name__ == __main__是什么?
  • 钻石
  • 随机游走理解
  • 【基于协同过滤的校园二手交易强大的平台】