结果:找到“markov 决策”相关内容5个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
具有无限状态空间的Markov决策过程的度量
0 个回复 - 253 次查看
摘要翻译:
本文提出了一种度量具有无限多个状态的马尔可夫
决策过程(包括具有连续状态空间的马尔可夫
决策过程)状态相似性的度量方法。这样的度量为MDP的双模拟概念提供了一个稳定的定量模拟,并且适合于MDP近似中使 ...
2022-4-12 19:05 - 大多数88 - Forum
有限Markov决策过程的度量
0 个回复 - 190 次查看
摘要翻译:
提出了一种度量有限马尔可夫
决策过程(MDP)中状态相似性的度量方法。我们的度量标准是基于MDPs的双模拟概念,目的是解决折扣无限视界强化学习任务。这样的度量可用于聚合状态,以及更好地构造其他值函数近 ...
2022-4-3 20:50 - 何人来此 - Forum
一种有限时段Markov决策过程的强化学习算法
0 个回复 - 446 次查看
摘要:研究有限时段非平稳的Markov
决策过程的强化学习算法.通过引入一个人工吸收状态,把有限时段问题变为无限时段问题,从而可利用通常的强化学习方法来求解.在文献[3]提出的算法思想基础上,提出了一种新的有限时段非 ...
2018-2-13 15:00 - 人工智能-AI - 人工智能论文版