结果:找到“马尔可夫决策”相关内容27个,排序为按回复时间降序,搜索更多相关帖子请点击“高级
[PDF] 不确定环境下的决策系统: 如何建立马尔可夫决策模型 Planning with MDP.pdf
3 个回复 - 1294 次查看 马尔可夫决策模型(Markov Decision Processes)是当前AI广泛使用的用于不确定环境下的建模理论工具。 本书深入讨论了MDP的各种变式及应用方案。 本书作者 Mausam 是AI 领域的大牛知名学者。Andrey Kolobov 是Maus ...2020-2-23 00:05 - 上天善意 - Forum
马尔可夫决策过程中的随机比较静力学
32 个回复 - 973 次查看 2022-6-14 11:37 - 何人来此 - Forum
利用马尔可夫决策过程寻找最佳癌症治疗方案
33 个回复 - 1118 次查看 2022-4-24 17:07 - 何人来此 - Forum
实用马尔可夫决策过程
4 个回复 - 1580 次查看 【作者(必填)】 刘克 【文题(必填)】 实用马尔可夫决策过程 【年份(必填)】 2004-11-1 【全文链接或数据库名称(选填)】2017-4-24 01:31 - Kun806 - 求助成功区
基于正则化的近似线性规划特征选择 马尔可夫决策过程
0 个回复 - 172 次查看 摘要翻译: 近似动态规划已经成功地应用于许多领域,但它依赖于提供的少量近似特征来可靠地计算解。由于样本数量有限,大量丰富的特征集可能会导致现有算法过度拟合。我们用近似线性规划中的$L_1$正则化来解决这个缺 ...2022-4-9 13:05 - 何人来此 - Forum
马尔可夫决策过程中状态相似度的计算方法
0 个回复 - 344 次查看 摘要翻译: 解决大概率系统的一种流行方法依赖于基于相似性度量的状态聚合。文献中的许多方法都是启发式的。最近的一些方法依赖于基于双模拟概念的度量,或者状态之间的行为等价(Givan et al,2001,2003;Ferns et ...2022-4-6 18:00 - 可人4 - Forum
非平稳保单在无限时域贴现中的应用 马尔可夫决策过程
0 个回复 - 398 次查看 摘要翻译: 我们考虑了无限时域的$\gamma$-贴现马尔可夫决策过程,它已知存在一个平稳的最优策略。我们考虑算法值迭代和策略序列$\pi_1,...\pi_k$它隐含地生成直到某个迭代$k$。我们为涉及最后$m$生成的策略的非平稳 ...2022-4-2 20:05 - 可人4 - Forum
部分可观测马尔可夫决策过程中的强化学习 使用混合概率逻辑程序
0 个回复 - 236 次查看 摘要翻译: 将POMDP环境中的强化学习与常规混合概率逻辑程序相结合,提出了一个强化学习的概率逻辑程序框架,该框架具有描述特定领域知识的概率答案集语义。我们正式证明了我们的方法的正确性。我们证明了在我们的方 ...2022-3-18 15:45 - 能者818 - Forum
部分可观测中数值迭代收敛速度的加快 马尔可夫决策过程
1 个回复 - 501 次查看 摘要翻译: 部分可观察马尔可夫决策过程(POMDPs)是一种在不确定条件下进行规划的自然模型,近年来受到许多人工智能研究人员的青睐。值迭代是求解POMDPS最优策略的一种著名算法。它通常需要大量的迭代才能收敛。本文 ...2022-3-15 20:05 - 能者818 - Forum
带有策略语言偏差的近似策略迭代:求解 关系马尔可夫决策过程
0 个回复 - 418 次查看 摘要翻译: 研究了一种大型关系马尔可夫决策过程的策略选择方法。我们考虑了近似策略迭代(API)的一种变体,它用策略空间中的一个学习步骤来代替通常的值函数学习步骤。在好的策略比相应的值函数更容易表示和学习的领 ...2022-3-12 17:36 - kedemingshi - Forum
马尔可夫决策在线规划中的简单遗憾优化 流程
0 个回复 - 298 次查看 摘要翻译: 研究马尔可夫决策过程中的在线规划问题。在在线规划中,代理只关注其当前状态,从该状态开始考虑可能的策略集,当中断时,使用探索性考虑的结果来选择下一步执行的操作。在线规划算法的性能用简单遗憾来评 ...2022-3-11 17:16 - mingdashike22 - Forum
用自动方法加快马尔可夫决策过程的规划 构造抽象
0 个回复 - 198 次查看 摘要翻译: 本文研究了随机最短路径问题(SSP)中的规划问题,这是马尔可夫决策问题(MDP)的一个子类。我们关注的是状态空间可以完全枚举的中等规模问题。该问题有许多重要的应用,如不确定环境下的导航和规划。我们提出 ...2022-3-11 15:20 - nandehutu2022 - Forum
大风险厌恶马尔可夫决策的一种近似求解方法 流程
0 个回复 - 286 次查看 摘要翻译: 随机领域往往涉及风险规避决策者。虽然最近的工作集中在如何使用风险度量在马尔可夫决策过程中建模风险,但它没有解决解决大的风险厌恶公式的问题。本文提出并分析了一种求解具有连续-离散混合状态空间和 ...2022-3-10 19:50 - 大多数88 - Forum
马尔可夫决策过程中的随机比较静力学
0 个回复 - 365 次查看 摘要翻译: 在多周期随机优化问题中,未来最优决策是一个随机变量,其分布依赖于优化问题的参数。在马尔可夫决策过程的背景下,我们分析了该随机变量的期望值如何随动态优化参数的变化。我们称这种分析\emph{随机比较 ...2022-3-7 14:29 - kedemingshi - Forum
特征马尔可夫决策过程
0 个回复 - 165 次查看 摘要翻译: 通用智能学习代理通过(复杂的,非MDP)观察、行动和奖励序列循环。另一方面,强化学习在小的有限状态马尔可夫决策过程中得到了很好的发展。到目前为止,从裸露的观察中提取正确的状态表示是人类设计师的 ...2022-3-6 18:36 - 可人4 - Forum
基于因子马尔可夫决策的可重构数字信道器设计 流程
0 个回复 - 170 次查看 摘要翻译: 在这项工作中,通过使用一种紧凑的系统级建模方法,开发了一种新颖的数字信道化器设计。该模型有效地捕捉了数字信道化系统的关键特性及其时变操作。该模型将强大的马尔可夫决策过程(MDP)技术应用于可重构 ...2022-3-6 15:11 - mingdashike22 - Forum
马尔可夫决策过程的平均场:从离散到连续 优化
0 个回复 - 418 次查看 摘要翻译: 研究了由大量对象组成的马尔可夫决策过程对常微分方程优化问题的收敛性。基于Markov决策过程的平均场逼近,我们证明了满足Bellman方程的Markov决策过程的最优报酬收敛于连续Hamilton-Jacobi-Bellman(HJB) ...2022-3-6 12:39 - kedemingshi - Forum
一种用于指导腹主动脉治疗的马尔可夫决策过程模型 动脉瘤
0 个回复 - 202 次查看 摘要翻译: 腹主动脉瘤(AAA)是腹主动脉的增大,如果不治疗,可能会逐渐变宽,并可能破裂,导致致命的后果。本文利用马尔可夫决策过程模型确定了一个最优处理策略。该政策是最优的质量调整生命年(QALYs)的数量,预计 ...2022-3-4 18:54 - 能者818 - Forum
误指定马尔可夫决策过程中的平衡
0 个回复 - 307 次查看 摘要翻译: 研究了在agent不知道当前状态和行为到未来状态的转移概率函数的情况下的马尔可夫决策问题。agent对一组可能的转移函数有一个优先信念,并使用贝叶斯规则更新信念。我们允许她被错误地规定,因为真正的转移 ...2022-3-2 11:50 - 可人4 - Forum
通过马尔可夫决策过程掌握强化学习
0 个回复 - 939 次查看 通过马尔可夫决策过程掌握强化学习 强化学习(RL)是一种学习方法,通过该方法学习者可以使用自己的行为和对其行为的奖励来学习在交互式环境中的行为。学习者(通常被称为代理人)通过开发和探索发现哪些动作可以带 ...2020-12-8 21:43 - 时光永痕 - 数据分析与数据挖掘
[求助]复杂系统的马尔可夫决策过程如何建模?
4 个回复 - 3271 次查看 <p>&nbsp;&nbsp; 刚开始学习马尔可夫决策过程,想利用它对复杂系统建模,但想了很久,一直不得其解,在此,向达人请教。<br/>&nbsp;&nbsp;&nbsp;系统介绍如下:<br/>&nbsp;&nbsp;&nbsp; ...2008-10-16 16:44 - shgxky - 经济金融数学专区
马尔可夫决策过程理论与应用
3 个回复 - 1753 次查看 【作者(必填)】 刘克,曹平 【文题(必填)】 马尔可夫决策过程理论与应用 【年份(必填)】 科学出版社, 2015 【全文链接或数据库名称(选填)】 刘克, & 曹平. (2015). 马尔可夫决策过程理论与应用. 科学出版社. ...2017-4-24 01:33 - Kun806 - 文献求助专区
[求助]有专门求解MDP马尔可夫决策过程的软件吗?
1 个回复 - 3016 次查看 最近在看马尔可夫决策过程方面的文章,对其中算法的求解甚是苦恼。请问哪位高人可知道求解MDP的最好方法,可用软件?2009-1-5 22:07 - rqj21 - MATLAB等数学软件专版
[求助]复杂系统的马尔可夫决策过程如何建模?
2 个回复 - 1661 次查看 <p>刚开始学习马尔可夫决策过程,想利用它对复杂系统建模,但想了很久,一直不得其解,在此,向达人请教。<br/>&nbsp;&nbsp; 系统介绍如下:<br/>&nbsp;&nbsp; 系统由N个相互独立项目组成,每个 ...2008-10-16 17:16 - shgxky - 创新与战略管理
求助:谁有《实用马尔可夫决策过程》电子书啊
0 个回复 - 1548 次查看 求助:谁有《实用马尔可夫决策过程》电子书啊?有的话能不能发我一份 我的邮箱 谢谢啦!:)2011-1-10 15:33 - apple5625 - 博弈论
求博士论文一份:马尔可夫决策过程中的若干最小风险模型
4 个回复 - 1894 次查看 马尔可夫决策过程中的若干最小风险模型 该文研究离散时间、时齐的马尔可夫决策过程,其系统状态空间和行动空间均为可数集,优化准则是使累积报酬(总报酬或折扣总报酬)未超过决策者的目标值(预期值)和风险(概率)达 ...2010-9-12 00:02 - kaixuan287 - 求助成功区
[求助]复杂系统的马尔可夫决策过程如何建模?
1 个回复 - 3275 次查看 刚开始学习马尔可夫决策过程,想利用它对复杂系统建模,但想了很久,一直不得其解,在此,向达人请教。   系统介绍如下:   系统由N个相互独立项目组成,每个项目满足离散马尔可夫决策过程的各种 ...2008-10-16 17:14 - shgxky - 博弈论