结果:找到“强化学习 肖”相关内容207个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
斯坦福强化学习教材548页
7 个回复 - 2652 次查看
强化学习:Reinforcement learning - An introduction 2nd
作者:Richard S. Sutton and Andrew G. Barto
2020-9-1 10:41 - 广财金融学院 - Forum
强化学习实战系列(2020最新)|强化学习视频教程
1 个回复 - 1427 次查看
强化学习实战系列(2020最新)|
强化学习视频教程
网盘地址:https://pan.baidu.com/s/1yxCDOsn76GSFBPgd1TIqzA 提取码: tt7t
备用地址(腾讯微云):https://share.weiyun.com/lwW2gjES 密码:d9iur3
强化学习系 ...
2020-11-2 14:54 - 大帅哥很帅的 - Forum
关于深度强化学习核心技术开发与应用的研修表
3 个回复 - 1618 次查看
随着科技的快速发展,人工智能俨然成了当今社会的关注焦点。而在人工智能的发展上,深度学习、
强化学习、迁移学习等成为了科学界、工业界研究和应用的热点。在实际研究和应用过程当中,研究人员逐渐发现了深度学 ...
2022-8-11 09:44 - 人工智能君 - Forum
强化学习实战系列(2020最新)
3 个回复 - 4356 次查看
强化学习实战系列(2020最新)
网盘地址:https://pan.baidu.com/s/1ZgZguZTcMkS1DDuEFC3NUA 提取码: 3yq9
网盘地址:https://pan.baidu.com/s/1Qv-ev6gng57byaoRUXqShQ 提取码: axfg
强化学习实战系列(20 ...
2021-4-13 12:44 - 少年码农 - Forum
深度强化学习的基础
0 个回复 - 1485 次查看
强化学习 (RL),一个“利基”机器学习技术,在过去五年中浮出水面。在基于上下文的决策中,
强化学习帮助机器通过试错法做出激发行动的决策,以实现针对某种情况的最佳算法模型。
此外,机器通过基于奖励/惩罚的 ...
2022-5-24 10:05 - 时光永痕 - 数据分析与数据挖掘
强化学习以减少建筑能耗
0 个回复 - 1458 次查看
仅建筑物的供暖、通风和空调就占 全球能源需求的近40% [1]。
对 节能的需求 已越来越成为应对 气候变化的基础。 我们一直在研究一种基于云的 RL 算法,该算法可以改造现有的 HVAC 控制以获得实质性结果。
...
2022-5-9 15:24 - 时光永痕 - 数据分析与数据挖掘
用强化学习优化对话管理:实验
使用NJFun系统
0 个回复 - 251 次查看
摘要翻译:
设计口语对话系统的对话策略涉及到许多重要的选择。本文提出了一种自动优化对话策略的
强化学习方法,解决了将
强化学习应用于与人类用户的工作对话系统中的技术挑战。我们报告了NJFun的设计、构建和实证评 ...
2022-4-11 19:40 - 何人来此 - Forum
基于深度强化学习的无人机辅助蜂窝通信
抗干扰
0 个回复 - 574 次查看
摘要翻译:
蜂窝系统容易受到干扰攻击,特别是智能干扰器,它们根据当前通信策略和网络状态选择干扰信道频率和功率等干扰策略。本文提出了一种无人飞行器(UAV)辅助的抗干扰蜂窝通信框架。在该方案中,当服务基站被严 ...
2022-4-9 14:25 - 何人来此 - Forum
基于强化学习的实时调度
0 个回复 - 468 次查看
摘要翻译:
信息物理系统,如移动机器人,必须对动态操作条件作出自适应反应。这些系统的有效运行要求及时执行传感和驱动任务。此外,执行任务的特定任务,如对房间进行成像,必须与执行更一般的任务,如避障的需要相 ...
2022-4-8 16:00 - 可人4 - Forum
基于递归最小二乘法的高效强化学习
0 个回复 - 397 次查看
摘要翻译:
递推最小二乘(RLS)算法是应用于自适应滤波、系统辨识和自适应控制的最著名算法之一。它的流行主要是因为收敛速度快,在实践中被认为是最优的。本文将RLS方法用于解决
强化学习问题,提出并分析了两种新的基 ...
2022-4-1 14:35 - 何人来此 - Forum
无限马里奥中的关系强化学习
0 个回复 - 336 次查看
摘要翻译:
强化学习中的关系表示允许在价值函数的描述中使用结构信息,如对象的存在和它们之间的关系。通过本文,我们证明了这种表示允许包含定性描述状态的背景知识,并且可以用于设计在具有大状态和动作空间的领域 ...
2022-3-28 08:00 - 大多数88 - Forum
基于样本的高效贝叶斯自适应强化学习
搜索
0 个回复 - 451 次查看
摘要翻译:
基于贝叶斯模型的
强化学习是一种在模型不确定性下学习最优行为的形式优雅的方法,以理想的方式权衡探索和开发。不幸的是,寻找得到的贝叶斯最优策略是出了名的费力,因为搜索空间变得巨大。本文介绍了一种 ...
2022-3-23 08:15 - 何人来此 - Forum
强化学习以减少建筑能耗
0 个回复 - 3973 次查看
在过去的十年中,已经提出了一种依赖于人工智能的新型控制方式。特别是,我们将重点介绍基于
强化学习 (RL) 的数据驱动控制,因为它们从一开始就显示出作为 HVAC 控制的有希望的结果 [2]。
使用 RL 升级空调系统有 ...
2022-3-21 16:20 - 时光永痕 - 数据分析与数据挖掘
基于强化学习和慢特征分析的机器人导航
0 个回复 - 193 次查看
摘要翻译:
强化学习算法在实际问题中的应用总是面临着从原始传感器读数中过滤环境状态的挑战。虽然大多数方法使用启发式,但生物学认为必须存在一种无监督的方法来自动构造这种过滤器。除了提取环境状态外,滤波器还 ...
2022-3-21 15:05 - 大多数88 - Forum
基于值梯度的强化学习
0 个回复 - 293 次查看
摘要翻译:
值梯度的概念是在
强化学习的背景下引入和发展起来的。结果表明,通过学习值梯度,不再需要探索或随机行为来寻找局部最优轨迹。这是使用值梯度的主要动机,并认为学习值梯度是任何控制问题的值函数学习算法 ...
2022-3-8 21:04 - nandehutu2022 - Forum
基于主动学习方法的强化学习
0 个回复 - 382 次查看
摘要翻译:
本文提出了一种新的
强化学习方法,该方法是基于建模中一个强大的概念&主动学习方法(ALM)。ALM将任意多输入单输出系统表示为若干单输入单输出系统的模糊组合。该方法是一种类似于基于广义近似推理的智能控 ...
2022-3-8 19:27 - 能者818 - Forum
基于跳时技术的快速仿真强化学习
0 个回复 - 340 次查看
摘要翻译:
本预印本已由作者撤回修改
---
英文标题:
《Time Hopping technique for faster reinforcement learning in simulations》
---
作者:
Petar Kormushev, Kohei Nomoto, Fangyan Dong, Kaoru Hirota
---
...
2022-3-8 08:59 - 可人4 - Forum
强化学习的自适应基
0 个回复 - 235 次查看
摘要翻译:
我们考虑了利用函数逼近的
强化学习问题,其中逼近基可以在与环境交互时动态变化。这种方法的一个动机是最大化价值函数适合于所面临的问题。考虑了三种误差:近似平方误差,Bellman残差和投影Bellman残差。 ...
2022-3-7 11:30 - 大多数88 - Forum
基于强化学习的动态最优治疗分配
0 个回复 - 333 次查看
摘要翻译:
设计关于如何分配个人治疗的指导是实证研究的一个重要目标。在实践中,个人通常是按顺序到达的,规划者面临各种限制,如有限的预算/容量,或借款限制,或需要将人员安排在队列中。例如,一个政府机构可能 ...
2022-3-6 17:53 - 能者818 - Forum
特征强化学习:第一部分:非结构化MDPs
0 个回复 - 297 次查看
摘要翻译:
通用的、智能的、学习的代理在观察、行动和奖励的序列中循环,这些序列是复杂的、不确定的、未知的和非马尔可夫的。另一方面,
强化学习在小的有限状态马尔可夫决策过程中得到了很好的发展。到目前为止,从 ...
2022-3-6 14:23 - 能者818 - Forum
低层无线环境下的协作多智能体强化学习
通信
0 个回复 - 359 次查看
摘要翻译:
为了兼容性和效率,传统的无线电系统在OSI协议栈的较低层上严格地协同设计。虽然这使得无线电通信取得了成功,但它也引入了漫长的标准化过程,并强加了无线电频谱的静态分配。为了解决人为频谱短缺的问题 ...
2022-3-6 09:20 - 何人来此 - Forum
基于强化学习的序列间ASR优化
0 个回复 - 239 次查看
摘要翻译:
尽管序列到序列方法在自动语音识别(ASR)系统中取得了成功,但这些模型仍然存在一些问题,主要是由于训练条件和推理条件之间的不匹配。在序列到序列的结构中,该模型被训练以预测当前时间步长的字形,给定 ...
2022-3-5 20:38 - kedemingshi - Forum
连续时间强化学习问题的策略迭代
与空间--基础理论与方法
0 个回复 - 330 次查看
摘要翻译:
策略迭代(PI)是为解决最优决策/控制问题或
强化学习(RL)问题而进行的策略评估和改进的递归过程。PI也是发展RL方法的基础。本文提出了两种PI方法,分别称为微分PI(DPI)和积分PI(IPI)及其变体,用于连续时间 ...
2022-3-4 20:59 - 能者818 - Forum
中加速强化学习的时间操纵技术
模拟
0 个回复 - 377 次查看
摘要翻译:
提出了一种利用时间操纵来加速
强化学习算法的技术。它适用于在计算机仿真中运行的故障避免控制问题。与传统的Q-学习算法和Actor-Critic算法相比,在故障事件上,将模拟时间向后翻转,在推杆平衡任务上的学 ...
2022-3-4 20:39 - nandehutu2022 - Forum
市场博弈中的强化学习
0 个回复 - 282 次查看
摘要翻译:
金融市场的投资者参与了许多游戏--他们必须与其他代理人互动以实现他们的目标。其中包括那些与他们在市场上的活动直接相关的因素,但我们不能忽视影响人类决策和他们作为投资者的表现的其他方面。区分所有 ...
2022-3-3 19:00 - mingdashike22 - Forum
量子强化学习
0 个回复 - 510 次查看
摘要翻译:
机器学习,特别是在未知概率环境中学习的关键方法是新的表示和计算机制。本文将量子理论与
强化学习(RL)相结合,提出了一种新的量子
强化学习(QRL)方法。受状态叠加原理和量子并行性的启发,介绍了一种值更 ...
2022-3-3 16:38 - 大多数88 - Forum
多Agent强化学习与遗传策略共享
0 个回复 - 326 次查看
摘要翻译:
多Agent动态系统中Agent之间的策略共享效应尚未得到广泛的研究。我模拟了一个利用
强化学习优化同一任务的智能体系统,研究了不同人口密度和策略共享的影响。我证明了共享策略减少了达到渐近行为的时间,并 ...
2022-3-3 11:58 - 可人4 - Forum
深度强化学习算法
1 个回复 - 920 次查看
Deep Reinforcement Learning for Trading,感兴趣的可以研究一下。我试着用pytorch实现了一下,有需要可以交流一下
2021-11-4 15:19 - 粽是梦一场 - 量化投资