结果:找到“强化学习”相关内容173个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
2015-2016中国计算机科学技术发展报告
1 个回复 - 1790 次查看
点上面附件图标,上传附件后可设置现金定价
2015-2016中国计算机科学技术发展报告
1 引言 12 国际研究现状 2 2.1 低耗高效设计 2 2.2 服务质量 7 2.3 新能源数据中心 8 2.4 峰值用电管控 133 ...
2017-11-16 10:59 - ibmandwto - 现金交易版
斯坦福强化学习教材548页
7 个回复 - 2670 次查看
强化学习:Reinforcement learning - An introduction 2nd
作者:Richard S. Sutton and Andrew G. Barto
2020-9-1 10:41 - 广财金融学院 - Forum
强化学习实战系列(2020最新)|强化学习视频教程
1 个回复 - 1604 次查看
强化学习实战系列(2020最新)|
强化学习视频教程
网盘地址:https://pan.baidu.com/s/1yxCDOsn76GSFBPgd1TIqzA 提取码: tt7t
备用地址(腾讯微云):https://share.weiyun.com/lwW2gjES 密码:d9iur3
强化学习系 ...
2020-11-2 14:54 - 大帅哥很帅的 - Forum
强化学习实战系列(2020最新)
3 个回复 - 4394 次查看
强化学习实战系列(2020最新)
网盘地址:https://pan.baidu.com/s/1ZgZguZTcMkS1DDuEFC3NUA 提取码: 3yq9
网盘地址:https://pan.baidu.com/s/1Qv-ev6gng57byaoRUXqShQ 提取码: axfg
强化学习实战系列(20 ...
2021-4-13 12:44 - 少年码农 - Forum
深度强化学习的基础
0 个回复 - 1520 次查看
强化学习 (RL),一个“利基”机器学习技术,在过去五年中浮出水面。在基于上下文的决策中,
强化学习帮助机器通过试错法做出激发行动的决策,以实现针对某种情况的最佳算法模型。
此外,机器通过基于奖励/惩罚的 ...
2022-5-24 10:05 - 时光永痕 - 数据分析与数据挖掘
强化学习以减少建筑能耗
0 个回复 - 1483 次查看
仅建筑物的供暖、通风和空调就占 全球能源需求的近40% [1]。
对 节能的需求 已越来越成为应对 气候变化的基础。 我们一直在研究一种基于云的 RL 算法,该算法可以改造现有的 HVAC 控制以获得实质性结果。
...
2022-5-9 15:24 - 时光永痕 - 数据分析与数据挖掘
用强化学习优化对话管理:实验
使用NJFun系统
0 个回复 - 258 次查看
摘要翻译:
设计口语对话系统的对话策略涉及到许多重要的选择。本文提出了一种自动优化对话策略的
强化学习方法,解决了将
强化学习应用于与人类用户的工作对话系统中的技术挑战。我们报告了NJFun的设计、构建和实证评 ...
2022-4-11 19:40 - 何人来此 - Forum
基于深度强化学习的无人机辅助蜂窝通信
抗干扰
0 个回复 - 595 次查看
摘要翻译:
蜂窝系统容易受到干扰攻击,特别是智能干扰器,它们根据当前通信策略和网络状态选择干扰信道频率和功率等干扰策略。本文提出了一种无人飞行器(UAV)辅助的抗干扰蜂窝通信框架。在该方案中,当服务基站被严 ...
2022-4-9 14:25 - 何人来此 - Forum
基于强化学习的实时调度
0 个回复 - 480 次查看
摘要翻译:
信息物理系统,如移动机器人,必须对动态操作条件作出自适应反应。这些系统的有效运行要求及时执行传感和驱动任务。此外,执行任务的特定任务,如对房间进行成像,必须与执行更一般的任务,如避障的需要相 ...
2022-4-8 16:00 - 可人4 - Forum
基于递归最小二乘法的高效强化学习
0 个回复 - 411 次查看
摘要翻译:
递推最小二乘(RLS)算法是应用于自适应滤波、系统辨识和自适应控制的最著名算法之一。它的流行主要是因为收敛速度快,在实践中被认为是最优的。本文将RLS方法用于解决
强化学习问题,提出并分析了两种新的基 ...
2022-4-1 14:35 - 何人来此 - Forum
无限马里奥中的关系强化学习
0 个回复 - 344 次查看
摘要翻译:
强化学习中的关系表示允许在价值函数的描述中使用结构信息,如对象的存在和它们之间的关系。通过本文,我们证明了这种表示允许包含定性描述状态的背景知识,并且可以用于设计在具有大状态和动作空间的领域 ...
2022-3-28 08:00 - 大多数88 - Forum
基于样本的高效贝叶斯自适应强化学习
搜索
0 个回复 - 464 次查看
摘要翻译:
基于贝叶斯模型的
强化学习是一种在模型不确定性下学习最优行为的形式优雅的方法,以理想的方式权衡探索和开发。不幸的是,寻找得到的贝叶斯最优策略是出了名的费力,因为搜索空间变得巨大。本文介绍了一种 ...
2022-3-23 08:15 - 何人来此 - Forum
强化学习以减少建筑能耗
0 个回复 - 4014 次查看
在过去的十年中,已经提出了一种依赖于人工智能的新型控制方式。特别是,我们将重点介绍基于
强化学习 (RL) 的数据驱动控制,因为它们从一开始就显示出作为 HVAC 控制的有希望的结果 [2]。
使用 RL 升级空调系统有 ...
2022-3-21 16:20 - 时光永痕 - 数据分析与数据挖掘
基于强化学习和慢特征分析的机器人导航
0 个回复 - 199 次查看
摘要翻译:
强化学习算法在实际问题中的应用总是面临着从原始传感器读数中过滤环境状态的挑战。虽然大多数方法使用启发式,但生物学认为必须存在一种无监督的方法来自动构造这种过滤器。除了提取环境状态外,滤波器还 ...
2022-3-21 15:05 - 大多数88 - Forum
基于值梯度的强化学习
0 个回复 - 303 次查看
摘要翻译:
值梯度的概念是在
强化学习的背景下引入和发展起来的。结果表明,通过学习值梯度,不再需要探索或随机行为来寻找局部最优轨迹。这是使用值梯度的主要动机,并认为学习值梯度是任何控制问题的值函数学习算法 ...
2022-3-8 21:04 - nandehutu2022 - Forum
基于主动学习方法的强化学习
0 个回复 - 390 次查看
摘要翻译:
本文提出了一种新的
强化学习方法,该方法是基于建模中一个强大的概念&主动学习方法(ALM)。ALM将任意多输入单输出系统表示为若干单输入单输出系统的模糊组合。该方法是一种类似于基于广义近似推理的智能控 ...
2022-3-8 19:27 - 能者818 - Forum
基于跳时技术的快速仿真强化学习
0 个回复 - 352 次查看
摘要翻译:
本预印本已由作者撤回修改
---
英文标题:
《Time Hopping technique for faster reinforcement learning in simulations》
---
作者:
Petar Kormushev, Kohei Nomoto, Fangyan Dong, Kaoru Hirota
---
...
2022-3-8 08:59 - 可人4 - Forum
强化学习的自适应基
0 个回复 - 247 次查看
摘要翻译:
我们考虑了利用函数逼近的
强化学习问题,其中逼近基可以在与环境交互时动态变化。这种方法的一个动机是最大化价值函数适合于所面临的问题。考虑了三种误差:近似平方误差,Bellman残差和投影Bellman残差。 ...
2022-3-7 11:30 - 大多数88 - Forum
基于强化学习的动态最优治疗分配
0 个回复 - 339 次查看
摘要翻译:
设计关于如何分配个人治疗的指导是实证研究的一个重要目标。在实践中,个人通常是按顺序到达的,规划者面临各种限制,如有限的预算/容量,或借款限制,或需要将人员安排在队列中。例如,一个政府机构可能 ...
2022-3-6 17:53 - 能者818 - Forum
特征强化学习:第一部分:非结构化MDPs
0 个回复 - 304 次查看
摘要翻译:
通用的、智能的、学习的代理在观察、行动和奖励的序列中循环,这些序列是复杂的、不确定的、未知的和非马尔可夫的。另一方面,
强化学习在小的有限状态马尔可夫决策过程中得到了很好的发展。到目前为止,从 ...
2022-3-6 14:23 - 能者818 - Forum
低层无线环境下的协作多智能体强化学习
通信
0 个回复 - 368 次查看
摘要翻译:
为了兼容性和效率,传统的无线电系统在OSI协议栈的较低层上严格地协同设计。虽然这使得无线电通信取得了成功,但它也引入了漫长的标准化过程,并强加了无线电频谱的静态分配。为了解决人为频谱短缺的问题 ...
2022-3-6 09:20 - 何人来此 - Forum
基于强化学习的序列间ASR优化
0 个回复 - 250 次查看
摘要翻译:
尽管序列到序列方法在自动语音识别(ASR)系统中取得了成功,但这些模型仍然存在一些问题,主要是由于训练条件和推理条件之间的不匹配。在序列到序列的结构中,该模型被训练以预测当前时间步长的字形,给定 ...
2022-3-5 20:38 - kedemingshi - Forum
连续时间强化学习问题的策略迭代
与空间--基础理论与方法
0 个回复 - 339 次查看
摘要翻译:
策略迭代(PI)是为解决最优决策/控制问题或
强化学习(RL)问题而进行的策略评估和改进的递归过程。PI也是发展RL方法的基础。本文提出了两种PI方法,分别称为微分PI(DPI)和积分PI(IPI)及其变体,用于连续时间 ...
2022-3-4 20:59 - 能者818 - Forum
中加速强化学习的时间操纵技术
模拟
0 个回复 - 383 次查看
摘要翻译:
提出了一种利用时间操纵来加速
强化学习算法的技术。它适用于在计算机仿真中运行的故障避免控制问题。与传统的Q-学习算法和Actor-Critic算法相比,在故障事件上,将模拟时间向后翻转,在推杆平衡任务上的学 ...
2022-3-4 20:39 - nandehutu2022 - Forum
市场博弈中的强化学习
0 个回复 - 300 次查看
摘要翻译:
金融市场的投资者参与了许多游戏--他们必须与其他代理人互动以实现他们的目标。其中包括那些与他们在市场上的活动直接相关的因素,但我们不能忽视影响人类决策和他们作为投资者的表现的其他方面。区分所有 ...
2022-3-3 19:00 - mingdashike22 - Forum
量子强化学习
0 个回复 - 536 次查看
摘要翻译:
机器学习,特别是在未知概率环境中学习的关键方法是新的表示和计算机制。本文将量子理论与
强化学习(RL)相结合,提出了一种新的量子
强化学习(QRL)方法。受状态叠加原理和量子并行性的启发,介绍了一种值更 ...
2022-3-3 16:38 - 大多数88 - Forum
多Agent强化学习与遗传策略共享
0 个回复 - 334 次查看
摘要翻译:
多Agent动态系统中Agent之间的策略共享效应尚未得到广泛的研究。我模拟了一个利用
强化学习优化同一任务的智能体系统,研究了不同人口密度和策略共享的影响。我证明了共享策略减少了达到渐近行为的时间,并 ...
2022-3-3 11:58 - 可人4 - Forum
深度强化学习算法
1 个回复 - 934 次查看
Deep Reinforcement Learning for Trading,感兴趣的可以研究一下。我试着用pytorch实现了一下,有需要可以交流一下
2021-11-4 15:19 - 粽是梦一场 - 量化投资
深度学习及深度强化学习实战
0 个回复 - 939 次查看
深度学习DeepLearning实战培训班
1月15日— 1月18日
深度
强化学习核心技术实战培训班
1月27日— 1月30日
深度迁移学习核心技术实战培训班
1月28日— 1月31日
(第一天报到 授课三天;提前环境部署 ...
2021-1-7 07:55 - 李连杰1 - Forum
强化学习
0 个回复 - 1101 次查看
强化学习入门图书,Reinforcement Learning,(
强化学习第二版) Richard S. Sutton
2020-12-14 09:53 - 爱学习的我吖 - 计量经济学与统计软件
REINFORCE算法:在强化学习中迈出第一步
0 个回复 - 1517 次查看
REINFORCE算法:在
强化学习中迈出第一步
让我们用REINFORCE算法解决OpenAI的Cartpole,Lunar Lander和Pong环境。
强化学习可以说是人工智能最酷的分支。它已经证明了自己的才能:令人惊叹的世界,在国际象棋,围棋 ...
2020-12-9 21:13 - 时光永痕 - 数据分析与数据挖掘
通过马尔可夫决策过程掌握强化学习
0 个回复 - 1037 次查看
通过马尔可夫决策过程掌握
强化学习
强化学习(RL)是一种学习方法,通过该方法学习者可以使用自己的行为和对其行为的奖励来学习在交互式环境中的行为。学习者(通常被称为代理人)通过开发和探索发现哪些动作可以带 ...
2020-12-8 21:43 - 时光永痕 - 数据分析与数据挖掘
解释机器学习:了解监督,无监督和强化学习
0 个回复 - 603 次查看
解释机器学习:了解监督,无监督和
强化学习
机器学习正在指导人工智能功能。
图像分类,推荐系统和游戏中的AI是我们日常生活中机器学习功能的流行用法。如果进一步细分机器学习,我们会发现这3个机器学习示例由不同 ...
2020-11-30 19:27 - 时光永痕 - 数据分析与数据挖掘
强化学习
0 个回复 - 958 次查看
强化学习
强化学习(RL)–本系列“机器学习类型”子系列的第3个/最后一个帖子是在“解释机器学习”系列中。接下来的子系列“神秘的机器学习算法”即将出版。这篇文章仅讨论强化机器学习。
RL与诸如“某些新生婴儿 ...
2020-11-23 20:48 - 时光永痕 - 数据分析与数据挖掘
强化学习:超级马里奥,AlphaGo及其他
0 个回复 - 913 次查看
强化学习:超级马里奥,AlphaGo及其他
我们在机器学习中发现的大多数文献都谈到了两种学习技术–有监督的和无监督的。 监督学习 是我们拥有标记数据集的地方。这意味着我们已经拥有使用线性回归,逻辑回归等算法可从 ...
2020-11-4 20:41 - 时光永痕 - 数据分析与数据挖掘
强化学习:超级马里奥,AlphaGo及其他
0 个回复 - 846 次查看
强化学习:超级马里奥,AlphaGo及其他
我们在机器学习中发现的大多数文献都谈到了两种学习技术–有监督的和无监督的。 监督学习 是我们拥有标记数据集的地方。这意味着我们已经拥有使用线性回归,逻辑回归等算法可从 ...
2020-11-2 19:30 - 时光永痕 - 数据分析与数据挖掘
强化学习概述
0 个回复 - 633 次查看
强化学习是一种学习方法,我们通过在计算机执行操作时向计算机提供反馈来教会计算机执行某些任务。这与监督学习的不同之处在于,我们没有明确提供正确和不正确的示例说明应如何完成任务,我们只是告诉计算机何时可以 ...
2020-9-17 15:50 - 时光人 - Forum
【强化学习(2018第二版)】
3 个回复 - 2961 次查看
Reinforcement Learning An Introduction second edition
强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。
2018-11-20 23:23 - kein强 - 大数据技术
重新构想强化学习-颠倒了
0 个回复 - 1093 次查看
重新构想
强化学习-颠倒了
简介: 对于赢得比赛和自动驾驶汽车的所有宣传,传统的
强化学习(RL)尚未提供作为ML应用程序的可靠工具。在这里,我们探讨了主要缺点以及RL的创新方法,该方法可大大减少训练计算需求和 ...
2020-8-31 16:39 - 时光永痕 - 数据分析与数据挖掘
强化学习能否在2020年取得突破
0 个回复 - 923 次查看
强化学习能否在2020年取得突破
简介:
强化学习(RL)对于实现我们的AI / ML技术目标至关重要,但是它有许多障碍需要克服。虽然可以在一年内实现可靠性和减少培训数据,但是RL作为“黑匣子”解决方案的性质将对其 ...
2020-8-31 16:26 - 时光永痕 - 数据分析与数据挖掘
强化学习开始兑现其承诺
0 个回复 - 1072 次查看
强化学习开始兑现其承诺
简介: 超低成本计算和基于模型的
强化学习的进步使这种建模技术更接近实际应用。
我们一直在问,今年是否是
强化学习(RL)最终兑现其许多承诺的一年。就像飞行汽车和喷气背包一样,答案似 ...
2020-8-21 10:25 - 时光永痕 - 数据分析与数据挖掘
强化学习能否在2020年取得突破
0 个回复 - 771 次查看
强化学习能否在2020年取得突破
简介:
强化学习(RL)对于实现我们的AI / ML技术目标至关重要,但是它有许多障碍需要克服。虽然可以在一年内实现可靠性和减少培训数据,但是RL作为“黑匣子”解决方案的性质将对其 ...
2020-8-19 20:58 - 时光永痕 - 数据分析与数据挖掘
强化学习(Q学习)-简介(第1部分)
0 个回复 - 1968 次查看
强化学习(Q学习)-简介(第1部分)
您是否听说过AI学会自己玩计算机游戏并给人类专家玩家进行激烈的比赛?
Deepmind是一个非常受欢迎的例子,该公司的AlphaGo程序在2016年击败了韩国围棋世界冠军。除此之外,还有 ...
2020-8-5 19:11 - 时光永痕 - 数据分析与数据挖掘
强化学习开始兑现其承诺
0 个回复 - 823 次查看
强化学习开始兑现其承诺
我们一直在问,今年是否是
强化学习(RL)最终兑现其许多承诺的一年。就像飞行汽车和喷气背包一样,答案似乎至少要相隔几年。
如果您在数据科学方面的历史可以追溯到最近,那么您可能还记得 ...
2020-7-31 19:11 - 时光永痕 - 数据分析与数据挖掘