通过直接动作优化对控制策略进行监督学习的免模型强化学习算法

 2022-06-23 08:06

论文总字数:48407字

摘 要

探索问题是目前强化学习的一大挑战,他的主要目标是避免智能体陷入局部最优解。通常的方案是通过在动作空间引入噪声来鼓励探索,但这种探索方式往往是低效的。这篇文章提出了一种新的高效探索的解决方案,文章有四点主要贡献: 1. 使用非梯度优化来调整探索网络,指导agent进行探索,由于非梯度优化具有跳出局部最优解的特性,他可以驱使agent根据现有的轨迹信息去寻找可能得到更好的return的样本;2. 提出了新的探索策略:附加的动作噪音网络,这是一种结合了 action noise的state-dependent 的优势的探索网络;3. 通过直接动作优化的方式构造探索网络,这是一种牺牲优化精度来降低优化复杂度的优化方案;4. 提出了将探索过程分解成独立的三个部分的新观点,并且使用Merged Replay Buffer 实现。这篇文章的方法理论上可以结合任意的off-policy的强化学习算法,作为一个通用的部件,提高原有的其他RL算法的性能。我们在DDPG 和 ACER中做了实验,证实我们的方法能够应用于随机策略和确定性策略,并且能够被拓展到多线程的环境中。我们分别让两个算法应用于离散环境和连续环境,目前实验表明,与DDPG结合的算法表现出了良好的性能,但与ACER结合的结果表现相对一般,只在部分环境中高于原算法。

关键词:强化学习,探索,非梯度优化

Abstract

Exploration remains a key challenge in contemporary deep reinforcement learning (RL). Its main purpose is to ensure that the agent’s behavior does not converge prematurely to a local optimum. The usual solution is to encourage exploration by applying noise into the action space, but this type of exploration is often inefficient. This paper proposes a new method for efficient exploration. Specifically, the article has four major contributions. First, use derivate-free optimization to adjust the exploration network and guide the agent to explore. Since derivate-free optimization has the property of jumping out of the local optimum, he can drive the agent to search for a trajectory that may be better based on the existing trajectories information. Second, proposed new exploration policy, “Append Action Noise Net”, which combines the advantages of state-dependent action noise. Third, the exploration network is constructed by Direct Action Optimization. This is an optimization solution that sacrifices the optimization accuracy to reduce the optimization complexity. Fourth, Presented a new perspective that broke the exploration process into three separate parts and implemented it using Merged Replay Buffer. The method can theoretically combine arbitrary off-policy reinforcement learning algorithms as a common component to improve the performance of other existing RL algorithms. Experiments were done in DDPG and ACER, confirming that this method can be applied to stochastic and deterministic policy and can be extended to multi-threaded environments. Two algorithms to discrete and continuous environments were applied, and experiments show that algorithm combined with DDPG show good performance, while the result of combining with ACER is relatively general, and it is higher than the original algorithm only in some environments.

KEY WORDS: Reinforcement Learning, Exploration, Derivate-free Optimization

目录

摘要 I

Abstract II

第一章 绪论 1

1.1 选题背景和意义 1

1.2 章节安排 1

第二章 强化学习概述 2

2.1 强化学习的通用框架 2

2.1.1 组成元素和运行框架 2

2.1.2 Agent 的内部组成 3

2.2 强化学习中的马尔科夫决策过程(MDPs)和贝尔曼方程 4

2.2.1 马尔可夫决策过程(MDPs) 4

2.2.2 贝尔曼期望方程(Bellman Exceptation Equation) 4

2.2.3 贝尔曼最优方程(Bellman Optimality Equation) 5

2.3 解决强化学习的主流算法模型 7

2.3.1 强化学习的解决方案总述 7

2.3.2 深度Q网络算法:DQN 8

2.3.3 深度确定性策略梯度算法:DDPG 10

2.3.4 演员-评判家-经验回放算法:ACER 11

2.4 章末小节 12

第三章 非梯度优化方法解决免模型强化学习中的探索开发问题 13

3.1 强化学习中探索(exploration)和开发(exploitation)的问题 13

3.1.1 探索与开发的矛盾 13

3.1.2 现有强化学习方法中的探索方案 14

3.2 非梯度优化在探索开发问题的应用潜力 14

3.2.1 基于分类模型的非梯度优化 15

3.2.2 序列化随机维度收缩分类算法(SRACOS) 15

3.2.3 用非梯度优化的思想解决探索问题的研究动机 17

3.3 章末小结 18

第四章 基于非梯度优化的强化学习探索模块的实现 19

4.1 状态依赖的附加动作噪音网络(AAN Net) 19

4.1.1 AAN Net的设计动机和定义 19

4.1.2 生成AAN Net的难点 20

4.2 直接动作优化(DAO) 21

4.2.1 直接动作优化的定义 21

4.2.2 使用SRACOS算法进行直接动作优化 22

4.3 混合的经验回放样本池(MRB):用于纠正探索策略和当前策略的偏差 23

4.4 与Off-Policy的 Model-Free RL算法结合:以DDPG和ACER为例 25

4.4.1 SRACOS结合DDPG 26

4.4.2 SRACOS结合ACER 28

4.5 与SRACOS结合带来的问题和解决方案 30

4.6 章末小结 31

第五章 实验部分 33

5.1 实验环境介绍 33

5.2 对SRACOS进行的几处调整是否造成有意义的影响的对比实验 33

5.3 SRACOS结合DDPG算法应用于Mujoco和VIME的环境中的实验 34

5.4 SRACOS结合ACER算法应用于Atari环境中的实验 35

第六章 总结 37

致谢 38

参考文献 39

附录 41

附录A Mujoco环境设置详情 41

附录B Atari环境设置详情 42

附录C SRACOS-DDPG参数设置详情 43

剩余内容已隐藏,请支付后下载全文,论文总字数:48407字

您需要先支付 80元 才能查看全部内容!立即支付

该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;