Train the Trainer：利用强化学习优化基于模型的强化学习算法-原创手记-慕课网

深层强化学习(DRL)将强化学习(RL)和深层神经网络(DNN)相结合，在解决围棋等复杂决策问题上表现出色[1]。最近的一系列突破也表明，DRL算法如深度确定性策略梯度(DDPG)和信任区域策略优化(TRPO)，同样可以很好地解决连续控制问题[2][3]。

DRL虽显示了极强的能力，但其高昂的训练成本也成为实践中的一个严重问题。例如，在引用[4]一书中，作者表明，经过大约100万次训练，DRL训练的一个简化的足球运动员才能实现高效的射门得分。这么大的时间/资源成本在实际的控制问题中是很难接受的。在[5]一书中作者指出强化学习最大的挑战就是“大量的噪声数据，对真实机器人的缓慢训练和测试，模拟器与现实世界之间的实际差距”。

现有的解决这一问题的方法主要是基于模型的强化学习方法。基于模型的RL是指利用从现实系统中采集的数据来训练系统动力学模型，进而用于生成训练控制器(值/策略函数)的综合数据来降低在物理系统中进行采样的消耗。该类方法已应用于机器人手臂训练[6]，和基于在线树搜索的规划[7][8][9]。

这类方法可降低训练成本，因为在真实的物理环境中的训练通常比在任何学习或预先构建的虚拟环境中的训练要昂贵得多。虽然基于模型的RL提供了一种可行的方法来解决与DRL相关的采样成本问题，但在当前的研究和开发工作中还没有对以下关键问题进行充分的研究：

1)基于模型的方法的有效性取决于底层系统动力学模型的学习速度是否快于相应的价值/策略函数。因此，并非所有的网络仿真器都有帮助。

2)在现有的基于模型的RL方法中，采用了人工调整超参数的随机抽样策略，使得算法在实际应用中存在一定的困难。例如，一些声称能降低训练成本的算法，往往在整个训练过程中并未考虑到调整参数所需的成本。

为解决这些问题，开发一种实用的、基于模型的DRL算法，我们提出了一种成本敏感的、智能DRL训练框架[10]。该框架可在线学习最优控制参数和采样策略。

不同于已有的将训练器和目标控制器混合在一起的方法，我们提出的这一方法将基于模型的DRL训练过程封装为一个称为训练过程环境(TPE)的标准RL环境，并实现以一个RL代理作为智能训练师来优化TPE系统。这个RL训练师通过在线学习的方式来优化TPE中封装的、基于模型的RL的训练过程。整个系统的框架如图一所示。

图一框架整体架构

我们依靠训练师控制三个行动来优化TPE内部的训练过程。这些行动旨在影响如何在真实和虚拟环境中进行抽样和训练。

第一个动作帮助我们设置在现实和虚拟环境中进行采样的初始点。例如，在虚拟环境中训练师可选择从真实环境中采集到的一个样本开始新的采样，以进一步利用搜索该状态的附近空间；也可选择从随机状态开始，以利于探索新的状态空间。这一行动影响到局部和全局搜索之间的平衡。

第二个动作决定我们应该从虚拟环境中采集多少数据，而第三个动作决定用虚拟数据训练的概率。这两种行为会影响我们如何有效地利用虚拟数据。如果虚拟数据的效果不好，就减少虚拟数据的使用。如果效果好，就增加虚拟数据的使用。在一般的基于模型的RL方法中，这些操作通常是手动调整的；在我们的方法中，我们试图利用训练师在训练中选择正确的操作。

该框架在OpenAI Gym中的五个测试任务上进行了测试。测试的例子包括Pendulum (V0), Mountain Car (Continuous V0), Reacher (V1), Half Cheetah, 和 Swimmer (V1)。

与一般的基于模型的RL基准算法相比，该算法在四项任务上取得了显著的表现。图二中展示了我们的算法和基准算法在5个问题上测试结果的对比。测试数据来自于10次独立训练测试，图片中展示了在训练的不同阶段我们的训练得到的控制agent跟基准算法得到的控制agent的平均reward（越大越好）。

图二智能训练师和基准算法的对比结果。

在降低采样的消耗上，我们也取得了显著的成果，如表1所示。

表1 训练达到目标时所节省的在真实环境中采样的节省比例。无穷大表示基准算法因为固定的参数设置二未能达到目标表现。

总之，该框架旨在降低基于模型的RL算法的调整代价，使基于模型的RL算法更适用于实际。我们的框架已经开源，感兴趣的读者可以访问地址：

https://bitbucket.org/RLinRL/intelligenttrainerpublic/。

希望我们已经实现的框架可以扩展到解决基于模型的DRL算法中的其他问题。

参考文献

[1] V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Riedmiller, “Playing atari with deep reinforcement learning,” arXiv preprint arXiv:1312.5602, 2013.

[2] T. P. Lillicrap, J. J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, and D. Wierstra, “Continuous control with deep reinforcement learning,” arXiv preprint arXiv:1509.02971, 2015.

[3] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, “Trust region policy optimization,” in International Conference on Machine Learning, 2015, pp. 1889–1897.

[4] M. Hausknecht and P. Stone, “Deep reinforcement learning in parameterized action space,” in Proceedings of the International Conference on Learning Representations (ICLR), May 2016.

[5] M. Wiering and M. Van Otterlo, “Reinforcement learning,” Adaptation, learning, and optimiza- tion, vol. 12, 2012.

[6] M. P. Deisenroth, C. E. Rasmussen, and D. Fox, “Learning to control a low-cost manipulator using data-efficient reinforcement learning,” 2011.

[7] X. Guo, S. Singh, H. Lee, R. L. Lewis, and X. Wang, “Deep learning for real-time atari game play using offline monte-carlo tree search planning,” in Advances in neural information processing systems, 2014, pp. 3338–3346.

[8] T. Weber, S. Racanière, D. P. Reichert, L. Buesing, A. Guez, D. J. Rezende, A. P. Badia, O. Vinyals, N. Heess, Y. Li et al., “Imagination-augmented agents for deep reinforcement learning,” arXiv preprint arXiv:1707.06203, 2017.

[9] R. Pascanu, Y. Li, O. Vinyals, N. Heess, L. Buesing, S. Racanière, D. Reichert, T. Weber, D. Wierstra, and P. Battaglia, “Learning model-based planning from scratch,” arXiv preprint arXiv:1707.06170, 2017.

[10] Yuanlong Li, Linsen Dong, Yonggang Wen and Kyle Guan, “Intelligent Trainer for Model-Based Reinforcement Learning,” arXiv preprint arXiv:1805.09496, 2018.