本文内容同个人微信号推送文章:神经情景控制(Neural Episodic Control)


原论文地址:Neural Episodic Control

1 深度强化学习面临的问题

深度强化学习面临的问题——学习速度慢,学习时间长

(1)Stochastic gradient descent optimisation requires the useof small learning rates. (梯度下降需要较小的学习率。)

(2)Environments with a sparse reward signal can be difficultfor a neural network to model as there may be very fewinstances where the reward is non-zero. (极少情况下奖励为非零。)

如果奖励a,b,c为非零奖励,则根据算法要增强每个行为的概率。但是变化前后概率和都为1,因此变化后,有的行为的概率会减小。

(3)Reward signal propagation by value-bootstrapping tech-niques, such as Q-learning, results in reward informationbeing propagated one step at a time through the history ofprevious interactions with the environment. (用价值引导技术进行奖励信号传播。如 Q-学习,这导致每与环境交互一次奖励信息就按先前存储器传播一步。反馈信号传播慢。)

2 神经情景控制——架构


神经情景控制由三个部分组成,分别是一个处理二维图像s的卷积神经网络、一系列存储器模块以及一个将行为存储器读出到值的网络。

神经情景控制,就是一种能够快速吸收新经验基于此采取行动的深度强化学习代理。

3 DND(可微神经字典)


存储模块 Ma=(Ka,Va), hi is the i-th element of the array Ka.

按照键h执行查找输出为o(存储器价值的加权和):

k(x,y) is a kernel between vectors x and y.

不足之处:占用了更多的磁盘空间存储数据

可微神经字典有两种操作:

4 ε-greedy policy(ε贪心策略)

NEC的流程为:

对于每个action都有一个可微神经字典M_{a}

当从环境中接收到State S_{t}和嵌入层参数h后,使用3中的公式计算得到Q(s_{t},a)

之后使用ε-greedy policy来选取action,选取action后获得reward。

ε-greedy policy为:

即有ε的概率随机选择一个action,而有1-ε的概率选择Q值的最大值对应的action。

5 存储器值更新

在4中,选取action获得reward后的流程为:

将键值对(h,{\color{Red} Q^{(N)}(S_{t},a_{t})})存储进可微神经字典里面(N为N-Step Q估计)。并且将(s_{t},a_{t},Q^{(N)}(s_{t},a_{t}))存储进D(D为replay memory)。reply memory为一个经验存储空间,可以用于离线测试数据。

N-step Q估计的计算方法为:

如键值对已经存在,则将其更新;如果不存在就新增键值对。

6 N-step Q估计推导

Q-learning 中两种常用的衡量value的方式,一种MC方式,一种是TD方式。

7 训练模型


D为replay buffer,存储了经验。可以用于离线训练样本。


训练模型的步骤为:

(1)sampled mini-batches from a replay buffer
(2)calculate predicted Q value by NEC.
(3)minimising L2 loss between the predicted Q value for a given action and the Q(N) estimate

即:

8 实现结果

论文提供的结果:

9 总结

0
Posted in 深度学习&强化学习

Leave a Comment:

电子邮件地址不会被公开。