s是最后四帧的原始像素集的堆砌
输出是18个控制杆/按钮位置的Q(s,a)Q(s,a)Q(s,a)值
回报是那一步的得分
网络结构和超参数在所有的游戏中都是固定的
他们的核心论点是不必在每一个游戏单独使用完全不同的网络架构来做完全不同的超参数调参来获得成功...为进行经验重播,循环以下步骤:
(s,a,r,s′)∼D(s,a,r,s')\sim\mathcal{D}(s,a,r,s′)∼D:从数据集中采样一个tuple
计算采样s的目标价值:r+γmaxa′...DQNs: fixed Q-Targets
为了提升稳定性,使用在多次更新中的目标计算固定目标权重
使用一个不同的权重来计算目标更不是更新目标
记参数集w−\text{w}^{-}w−为在目标中使用的权重...游戏得分和预测V(s)V(s)V(s)是相关的
但是在揭示相关动作价值时不是必须的
所以提出了优势函数(Advantage function, Baird 1993)
Aπ(s,a)=Qπ(s,a)−...Identifiability
优势函数(Advantage function)
Aπ(s,a)=Qπ(s,a)−Vπ(s)A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)Aπ(s,a)=