DQN流程图
2019-05-20 10:44:22 2 举报
DQN流程图
作者其他创作
大纲/内容
初始化状态
是
随机概率小于epsilon
初始化容量为N的重现记忆库
否
从记忆库中随机选取一个小batch
在虚拟环境中执行动作at并观察得到的回报rt和下一时刻状态xt+1
储存四元组------------------到memory中
将rj 赋值给yj
将---------------------------------赋值给yj
开始
j+1步是否终止状态
每C步把Q值网络参数赋值到Q^网络
以公式-------------------用随机梯度下降法优化网络参数
结束
选择由Q表给出的当前状态下的最大值动作
初始化赋有随机参数θ的动作值函数Q
初始化目标值函数Q,参数θ-设置为θ
0 条评论
回复 删除
下一页