强化学习策略梯度框架图
2021-10-18 20:08:59 31 举报
强化学习策略梯度框架图
作者其他创作
大纲/内容
动作
环境
策略梯度
智能体
训练器
state
训练参数
计算所有状态转移的损失函数span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\
优化器(Adam)
策略网络
计算带折扣的总奖励span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\
概率动作选择器
优化策略网络参数
经验源
softmax
输出训练结果
经验
span class=\"equation-text\" contenteditable=\"false\" data-index=\"0\" data-equation=\
logit_v
收藏
0 条评论
下一页