DDPG结构图
2020-11-28 16:38:28 76 举报
DDPG(Deep Deterministic Policy Gradient)是一种基于深度学习和强化学习的算法,用于解决连续动作空间的问题。其结构图主要包括四个部分:Actor网络、Critic网络、目标Actor网络和目标Critic网络。Actor网络负责生成当前状态下的动作策略,Critic网络负责评估当前状态-动作对的价值函数。目标Actor和目标Critic网络则是Actor和Critic网络的软更新版本,用于提高算法的稳定性。在训练过程中,通过不断迭代优化这四个网络的参数,使得智能体能够在环境中学习到最优的策略。
作者其他创作
大纲/内容
μ(st+1)
Target-policy networkargument:θ−
policy networkargument:θ
Q gradient
Critic
μ(st)
Sample data
ω→ω−
gradient
Actor
update θ
evaluation networkargument:ω
Actor Optimizer
Critic Optimizer
update ω
Environment
θ→θ−
Experience replay memory
Policy gradient
Behavior policy
Qω−
Target-evaluation networkargument:ω−
action
0 条评论
下一页