Dyna-Q算法流程图
2022-04-19 10:49:26 11 举报
hhhh
作者其他创作
大纲/内容
执行动作action得到下一状态next_state和奖励reward
state=next_state
根据ɛ-greedy策略选择动作action
i=i+1
False
True
state是否为终止状态
i<episodes
t=t+1
End
Start
初始化输入超参数
t<planing_step
收藏
收藏
0 条评论
回复 删除
下一页