alphago zero
2019-04-30 18:17:17 0 举报
alphago zero 架构图
作者其他创作
大纲/内容
5
Res N
前30步,τ = 1;之后,τ ⇒ 0
进行400盘对局,且τ ⇒ 0
MCTS
1
2
3
Shared parameters
each iteration=25000 games
P_t
v_t
棋盘状态S_t
NNf_θ_i
1600次/0.4s
为了保证数据质量
P_t + 狄利克雷噪声
6
网络结构
17通道:8 黑棋历史信息8 白棋历史信息1 当前执子
input
棋盘状态S_T(终局)
BatchNormalisation
4
Evaluator
NNf_θ_(i+1)
training
SGD
... ...
Self-Play
τ : 波尔兹曼分布
棋盘状态S_t+1
Zwin = 1lose = -1
π_t
0 条评论
回复 删除
下一页