登录免费注册

首页  流程图  详情

alphago zero

2019-04-30 18:17:17   0  举报





alphago zero 架构图

Deep Learning

Reinforcement Learning

Artificial intelligence

AlphaGO

作者其他创作

大纲/内容

5

Res N

前30步，τ = 1；之后，τ ⇒ 0

进行400盘对局，且τ ⇒ 0

MCTS

1

2

3

Shared parameters

each iteration=25000 games

P_t

v_t

棋盘状态S_t

NNf_θ_i

1600次/0.4s

为了保证数据质量

P_t + 狄利克雷噪声

6

网络结构

17通道：8 黑棋历史信息8 白棋历史信息1 当前执子

input

棋盘状态S_T（终局）

BatchNormalisation

4

Evaluator

NNf_θ_(i+1)

training

SGD

... ...

Self-Play

τ : 波尔兹曼分布

棋盘状态S_t+1

Zwin = 1lose = -1

π_t

alphago version

 收藏

立即使用

alphago version

 收藏

立即使用

 收藏

立即使用

 收藏

立即使用

职业：algorithm engineer













评论

0 条评论

下一页

为你推荐

查看更多



go框架对比介绍

alphago version

alphago version

零拷贝Zero Copy

零拷贝和页缓存

AlphaGo Zero Neural Network

AlphaGo Zero Neural Network

go-zero 到k8s 项目实践

go-zero 到k8s 项目实践

Zero-shot Learning测试用例

Zero-shot Learning测试用例