首页  流程图  详情

alphago

2019-04-30 18:17:23   0  举报





alpha GO的研发过程和结构

AlphaGO

Deep Learning

Reinforcement Learning

Artificial intelligence

深度学习

作者其他创作

大纲/内容

业余6-段

MCTS

vanilla PG algorithm

RL Policy NN

Alpha Go Fan

SL Policy NN

supervise learning

data set

opponents pool

Value NN

training

NO human features/data; Consider continuously

win = reward 1lose = reward 0

Rollout Policy NN

idiot initial policy

generate

SL Policy NN RL Policy NN

ini

This trajectory of research will lead to considerably stronger programsthan are currently possible.

 收藏

立即使用

alphago version

 收藏

立即使用

seqGAN

 收藏

立即使用

alphago

 收藏

立即使用

alphago zero

hugo_jiaboyang

职业：algorithm engineer

去主页





0 条评论

下一页

为你推荐

查看更多



柯洁围棋生涯大事件

AlphaGo Zero Neural Network