AlphaGo Zero的前世今生

AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人，由谷歌（Google）旗下DeepMind公司开发。

AlphaGo的辉煌战绩

2016年3月，阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战，以4比1的总比分获胜；

2016年末2017年初，该程序在中国棋类网站上以“大师”（Master）为注册账号与中日韩数十位围棋高手进行快棋对决，连续60局无一败绩；

2017年5月，在中国乌镇围棋峰会上，它与排名世界第一的世界围棋冠军柯洁对战，以3比0的总比分获胜。2017年5月27日，在柯洁与阿尔法围棋的人机大战之后，阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。

2017年10月18日，DeepMind团队公布了最强版阿尔法围棋，代号AlphaGo Zero。

AlphaGo Lee是谷歌下属公司Deepmind研发的程序。2016年3年月，AlphaGo Lee在参考大量人类棋谱，并自我对弈约3000万盘、训练数月后，以4:1的成绩击败韩国九段棋手李世石，引发人们关注。

AlphaGo Lee拥有48个TPU（神经网络训练专用芯片）

AlphaGo Master是Deepmind公司上线的AlphaGo教学工具，

2017年10月18日，DeepMind团队公布了最强版阿尔法围棋，代号AlphaGo Zero。

AlphaGo Zero从空白状态学起，仅拥有4个TPU，在无任何人类输入的条件下，它能够迅速自学围棋，经过3天的训练便以100：0的战绩击败了AlphaGo Lee，经过40天的训练便击败了AlphaGo Master。

相比于之前的AlphaGo，AlphaGo Zero主要的改进有：

1、将之前的AlphaGo中的两套网络合并为一套，在之前的AlphaGo中，采用了Actor网络和Critic网络，而在AlphaGo Zero中，这两套网络合二为一，同时输出所有动作的选择概率和状态的价值。

2、AlphaGo Zero中没有使用任何人工经验，也就是没有使用预训练，完全使用强化学习进行自学习。而在之前的AlphaGo中，先使用很多盘人类高手之间的对局作为训练来预训练AlphaGo中的网络，训练完之后再让AlphaGo使用强化学习进一步学习。