AlphaGo是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,由谷歌(Google)旗下DeepMind公司开发。

AlphaGo的辉煌战绩

2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;

2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;

2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。2017年5月27日,在柯洁与阿尔法围棋的人机大战之后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。

2017年10月18日,DeepMind团队公布了最强版阿尔法围棋,代号AlphaGo Zero。

AlphaGo Lee简介

AlphaGo Lee是谷歌下属公司Deepmind研发的程序。2016年3年月,AlphaGo Lee在参考大量人类棋谱,并自我对弈约3000万盘、训练数月后,以4:1的成绩击败韩国九段棋手李世石,引发人们关注。

AlphaGo Lee拥有48个TPU(神经网络训练专用芯片)

AlphaGo Master简介

AlphaGo Master是Deepmind公司上线的AlphaGo教学工具,

AlphaGo Zero简介

2017年10月18日,DeepMind团队公布了最强版阿尔法围棋,代号AlphaGo Zero。

AlphaGo Zero从空白状态学起,仅拥有4个TPU,在无任何人类输入的条件下,它能够迅速自学围棋,经过3天的训练便以100:0的战绩击败了AlphaGo Lee,经过40天的训练便击败了AlphaGo Master。

相比于之前的AlphaGo,AlphaGo Zero主要的改进有:

1、将之前的AlphaGo中的两套网络合并为一套,在之前的AlphaGo中,采用了Actor网络和Critic网络,而在AlphaGo Zero中,这两套网络合二为一,同时输出所有动作的选择概率和状态的价值。

2、AlphaGo Zero中没有使用任何人工经验,也就是没有使用预训练,完全使用强化学习进行自学习。而在之前的AlphaGo中,先使用很多盘人类高手之间的对局作为训练来预训练AlphaGo中的网络,训练完之后再让AlphaGo使用强化学习进一步学习。