设为首页收藏本页资料仓库证券大数据English Data

AlphaGo

2021-02-26 12:10:05

AlphaGo(“Go”为日文“碁”字发音转写,是围棋的西方名称),直译为阿尔法围棋,亦被音译为阿尔法狗阿法狗阿发狗等,是于2014年开始由英国伦敦Google DeepMind开发的人工智能围棋软件,以及对应的电影纪录片《AlphaGo世纪对决》。

专业术语上来说,AlphaGo的做法是使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法,其中一个是以估值网络来评估大量的选点,而以走棋网络来选择落子。在这种设计下,电脑可以结合树状图的长远推断,又可像人类的大脑一样自发学习进行直觉训练,以提高下棋实力。

历史

资料专题:AlphaGo历史

对战

deepmind名义

2014年起,AlphaGo以英国棋友deepmind的名义开始在弈城围棋网上对弈。deepmind在2014年4月到2015年9月长达1年半的时间里,维持在7D到8D之间,总共下了300多盘棋。2015年9月16日首次升上9D,之后在AlphaGo与樊麾对弈前后的三个月内未进行网络对弈。2015年12月到2016年2月,deepmind一共下了136盘,基本在9D水平。其中和职业棋手的多次对局互有胜负。

黄士杰在AlphaGo与李世石九段比赛前曾否认deepmind是AlphaGo的测试账号,但是在AlphaGo与李世石比赛之后,DeepMind创始人哈萨比斯承认AlphaGo曾经使用deepmind账号进行过测试。

2016年12月16日,在AlphaGo以Master身份登录弈城围棋网之前,黄士杰要求删除deepmind账号。现在deepmind的战绩和棋谱已经无法查阅。

樊麾

2015年10月,分布式版AlphaGo分先以5:0击败了欧洲围棋冠军华裔法籍职业棋手樊麾二段 。这是电脑围棋程序第一次在十九路棋盘且分先的情况下击败职业围棋棋手。新闻发布被推迟到2016年1月27日,和描述算法的论文一起发布,而论文发表在《自然》上。

李世石

2016年3月,AlphaGo挑战世界冠军韩国职业棋手李世石(이세돌)九段。AlphaGo使用谷歌位于美国的云计算服务器,并通过光缆网络连接到韩国。比赛的地点为韩国首尔四季酒店;赛制为五番棋,分别于2016年3月9日、10日、12日、13日和15日进行;规则为中国围棋规则,黑棋贴3又3/4子;用时为每方2小时,3次1分钟读秒。 DeepMind团队在YouTube上全球直播并由美籍职业棋手迈克·雷蒙(Michael Redmond)九段担任英语解说,而中国大陆很多视频网站也采用YouTube的直播信号进行直播,并加上自己的解说。DeepMind团队成员台湾业余6段围棋棋手黄士杰博士代表AlphaGo在棋盘上落子。

比赛获胜者将获得100万美元的奖金。如果AlphaGo获胜,奖金将捐赠给围棋组织和慈善机构,包括联合国儿童基金会。李世石有15万美元的出场费,且每赢一盘棋会再得2万美元的奖金。

2016年3月9日、10日和12日的三局对战均为AlphaGo获胜,而13日的对战则为李世石获胜,15日的最终局则又是AlphaGo获胜。因此对弈结果为AlphaGo 4:1战胜了李世石。这次比赛在网络上引发了人们对此次比赛和人工智能的广泛讨论。

Master名义

资料专题:AlphaGo对战Master名义

中国乌镇围棋峰会

2016年6月4日,在第37届世界业余围棋锦标赛新闻发布会上,国际围棋联盟事务总长杨俊安透露今年内AlphaGo或将挑战中国职业棋手柯洁九段。不过DeepMind创办人杰米斯·哈萨比斯表示目前还没有确定AlphaGo的下一步计划,一旦有明确的安排,会有官方声明。

2016年12月8日,第21届三星车险杯世界围棋大师赛决赛过后,柯洁九段表示:“目前棋手之间的比赛众多,我放弃了与DeepZenGo的对局。我觉得,我现在的状态还不能打败‘阿尔法狗’(AlphaGo),今后需要更加努力。”

2017年4月10日,中国围棋协会、Google和浙江省体育局联合在中国棋院召开新闻发布会,宣布以柯洁为首的中国棋手将和AlphaGo在5月23至27日的中国乌镇围棋峰会上对弈。此次对弈分为三场比赛,首先在5月23、25和27日这三天,柯洁将与AlphaGo下三番棋,用时为每方3小时,5次1分钟读秒。Google DeepMind为本次柯洁与AlphaGo的三局比赛提供了150万美元的胜者奖金,同时柯洁有30万美元的出场费。 此外在5月26日,时越芈昱廷、唐韦星、陈耀烨周睿羊5人将进行团队赛,他们将联合与AlphaGo对弈,用时为每方2小时30分钟,3次1分钟读秒。同日,古力、连笑还将和AlphaGo合作进行人机配对赛,比赛将以棋手与AlphaGo合作的形式进行,用时为每方1小时,1次1分钟读秒。最终,AlphaGo以3:0战胜柯洁,并被中国围棋协会授予职业围棋九段称号,不过聂卫平九段称它的水平“至少20段”。在结束与柯洁的比赛后,Deepmind宣布AlphaGo将“退役”,不再参加任何围棋比赛,但将公开AlphaGo自己与自己互弈的棋谱;而在未来Deepmind将会把AlphaGo的技术运用到医疗等更广泛的领域。

AlphaGo Zero

AlphaGo的团队于2017年10月19日在《自然》杂志上发表了一篇文章,介绍了AlphaGo Zero,这是一个没有用到人类数据的版本,比以前任何击败人类的版本都要强大。 通过跟自己对战,AlphaGo Zero经过3天的学习,以100:0的成绩超越了AlphaGo Lee的实力,21天后达到了AlphaGo Master的水平,并在40天内超过了所有之前的版本。

版本

资料专题:AlphaGo版本

算法

AlphaGo使用蒙特卡洛树搜索(Monte Carlo tree search),借助估值网络(value network)与走棋网络(policy network)这两种深度神经网络,通过估值网络来评估大量选点,并通过走棋网络选择落点。AlphaGo最初通过模仿人类玩家,尝试匹配职业棋手的过往棋局,其数据库中约含3000万步棋着。后来它达到了一定的熟练程度,它开始和自己对弈大量棋局,使用强化学习进一步改善它。围棋无法仅通过寻找最佳棋步来解决;游戏一盘平均约有150步,每一步平均约有200种可选的下法,这意味着有太多需要解决的可能性。

表现评价

围棋职业九段棋手金明完称AlphaGo在与樊麾的对战中,表现得“像人类一样”。棋局裁判托比·曼宁则认为AlphaGo的棋风“保守”。

而李世石在中国乌镇围棋峰会后表示,AlphaGo的发挥非常稳定,表现完美,要想找到战胜它的机会不能过于稳妥,“必须越乱越好,难点越多越好”。另外,柯洁在赛后复盘表示,AlphaGo能够非常有效率地利用场上的棋子,所走的棋子都与场上的棋子有连贯及配合,并对棋子的厚薄有独到的理解,能把一些人类认为厚的棋子予以打击和歼灭。

反应

AlphaGo被誉为人工智能研究的一项标志性进展,在此之前,围棋一直是机器学习领域的难题,甚至被认为是当代技术力所不及的范畴。樊麾战的棋局裁判托比·曼宁和国际围棋联盟的秘书长李夏辰英语Lee Ha-jin都认为将来围棋棋手会借助电脑来提升棋艺,从错误中学习。

台湾大学电机系教授于天立认为,Google能够成功结合深度神经网络、加强式学习和蒙特卡洛树状搜索三种算法,其成果值得喝采。他认为这种技术应该适用于一般连续性决策问题。因为AlphaGo可以在众多可行的决策中,适当分配运算资源来探索此一决策所带来的好处及坏处,并且可从探索中反馈修正错误。不过于也提到,即使AlphaGo所使用的学习模型比较具有一般性,它离真正完全通用的学习模型仍有一段距离。

类似成果

  • Facebook也在开发一套围棋程序,名为Darkforest。这套程序也是基于机器学习和树搜索。在2016年3月举办的第9届UEC杯世界电脑围棋大会中获得亚军。尽管该程序在其他围棋程序面前表现强劲,但截至2016年年初,它尚未击败任何职业棋手。
  • DeepZenGo是日本程序员尾岛阳儿、加藤英树等开发的围棋程序,是在旧版本的Zen围棋软件基础上加入了深度学习技术后开发的新版本,由日本DWANGO公司、东京大学日本棋院提供支持,其基本原理和AlphaGo类似。在第二届围棋电王战中分先以1:2不敌赵治勋九段。在2017年3月18-19日在日本举办的第10届UEC杯世界电脑围棋大会上获得亚军。在2017年3月21-23日的世界最强棋手决定战上以一胜二负的成绩名列第三名。在2017年3月26日的第5届电圣战上分先战胜了日本的一力辽七段。目前在KGS、弈城、腾讯野狐等网络围棋对弈平台上公测。
  • 绝艺(英文名Fine Art)是中国腾讯公司的AI Lab(腾讯人工智能实验室)开发的围棋人工智能。在2017年3月18-19日的第10届UEC杯世界电脑围棋大会上夺得冠军,并在2017年3月26日的第5届电圣战上分先战胜了日本的一力辽七段。目前在腾讯野狐围棋网络对弈平台上公测。
  • CGI 是由国立交通大学CGI(Computer Games and Intelligence)实验室所开发的围棋人工智能。在2017首届世界智能围棋公开赛8月16日于内蒙古鄂尔多斯开战,击败绝艺DeepZenGo,初赛全胜;17日总决赛中夺得亚军。

参见

  • 围棋与数学
  • 深蓝(电脑)
  • 沃森(人工智能程序)
  • 电脑围棋

参考资料

资料专题:AlphaGo参考资料

外部链接