本篇文章4526字,读完约11分钟
正文/腾讯科技部刘香雅珍
直到最后一分钟,20岁的柯杰还在试图赢下对手阿尔法戈的一盘棋。柯杰是中国九段棋的职业棋手,现在他的围棋水平在世界上名列第一。
2017年5月25日下午1点37分,在浙江乌镇,柯杰把三个白子扔在黄色棋盘上,并认输。输掉这场战斗后,要理清沮丧的表情已经太晚了,他立即开始与对手恢复交易。两天前,在同一个场地,他已经输掉了第一盘。根据赛前规定,这次失败意味着他在三场比赛中赢了两场,输掉了整场比赛。

然而,在接下来的新闻发布会上,柯杰在众多记者面前,战胜了阿尔法戈研发公司deepmind的负责人哈萨比斯,赢得了最后一盘棋的权利。根据先猜后答的规则,第一组克杰是黑色,第二组是白色,第三组应该是黑色。业内人士都知道,在科捷举行的白棋比赛的胜率远远高于黑棋。

根据本次围棋峰会的日程安排,26日将举行一场比赛,中国围棋五人组将与阿尔法围棋对垒。据现场解说员和柯杰的朋友库利说,柯杰在这场比赛中提出要当下棋的“人类手臂”,但遭到了组织者的拒绝。显然,人类围棋的“代表人物”柯杰一直试图更好地了解他的对手阿尔法围棋。

在26日举行的阿尔法戈比赛和团体赛中,虽然柯杰没有作为选手出场,但他在第一次失利后并没有去池塘钓鱼或射箭,而是呆在后方研究室关注比赛变化。据阿尔法戈官方团队介绍,下午观看中国五人组对抗阿尔法戈的比赛时,柯杰首先提出了一盘棋按提示出牌的方法,遭到了其他棋手的嘲笑和否定。不久之后,阿尔法戈做了完全相同的事情。

在某种程度上,柯杰是在为人类棋手和他自己而战。2016年3月,阿尔法戈在韩国首尔输给了李世石五场比赛中的第四场。李世石已经成为最后一个打败人工智能阿尔法狼的人。如果柯杰连一盘阿尔法都赢不了,历史将会记住李石士而不是柯杰,就像打败ibm深蓝电脑的国际象棋冠军卡斯帕罗夫和第一个登上月球的阿姆斯特朗一样。

与现场预测相反的两次逆转
围棋手们正在不断调整他们对人工智能的最新代表——阿尔法围棋的认知,从最初的被忽视,到赢了韩国棋手李世石后的震惊,再到称阿尔法围棋为“甲师”。在峰会上,中国棋手急切而兴奋地试图找出阿尔法戈的一些缺陷。

中国围棋队总教练于斌早些时候表示,阿尔法围棋的弱点是去年在第四盘对阵李世石时的“错误失误”。李世石下完第78盘精彩的国际象棋后,阿尔法戈开始出错。他称这一错误为“开放计算的误判”。这种误判也出现在阿尔法戈对李世石的第五局角球计算中。

人们认为阿尔法戈是一台电脑,擅长计算,可能不擅长考虑全局。经过几次战斗,玩家推翻了他们之前的判断,发现阿尔法戈控制全局的能力并不比人类弱,很难利用它。其他人大胆地提出阿尔法戈可能擅长布局,但不擅长计算;其他人建议阿尔法戈应该下国际象棋,多注意形势。就像盲人触摸大象一样,人类棋手不断尝试。

此外,一些棋手推断,人工智能围棋在下棋时往往使事情变得简单,不会造成抢劫,而且可能不擅长“抢劫”。许多抢劫案可能会让电脑感到困惑,互联网上一些赢得ai Go的例子证明,只有不断挑起肉搏战,寻找机会杀死ai Go Dragon,我们才有机会赢。

以上无法证明,因为今年年初没有人类战胜阿尔法戈和阿尔法戈的匿名化身。
这是现场评论员。两次在棋盘上输赢的预期与阿尔法戈出局的结果完全相反,这让现场观众和评论员很难长时间放慢速度。
第一次是25日柯杰和阿尔法戈的第二场比赛。从开始到第一个100手,根据柯杰脸上的表情、少拉头发的动作和棋盘上的情况,棋手库里九段认为柯杰相当乐观,有希望赢。阿尔法戈的父亲黛米·哈萨比斯在11点32分通过社交网络说:“根据阿尔法戈的评估,柯杰现在是完美的。”当时,比赛还在进行中,这条推文的截图立即在现场传播开来。观众很兴奋,期待柯杰代表人类给机器上一课。

当柯杰认输时,这种希望消失了。
第二次是在26日上午,连潇与库利+阿尔法戈搭档。在解说员的指导下,现场的气氛是,时间相对充裕的库利肯定会赢。结果,阿尔法戈站在库利一边主动投降,但库利拒绝了。经过十几手之后,库利意识到大势已去,亲自举起了投降的牌子。

赛后,腾讯科技跟踪了一位现场评论员,问他为什么会出现逆转,以及谁做了坏事,比如阿尔法戈和库利。评论员的思想一直留在比赛中,很难恢复。
阿尔法戈给围棋世界带来的冲击仍在继续,并扩大了它的影响。只是在很多人现场目睹之后,他们感觉更深刻了——很多人都很愚蠢,包括职业棋手和一些专家。

这可能意味着,面对远远超过人类计算能力的人工智能alphago,专业玩家和业余玩家之间的差距可能没有专业玩家和alphago之间的差距大,alphago的存在将导致整个go世界的一些内在结构崩溃。在那之后,任何有机会和阿尔法戈下棋的人都会成长得更快,走得更远。

更强的阿尔法戈
如果柯杰在乌镇峰会上赢得一场比赛,其意义将不同于去年李世石的胜利。
5月24日,在新版本的alphago在第一场战斗中以四分之一的优势击败了柯杰之后,deepmind创始人兼首席执行官Hasabis和alphago团队负责人david silver在人工智能峰会论坛上说“alphago可以模仿人类的直觉。”在过去的一年里,我们想创造出一款完美的alphago,并弥补它的空白色知识。因为它在与李世石的比赛中是有缺陷的。”哈萨比斯说。据报道,升级版的alphago可以让老版本有三个孩子。

哈萨比斯说围棋太复杂了,不可能通过彻底的搜索来解决。对于计算机来说,围棋有两个问题:很难编写一个评估程序来决定谁赢;搜索空的房间太大了。

围棋不像国际象棋那样依靠计算,而是依靠直觉。围棋没有等级概念,所有棋子都是一样的。围棋是一种防守游戏,所以有必要计算未来。为此,阿尔法戈团队使用了两个卷积神经网络:策略网络和评估网络。策略网络的卷积神经网络用于确定下一步的可能位置,而价值网络用于评估赢得当前棋类游戏的概率。

为了应对Go的巨大复杂性,alphago采用了机器学习技术,结合了监督学习和强化学习的优势。通过训练,形成以棋盘上的形势为输入信息的策略网络,并生成所有可行位置的概率分布。

然后,训练一个价值网络来预测自我博弈,并用-1(对手的绝对胜利)到1(1的绝对胜利)的标准来预测所有可行位置的结果。这两个网络非常强大,alphago将这两个网络集成到基于概率的蒙特卡罗树搜索(MCT)中,实现了它的真正优势。最后,新版本的alphago生产了大量的自动下棋游戏,为下一代版本提供了训练数据,这个过程循环往复。

零点创始人、百度前深度学习研究院院长余凯告诉腾讯科技,阿尔法戈此次来到中国,技术进步体现在两个方面。一方面,alphago 2.0算法强调自我游戏和学习人类玩家的历史数据,以提高象棋技能。一般来说,人工智能需要大数据,但阿尔法戈不需要这么多数据,从零开始提高象棋技能。“我认为这是革命性的。”

另一方面,deepmind母公司开发的新架构处理器tpu的使用,使得alphago成为“独立版本”,进一步减少了对处理器数量的需求。
一度,人工智能学术界认为传统硬件很难进一步增强阿尔法围棋。在去年李石狮和阿尔法戈开战之前,创新工场的创始人李开复在智虎上写了一篇文章,说玩围棋的时候要加硬件。从1202个处理器到1920个处理器呈线性增长,阿尔法戈的技术战指数(elo)仅增长了28,并没有随之跃升。

但是,tpu的出现大大提高了计算性能,同时消耗的能量也更少,体积也更小。余凯认为,随着tpu计算能力和硬件能力的提高,搜索将进入一个更大的解决方案空室。"硬件升级也吸引了业界的注意."

国内人工智能芯片研发公司寒武纪预测,阿尔法戈只需要一台个人电脑大小的主机就可以使用人工智能芯片。在乌镇举行的这次围棋峰会上,deepmind公司在这方面取得了进展,尽管它没有完全实现。值得一提的是,寒武纪公司创始人陈在接受腾讯科技采访时表示,他曾与法国专家奥利维耶·特拉姆(olivier temam)一起研究过人工智能芯片,后者后来加入了deepmind的母公司,成为了团队的一员。

在未来,更强大的人工智能芯片的出现将远离人类棋手的水平。
一场到艾帕戈极限的比赛
一方面,人类棋手正在寻找击败阿尔法戈的机会;另一方面,获胜的阿尔法战士被神化了。
在峰会上,腾讯科技发现了一个有趣的现象。作为阿尔法戈的核心人物之一,黄士杰博士就像一只放置棋子的机械臂。在整个比赛中,他通常没有表情,没有厕所,也没有水。打败仗后,人们开始谈论黄的表情,甚至开始探究黄摆棋子的姿势是否代表了他拇指和中指的不同心情。

在这次乌镇围棋峰会之前,柯杰学了几盘棋?没人知道。人们已经注意到,柯杰在与阿尔法戈对弈时,能够熟练运用阿尔法戈的一些棋法。
最常被引用的例子是所谓的“33点”行走。当对手首先占据了明星位置时,他从三条或三条路的位置得分。在alphago之前,棋手使用这种方法,“他们会被老师打屁股,甚至被认为不会下棋”,不止一个棋手说。然而,自从阿尔法戈在去年年底和今年年初大规模运用这一伎俩并赢得游戏后,游戏行业重新评估了“点三三三”的做法。如今,占据一个明星位置是很常见的,三个或三个位置是彼此的弱点,这是充满辩证意义的。

在人与机器的游戏中,人类开始向人工智能学习。
23日,柯杰在第一盘棋中输掉了四分之一,这是一场稳定的比赛。25日,柯杰明显改变了自己的风格。他试图激烈对抗阿尔法戈,制造更多的争端。有一次,在左下角的一场象棋比赛中发生了抢劫,阿尔法戈不能像往常一样简单地“呆在那里”。当圆盘最复杂的时候,有七八条龙互相勒死,圆盘充满了不确定性。

这是柯杰最激动人心的时刻,后来证明这是他最接近胜利的时刻。那时,他用手抚着自己的心。“我想让它跳得慢一点,因为我太紧张了,”柯杰在赛后公布了当时下棋的感觉。

"柯杰在这场比赛中有很多机会."哈比比说:“前100步是迄今为止最平均匹配阿尔法戈。”他说柯杰曾经把阿尔法推到了极限。
不幸的是,“兴奋过后出现了错误”,柯杰后来承认他没能克服人类情感上的弱点。感情丰富的人类和只知道输赢概率的阿尔法戈不是同一个物种。
现在看来,人类可能会挖掘出更多人类没有探索和理解的围棋地方,因为阿尔法戈的棋路和棋谱,如果使用得当,围棋的整体水平将会提高到一个更高的水平。重庆人工智能公司从云科技的创始人周西持有这种观点。他分析了腾讯科技,说阿尔法围棋下了很多人类无法理解的棋,打破了人类围棋的思维定势,让人类棋手反思和学习更多。同样,人们学习抽象理解的能力也超出了阿尔法戈的能力。

阿尔法围棋将来会对所有围棋爱好者开放吗?击败人类最强的棋手柯杰后,这种围棋峰会还会在下一次举行吗?对于腾讯科技的这些问题,阿尔法戈的核心人员之一大卫·西尔弗轻松给出了答案。“alphago只是基于研究,没有进一步的计划。”

然而,有一点是肯定的,当人工智能的围棋水平远远超过人类时,人类将放弃继续挑战机器的幻想,就像今天的人们已经习惯了普通的电子计算器一样,没有人会在计算加法、减法、乘法和除法的速度上与他们竞争。也许,回首当时,这次乌镇围棋峰会可能是人机战争过程中的最后一次峰会。
标题:最后的人机围棋大战 柯洁能否一胜?
地址:http://www.aqh3.com/adeyw/10273.html
