汉山特稿：面对人工智能，人类应敬畏不应恐惧

夺标 · 发表于 2016-4-5 10:14:07

2016-04-02 简 [url=]轻科技[/url]

边听边看效果更佳：

[url=]ApproachingEx Machina - Warten / Waiting

[/url]

打败李世石以后，人工智能AlphaGo准备和世界顶尖的选手玩两局知名网络游戏《星际争霸 2》，其制作方暴雪公司已经在3月27日接受了AlphaGo的挑战。

舆论氛围和人机围棋大战前夕的情况如出一辙，暴雪CEO预测AlphaGo不可能获胜，他认为“《星际争霸》是一款需要极高战略思维的游戏，而在这方面AlphaGo尚不能媲美人类。”

暴雪CEO的发言代表着很大一部分人类的两个立场：1.机器人尚不如我。2.我现在还瞧不起机器人。

AlphaGo打败李世石以后，众多专业棋手拍案而起，誓与那狗血战到底，扫清李九段失利给人类尊严抹上的阴影。

棋手们焦头烂额，源自对非人类物种的蔑视。“非人类物种不可能战胜人类！”这是我们未曾注意，但深刻在每个人类心底的潜台词。

大自然的宠儿，宇宙最高智慧生命体，人类能思考世界，能制造工具，还能主宰一切其他生物的生死。人类怕它的思想太深邃，显得人类像傻子。人类怕它的手艺太精湛，让人类没事可做。人类怕它主宰人类的生死，让人类灭种。

人类怕变成牲畜。怕变得毫无价值。围棋大战的失利让人类焦虑，因为人类变聪明得如此慢，而它变聪明得如此快。AlphaGo坐在围棋世界排名第二的位置上，人脑几乎再无可能战胜它。现在它又开疆扩土到别的领域，所到之处人类哀叹声无数。

哪怕它输了，也只是暂时的。所有可量化的事情，它终将超越人类。它获得自我意识和情感之时，就是人类沦为亚种之时。

而人类知道，不应该阻止一个更完美物种的诞生。

夺标 · 发表于 2016-4-5 11:35:08

逆向致幻技术

为了更好地审视神经网络的内部运作，研究者们决定将整个过程颠倒过来，做一个逆向研究。他们要求机器自由发挥，解释并强化输入的图像样本，以得出某种诠释。通过这个研究，他们希望能了解神经网络在培训学习中究竟学会了哪些特征属性，还有哪些特征没有学会。

接下来发生的事情令人震惊：研究者发现，这些神经网络不但能够识别图像，它们也拥有足够的信息来生成图像，从而产生这些计算思维的惊人呈现。例如，当研究团队以诸如蚂蚁、香蕉、海星等等普通物体为题进行查询，神经网络会生成下面这些相当特立独行的图像。

将图像输入到低层神经元会生成比较柔和婉转的呈现形式，因为它们的识别重心是图形边缘及角落。研究团队表示：“每层神经元处理不同抽象程度的图形特征，因此，如果我们选择强化不同层次的神经元，生成图像特征之复杂性也会有所不同。”

继续深入下去，将图像输入到更抽象的高层神经元之后，尤其是当研究团队要求神经网络“强化所有你所感知到的东西！”的时候，更细致而出人意料的结果便浮现出来。

这样做创造了一个反馈回路：如果一朵云彩看上去有点像只鸟，神经网络会让它变得更像鸟。那么，在接下来的一轮里，神经网络会更有把握辨识出这只鸟来。如此循环往复，一只细节完美的鸟儿就这样从虚空之中冒将出来。

研究团队把这种逆向致幻技术称为“盗梦”——用电影“盗梦空间”来表达深度神经网络那卓有成效的“计算视觉架构”。使用这种技术，神经网络创造出了意想不到的结果：树木化为晶体结构，树叶变成魔幻的鸟虫。从根本上来说：这些由反馈回路促成的“过度诠释”，是神经网络过去学到的抽象而碎片化的图像特征之融合。更令人瞩目的是，从一张最初空空如也，只有些随机波形的图像开始，通过在依次生成的图像上反复使用算法，神经网络可以最终创造出难以置信、丰富多彩的景观。

对这种数据驱动的大面积错视的研究，谷歌这类公司占有独一无二的主导地位。训练大型神经网络需要大量数据。如果说谁能获取超量的数据，同时又拥有无与伦比的计算力，那也只有谷歌才能做到了。这些发人深省的图像看上去奇妙无比，然而，对于人们在此领域的疑问，它们并没有能提供完美的回答，相反却提出了更多问题。问题之一就是：我们可以看出深度神经网络很容易被人误导。反过来说：这些复杂的图像也的确突显了新兴神经网络之未知性。更深一点来说，这一现象让我们认识到，对视觉的认知复杂性，以及人类大脑及创造过程本身，我们都还所知甚少。

下一个问题将是如何进一步开发这些深度神经网络，在视觉识别和自然语言处理等人工认知能力的基础上，使用更多的无监督学习以及更自动化的方法来处理原始数据。再往远看，我们将进入令人大开眼界的量子机器学习领域。在这里，量子神经网络可以同时处理0和1这两个状态，从而使他们能够真正“看到”大局。

研究者认为，梦是一种无风险的学习方式，人脑的这种自适应机制帮助推动了人类向更复杂的层次进化。那么，对于机器是否也是如此呢？现在还很难有定论。我们可以肯定的是，这些图像所带来的现实令人兴奋，同时也令人不安。机器智能的可能缺陷意味着我们对它日益加深的依赖无疑会导致不可预见的后果。一些专家警告，也许有一天，我们会陷入一个智能杀手机器横行的战争。但是，在目前此刻，这些图像本身仍然充满着光怪陆离的魅力。你可以从GitHub下载DeepDream代码，自己生成机器盗梦图像，或着，你也可以上传图像到Psychic VR Lab，或在推特上用#deepdream词条查询追踪。在谷歌研究博客网页你可以看到更多关于这方面的消息。

夺标 · 发表于 2016-4-5 11:34:47

深度学习神经网络的迷幻之梦译者：myia 原作者：KIMBERLEY MOK
发表时间：2016-03-14浏览量：1519评论数：2挑错数：0

如果机器会做梦，那会是一种什么样的情景呢？这是科幻作家和人工智能专家之流一直在探讨的问题。而今，得益于谷歌工程师们的努力，我们对电脑白日梦的情境终于能够一瞥端倪。那些迷幻而扭曲的画面，最近正在网上盛传。生成这些迷幻图像的程序叫做“深梦”（Deep Dream），谷歌日前已公开了其源程序代码。人们开始使用这个程序来处理平凡普通的照片。转换后的结果，取决于不同的视角，有些人认为是充满迷幻的艺术品，而另一些人则认为是扭曲可怖的图像。

人工神经网络的深层梦想

这些光怪陆离的视觉效果来自谷歌人工神经网络（ANN）的图像识别技术。神经网络实际上是一系列基于统计的学习模型，它使用看上去极为简单的算法来模拟生物进化的过程。研究人员训练这些神经网络学习的方法，是给它提供数百万张图像样本，同时逐步调整矫正网络参数，直到得出合意的图像归类。

你可以把这个网络想像成一叠过滤信息的筛子：神经网络通常包括10到30层紧密相联的人工神经元。这些神经元分别被指定为“输入层”、“输出层”、和中间的“隐层”。（在这里，“深度学习神经网络”指的是包含超过五层神经元的系统。）低层输入层的任务是解释图像的基本特征属性，比如图形边缘或角落——这和人类婴儿辨识熟悉面容的隐约轮廓相类。中间层在这些基本特征属性的基础上进一步寻找整体形态。最后，输出层将这些形态整合汇总在一起，形成一个最终诠释，这就是神经元系统辨识图像样本的“答卷”：它究竟描绘的是一所房子、一个动物、还是一个水果。

由于这些系统的非线性属性，研究人员迄今仍然无法回答，到底神经网络经历了一个怎样的过程才能产生出这种梦幻般的输出结果。不过现在已经有些工具能帮助我们破译这个谜团。谷歌在其研发博客中写到：“神经网络研究的挑战之一就是去了解每层神经元的准确功能。我们知道，经过机器学习训练之后，每层神经元能够逐步提取越来越高阶的图像特征，直到最后一层对图像表现的是什么作出最终判断。”

夺标 · 发表于 2016-4-5 11:34:19

这场胜利对于人工智能（AI）意味着什么？人工智能领域专家，诺尔·沙基博士提出这一疑问。

人工智能一开始就涉猎棋类游戏，但并没太大建树，因为该领域只属于足智多谋的人类。计算机编程只能应用于有着固定规则的封闭系统，而非现实世界。

纵然批判声不断，阿瑟·塞缪尔于1959年编制的跳棋程序仍是一项了不起的成就。和AlphaGo类似，该跳棋程序也是通过一遍又一遍地和自己下棋来学习技能，只不过速度要慢得多。

然后目标发生了变化。评论家说象棋超出了计算机编程的能力范围，因为象棋需要人们发挥直觉力和创造力。但是，在七十年代，水平较高的业余挑战者被迫收回前言，这时更高的目标得以设立。

评论家说未来计算机也许能击败专业选手，但决不可能战胜象棋大师。所以，当IBM设计的超级计算机“深蓝”（Deep Blue）击败世界象棋冠军——加里·卡斯帕罗夫时，全世界都震惊了。但是“深蓝”的类人智能不是人工智能之父们想要的那种。它获胜靠的是蛮力，几秒内对成百上千万的下棋招数进行搜索。而人类的记忆容量是有限的，要想获胜，必须要对棋型有着绝妙的理解和认识，运用创新策略。

因此，评论家又说计算机战胜围棋大师是不可能的。即便现在的计算机内存巨大，处理器运行速度也快到令人难以想象（自“深蓝”以来，速度已经不知八次翻倍），这一古老的博弈也不会向“蛮力”俯首称臣。围棋的计算体量要比象棋大得多，甚至比宇宙中已知的原子数量还要多（译者注，约为10^80）。围棋就是人工智能在棋类游戏领域的圣杯。

今年年初，谷歌宣布他们设计的程序打败了一名实力不俗的业余围棋选手，这令整个人工智能界惊讶得合不拢嘴；得知谷歌“深思”研发的天才计算机以5：0战胜了欧洲围棋冠军的那一天，他们更是震惊得下巴都掉在了地上。

为了战胜世界顶级围棋选手，“深思”巧妙组合多种策略，以缩小算法搜索范围。“深思”团队以3000万种专业级棋步作为入门级训练，然后这一“好学”的计算机便和自己下了上千万局棋。AlphaGo做到了——圣杯已收入囊中，无法再设定更高的目标了。

这是否意味着，如今人工智能技术已比人类聪明？未来，渺小的人类将难逃灭顶之灾？当然不是。AlphaGo不在乎输赢，它甚至不在乎自己是否参与了这场对弈，当然也不会赛后沏杯茶给你。这场胜利是否意味着人工智能将在不久的将来抢了你的工作？也许这才是你应该担忧的。

围棋是什么？

人们认为，围棋起源于几千年前的中国。

对弈双方各执一色棋子（分黑白两色），围住对方棋子者占上风。

夺标 · 发表于 2016-4-5 11:33:58

人工智能的时代已经到来？AlphaGo大败李世石译者：ChristinaHunt 原作者：BBC Technology
发表时间：2016-03-13浏览量：1806评论数：32挑错数：0
计算机程序对弈围棋大师李世石实现三连胜，成为人工智能界划时代的大事件。

谷歌AlphaGo（阿尔法围棋）与李世石之间的人机大战在韩国首尔上演。

赛前，李世石自信满满，认定自己定会赢得这场对弈。

对计算机而言，围棋（中国国棋）远比象棋复杂精妙的多，是项难解的挑战。

“AlphaGo全程发挥稳定，李就没能做到，作为人类，他的脑力承受不了，”李的前师父，权甲龙对法新社如是说道。

李世石是公认的冠军围棋手，在其漫长的职业生涯中，屡次问鼎职业联赛，成绩骄人。

围棋的游戏规则是对弈双方各执一色棋子，在19*19的网格上交替下子，以围得点数论胜负。

第一局，AlphaGo以微小优势获胜——李世石先前一直处于领先地位，但在对弈接近尾声时，AlphaGo明显处于领先优势，成功扭转局面。

第二局仍是AlphaGo获胜，李世石表示他“无言以对”，还说AlphaGo展现出的棋艺近乎完美。

YouTube在线直播第三局对弈，两名提供实况报道的业内人士表示这一局变幻莫测，他们都跟不上。

他们评论说李世石已经发挥出了他的最佳水平，可AlphaGo还是赢得“不费吹灰之力”。

AlphaGo程序由英国计算机公司深思（Deep Mind）研发出品，该公司于2014年被谷歌收购。

通过研习前人棋谱，AlphaGo提炼出了棋型特征。并且，据深思首席执行官戴密斯·哈萨比斯所言，AlphaGo花了大量时间练习。

“它千百万次与自己对弈，聚沙成塔，集腋成裘——从错误中吸取教训，”赛前，他对BBC如是说道。

如此良性循环往复，其水平持续提高，如今这台超级计算机与去年击败欧洲围棋冠军相比，实力更强。

夺标 · 发表于 2016-4-5 11:33:29

为什么这次人类与电脑的围棋比赛并不重要译者：FreemanZ 原作者：Dana Mackenzie

在首尔的四季酒店，计算机和顶级人类选手将在中国的棋类游戏——围棋上一绝胜负。

是人类会为获胜而欢呼，还是计算机会取得最后的胜利？

下周，这样的故事将会在首尔的四季酒店上演，计算机和顶级人类选手将在中国的棋类游戏——围棋上一绝胜负。人类选手是韩国33岁的李世石，他已经称霸围棋界十多年了。他的对手则是2岁的AlphaGo，谷歌子公司DeepMind开发的一个基于神经网络的计算机程序。获胜者将获得100万美元的奖励，这么高的奖金是围棋历史上前所未有的。

然而，真实的故事并不会像这样你死活我。只要看看计算机下棋程序的成长过程，你就会明白。（见下方时间表）

虽然世界国际象棋冠军Garry Kasparov在1996年击败了IBM的计算机程序“深蓝（Deep Blue）”的早期版本，但是在1997年，他在六场比赛中还是输给了“深蓝”。尽管人类输了，媒体仍然将这次比赛报道成是人类的胜利，说“计算机还是不会写十四行诗，或抱抱婴儿”。“除此以外，其它事情也都是对的。”《纽约时报》的专栏作家Frank Rich写道。他认为，人与计算机之间真正的故事，在于计算机通过成千上万的方式改变人们的生活。人们面临的挑战不是打败它们，而是找到使用它们的正确方式。

在下棋这件事上，Rich说得是对的：“深蓝”从来就没玩过另外的游戏。几年之后，当人人都可以挑战比世界冠军都强大的计算机程序时，真正的革新就到来了。这项发展改变了棋类游戏。现在，每一个棋类比赛选手都使用计算机程序来学习下棋和准备比赛。有些玩家把它当作拐杖，忘记了独立思考；而另一些人则用它来激发自己的创意。就像其它工具一样，下棋程序是把双刃剑。

它不好的一面就是：2010年，法国国际象棋大师Sebastien Feller被FIDE（国际象棋联合会）停赛，因为他用自己的电脑获取计算机程序下棋的走法。在顶级赛事中，选手们要通过像机场安检一样严格的安检。另一方面，曾经使用明信片、现在用网络服务器的国际象棋通讯赛已经同意参赛选手们使用电脑或“象棋引擎”。使用“象棋引擎”就像是人在驾驶一辆高性能的汽车。

与国际象棋相比，人工智能更难掌握围棋的玩法。围棋的规则比象棋更简单：两位玩家轮流把黑子和白子放置在19乘19的棋盘上，要把对方的棋子都包围起来。但是，它有比象棋更大的棋盘，棋子的摆放位置组合也几乎是天文数字，所以穷举法不适用于围棋。“深蓝”能够用“蛮力”来算出可能的走法，但是围棋却不能用这种方法来玩。顶级职业选手是用对于棋子包围圈形状的感觉和棋盘各部分之间的关系来进行下棋的。“连我们自己都难以表达我们是如何下围棋的，更不用说要怎么教电脑来下围棋了。”第一个到达围棋高段为的西方选手Michael Redmond说。

2005年，围棋计算机程序跃进了一大步，程序员使用了“蒙特卡罗搜索树”方法。为了估计要不要在某一位置落子，计算机程序会用那个位置来随机下几千场棋，不管这一步下得好不好。这种使用“蛮力”来随机穷举的电脑程序可以比得上厉害的业余围棋选手。“但是，它仍然赢不了低段的专业围棋选手。”Redmond说。

新的一项突破是直到今年才被大多围棋玩家所了解。谷歌和Facebook的两支团队将深层神经网络运用到围棋电脑程序中。从本质上说，这使计算机会从大师们的棋局中学习下棋的方法。在去年十月的一场比赛中，谷歌的AlphaGo以 5–0击败了欧洲冠军樊麾。这次比赛时秘密进行的，这样谷歌公司就能把它的研究结果发表在《自然》上。

这次计算机的胜利震动了整个围棋界。“当我看到棋局时，我感到十分惊讶，因为电脑会像人类一样下棋。”东京的国际围棋联盟秘书长Hajin Lee说。“如果不告诉我的话，我也分辨不出来哪边是电脑，哪边是人。”

然后，人们就要接受这个比赛结果。“对我来说，这是一种解脱。”纽约市纽约大学游戏中心的主任、热情的业余围棋玩家Frank Lantz说，“围棋一直都是人们心中能够对抗计算机程序的游戏。有这么一句话：‘确实，电脑可以下象棋，但它们不会玩围棋’。我不认为这是对的。人们终将要放弃这样的想法：‘围棋有一种魔力，只有人类可以解读’。”

现在，在李世石比赛前，没有人知道会发生什么结果。专家们检查了AlphaGo与樊麾的比赛，发现了AlphaGo程序中的一些错误，尽管AlphaGo还是赢得了比赛。根据www.goratings.org的资料，樊麾排名370名，而李世石排名第4名，所以他们之间的水平有巨大的差距。李世石十分自信，他在记者会上说，他预计会以5–0或4–1获胜。“对我来说，最重要的是我一局都不能输。”

但是，在过去的5个月里，AlphaGo肯定已经也有提高；问题是它水平提高了多少。“我的感觉是，除非他们有很高的自信，否则制造AlphaGo的人不会同意参与这次比赛，”Lantz说。他和一位同事赌100美元AlphaGo会赢，他说：“我觉得我的胜率比较高。”

但是和国际象棋一样，在更广泛的意义上，比赛的结果并不重要。计算机程序迟早会超过人类，而且可能很快就会超过。在它们超过人类之后，如谷歌和Facebook这样的大公司可能会转移去挑战到其他的问题，如IBM那样。他们参加了一盘豪赌，而他们的赌注就在地球上每个人的口袋里。“他们想开发出像Siri一样有用的个人电脑助手。”神经网络专家、帕西非卡人工实验室（Ersatz Labs）的首席执行官Dave Sullivan说。“这就会改变世界的格局。”在这个过程中，让计算机程序学会下围棋是一个微小却胆大的开端，就像在走了300布棋的棋局中的第103步棋一样。

在游戏中，人类“例外论”也许在打扑克中有一点用。在一些版本的双手扑克游戏中，电脑已经能算出几乎完美的策略了。但是，优秀的人类扑克玩家还有一个技能：发现对方的弱点，扩大对方离“完美策略”的偏差。计算机程序还不能做到这一点，但本质上，这应该是一种深层神经网络在未来能够掌握的方法——另一个人们引以为傲的优势崩塌了。

在谷歌这家世界500强的公司完成他们的围棋计划后，围棋玩家们还是需要承认这个事实：计算机程序终究会慢慢超越人类。这必然会对这古典而优雅的围棋游戏带来一些改变。可能未来的围棋大师是跟着电脑学下棋的；可能有些围棋玩家会发明出更大的棋盘来击败电脑；可能有人会和计算机程序组队一起下棋；可能有些人下围棋不再是为了胜利，而是回归到它起源时的状态——艺术，就像书法或是音乐一样。

无论如何，计算机都是人类制造的。就像Hajin Lee所说的一样：“即使人类输掉了比赛，我们还是能够使用这个程序来帮助人类自身。”

夺标 · 发表于 2016-4-5 11:22:07

机器正在自学应对真实世界之法译者：镜飞原作者：Aviva Rutkin

机器智能没在挫败人类围棋大师的时候，在通过捡日常用品和玩儿童玩具自学世界的运转规律。

文：Aviva Rutkin

译：镜飞

原文发表于2016年3月16日

图源：Fabrice Coffrini/AFP/Getty

机器再次获胜。谷歌的阿尔法围棋软件已经在五番棋中以4比1战胜人类围棋大师李世石。尽管李世石赢回了第四局，但对很多人来说，正在发生的事实很严酷。李世石在惊愕中承认：“我没有意识到阿尔法围棋可以下得如此完美。”

决定性的一战吸引了全世界的目光——仅在中国就有3000万人观看了比赛。就像深蓝战胜国际象棋大师加里·卡斯帕罗夫，以及沃森在《危险边缘》答题一样（译注：人工智能程序沃森Watson在2011年参加美国电视智力竞赛节目《危险边缘》并最终获胜。），这标志着我们与机器的关系的一个里程碑。

但这也是未来发展的一个标志。阿尔法围棋背后的机器学习技术正在很多领域产生突破。神经网络是软件模型，由多层内部相连的人工神经元构建而成，人工神经元可以学习并根据它们处理的数据而改变。从你手机上的面部识别软件，到像苹果Siri一样的虚拟助手，以及疾病诊断软件，都由它们驱动着。

现在，软件正在学习与物理世界互动——这是一件我们人类仍然更擅长的事。当DeepMind为那场重要比赛作准备时，谷歌的另一个团队取得了一个小一些的胜利。

在上周公开的一个视频中，机器爪弯曲并拾取例如剪子或海绵之类的日常用品。机器将这个任务重复了成百上千次，自学基本的手眼协调。从尝试和错误中，机器人拾取得越来越好，直到它们可以行云流水地到达物品并把它捡起来。

“我5岁的小孩比阿尔法围棋更聪明。任何孩子都更有能力处理新情况。”

也是在上周，Facebook揭秘了他们的一个AI是如何通过观看堆叠的木头积木倒塌的视频来自己认识这个世界的。他们的目的是让AI像人类婴儿一样获得关于物理物体的直觉，而不是根据写成的规则来做判断。

让机器用儿童的直觉来处理真实世界，是AI研究者面临的最大挑战之一。精通复杂游戏让人叹为观止，但我们更应该看看AI们玩儿童玩具。尽管围棋很复杂，围棋中的挑战是由清晰的规则定义了的。真实世界极少如此。

“坦白说，我5岁的小孩比阿尔法围棋聪明得多，”华盛顿州西雅图市人工智能艾伦研究院的CEO Oren Etzioni说，“任何一个人类小孩都远远更复杂，更灵活，更有能力处理新情况，并更有能力利用常识。”

模仿人类

但是机器爪试验显示用于精通围棋的机器学习技术也可以教机器手眼协调。所以人们在试图让AI更像我们人类——通过它们的成功和失败的反馈来让它们更灵活。在两个月的过程中，机器爪团队录制了14个机械手尝试拾取物体的过程。这八十多万次“抓取尝试”被反馈给一个神经网络。

现在，升级了的算法驱动机器人的选择，研究人员把他们的机器放进测试中。他们把桶装满各种物体，包括一些对于两指握爪可能很难捡起的物体——即时贴、重的订书器，以及柔软或者体积小的东西。

总的来说，少于20%的情况中机器人没能捡起东西。并且，它们发展出了被研发团队描述为“不寻常的和非明显的抓取策略”——他们学习怎样估计物体的大小，并且根据大小区别对待它们。例如，一个机器人可能通常在物体两边各放一个手指来抓取一个坚硬的物体。但对于纸巾这样柔软的物体，它会把一个手指放在侧边，另一个手指放在中间。

Facebook 团队用了一个类似的方法。他们用18万个计算机仿真的彩色积木随机构型堆叠模型，以及真实积木塔静止或倒塌的视频来训练算法。最终，最佳的神经网络能准确预测仿真积木倒塌的概率达到89%。这个AI在真实积木上表现没有那么好，最好的系统只能达到69%的准确率。它在虚拟积木上表现得比人类的猜测准确，在预测真实积木倒塌上与人类水平持平。

类似的研究开始脱离监督式学习，监督式学习是训练机器的一种标准方法，在训练中要给机器正确答案。与监督式学习相反，这些研究中学习变成了算法的责任。它给出一个猜测，看看是不是成功了，没成功就再试一次。阿尔法围棋也部分地使用这种“尝试-犯错”的方法，帮助它使出难住李世石的棋招。

“目前，我们教计算机时需要手把手地教它，要给它很多例子，”加拿大蒙特利尔大学的 Yoshua Bengio说，“但我们知道人类能够从大量数据中学习，这其中没有人告诉人类什么应该是正确的。”

AI要想赶上小孩子还必须精通的一件事，就是要不止能把一项任务做好，而要做好很多项任务。这样的智能很可能要几十年后才能实现，Etzioni说。“AI领域做的是很局限的任务，限定的非常死的事情，不管是语音识别还是围棋还是其它什么的，”他说，“但是人类的灵活性，从一个任务转移到另一个任务的能力，仍然无处可寻。”

最终，最大的收益可能来自于与AI一同工作。在十月份负于阿尔法围棋之后，欧洲围棋冠军樊麾成为了阿尔法围棋的陪练。他帮助AI提高到可以轻易击败李世石。但这段经历同样让樊麾成为了更厉害的棋手。十月份，樊麾是世界500多名。与AI对战几个月后，他现在已经排名在300名左右了。

夺标 · 发表于 2016-4-5 10:20:29

但是AlphaGo的搜索是不是就天衣无缝了？并不是。来看第二局这个局面：

AlphaGo黑41手尖冲，43手接出作战。最后下成这样，这是三局中AlphaGo被众多职业棋手一致认为最明显的一次亏损失误，如果它还有失误的话。我们猜想它为什么会失误。关键在于，这里是一个开放式的接触战，棋块会发展到很远的地方去。AlphaGo的小窗口封闭穷举搜索就不管用了，就只有靠MCTS在那概率性地试。这里分支很多，甚至有一个复杂的到达右上角的回头征。我认为AlphaGo这里就失去了可靠的技术手段，终于在这个人类一目了然的局面中迷失了。它是没有概念推理的，不知道什么叫“凭空生出一块孤棋”。也不确定人会在50位断然反击，可能花了大量时间在算人妥协的美好局面。

再来看AlphaGo一个明确的亏损。第一局白AlphaGo第136手吃掉三子。这里是一个封闭局面，是可以完全算清楚的。可以绝对地证明，136手吃在T15更好，这里白亏了一目。但是为什么AlphaGo下错了？因为它没有“亏一目”的这种概念。只有最终模拟收完数子，白是179还是180这种概念，它根本搞不清楚差的一个子，是因为哪一手下得不同产生的，反正都是胜，它不在乎胜多少。除非是176与177子的区别，一个胜一个负，那136就在胜率上劣于T15了，它可能就改下T15了。

这个局面白已经胜定了所以无所谓。但是我们可以推想，如果在对局早期，局部发生了白要吃子的选择，一种是A位吃，一种是B位吃，有目数差别，选哪种吃法？这就说不清了。AlphaGo的小窗口穷举，是为了保证对杀的胜利，不杀就输了。但是都能吃的情况下，这种一两目的区别，它还真不好编程说明。说不定就会下错亏目了。

经过以上的分析，AlphaGo相对人类的优势和潜在缺陷就清楚多了。它的大局观天生比人强得多，因为有强大的计算资源保证模拟的终局数量足够，策略网络和价值网络剪枝又保证了模拟的质量。它在封闭局部的对杀会用一个小窗口去穷举，绝对不会输，还能找到妙手。它布局好，中盘战斗控制力强，都是大局观好的表现。它中后盘收束差不多都是封闭局面了，基本是穷举了，算目非常精确，几百万次模拟下来什么都算清了。想要收官中捞点目回去不是问题，它胜了就行；但是想收官逆转是不可能的，影响了胜率它立刻就穷举把你堵回去。

但是封闭式局面的小手段中，AlphaGo可能存在不精确亏目的可能性，不知道怎么推理。在开放式接触战中，如果战斗会搞到很远去，它也可能手数太多算不清，露出破绽。但不会是崩溃性的破绽，要崩溃了它就肯定能知道这里亏了，不崩吃点暗亏它就可能糊涂着。目前来看，就是这么两个小毛病。

另外还有打劫的问题。如果是终局打劫，那是没有用的，它就穷举了，你没有办法。如果是在开局或者中局封闭式局部有了劫争，由于要找劫，等于强制变成了杀到全盘的开放度最大的开放式局面了。这是AlphaGo不喜欢的，它的小窗口搜索就用不上了。而用MCTS搜索，打劫步数过多，就会超过它的叶子节点扩展深度，比如20步就不行了，必须“快速走子”收完了。这时它就胡乱终局了，不知道如何处理劫争，模拟质量迅速下降。所以，这三局中，AlphaGo都显得“不喜欢打劫”。但是，这不是说它不会打劫，真要逼得它不打劫必输了，那它也就被MCTS逼得去打了。如果劫争发生在早中期手数很多，在打劫过程中它就可能发生失误。

当然这只是一个猜想。它利用强大的大局观与局部手段，可以做到“我不喜欢打劫，打劫的变化我绕过”，想吃就给你，我到别的地方捞回来。当然如果对手足够强大，是可以逼得它走上打劫的道路的，它就只好打了，说不定对手就有机会了。第三局李世石就逼得它打起了劫，但是变化简单它不怕，只用本身劫就打爆了对手。

如果要战胜AlphaGo，根据本文的分析，应该用这样的策略：大局观要顶得住，不能早早被它控制住了。局部手段小心，不要中招。顶住以后，在开放式的接触战中等它自己犯昏。或者在局部定型中看它自己亏目。在接触战中，要利用它“不喜欢打劫”的特性，利用一些劫争的分枝虚张声势逼它让步，但又不能太过分把它逼入对人类不利的劫争中。这么看，这个难度还真挺高的。但也不是不可想象了，柯洁大局观好，比较合适。李世石大局观差，不是好的人类代表。

本文进行了大胆的猜测，可能是一家之言。但我也是有根据的，并不是狂想。如果这篇文章能帮助人类消除对AlphaGo的恐惧，那就起到了作用。

作者简介：笔名陈经，香港科技大学计算机科学硕士，中国科学技术大学科技与战略风云学会研究员，棋力新浪围棋6D。21世纪初开始有独特原创性的经济研究。2003年的《经济版图中的发展中国家》预言中国将不断产业升级，挑战发达国家。2006年著有《中国的“官办经济”》。

致谢：感谢中国科学技术大学科技与战略风云学会会长袁岚峰博士（@中科大胡不归）与其他会员的宝贵意见。

夺标 · 发表于 2016-4-5 10:19:50

从技术上来说，所谓的局势评分，就是程序的MCTS模块，对模拟的合理局面的胜率估计。连AlphaGo也是这样做的，所以几个程序才能对同样一个局面聊到一块去。所有程序的MCTS，都是从当前局面，选择一些分支节点搜索，一直分支下去到某层的“叶子”节点，比如深入20步。

这个分支策略，AlphaGo和Darkforest用的是“策略网络”提供的选点，选概率大的先试，又鼓励没试过的走走。到了叶子节点后，就改用一个“快速走子策略”一直下完，不分支了，你一步我一步往下推进，比如再下200步下完数子定出胜负。这个走子策略必须是快速的，谷歌论文中说AlphaGo的快速走子策略比策略网络快1000倍。如果用策略网络来走子，那就没有时间下完了，和李世石对局时的2小时会远远不够用。下完以后，将结果一路返回，作一些标记。最后统计所有合理的最终局面，看双方胜利的各占多少，就有一个胜率报出来，作为局势的评分。一般到80%这类的胜率就没意义了，必胜了，机器看自己低于20%就中盘认输了。

AlphaGo的创新是有价值网络，评估叶子节点时不是只看下完的结果，而是一半一半，也考虑价值网络直接对叶子节点预测的胜负结果。走子选择就简单了，选获胜概率最大的那个分支。机器也会随机下，因为有时几个分支胜率一样。

MCTS这个框架对棋力最大的意义，我认为就是“大局观”好。无论局部如何激烈战斗，所有的模拟都永远下完，全盘算子的个数。这样对于自己有多少占地盘的潜力，就比毛估估要清楚多了。以前的程序，就不下到终局，用一些棋块形状幅射之类的来算自己影响的地盘，估得很差，因为一些棋块死没死都不清楚。MCTS就不错，下到终局死没死一清二楚。MCTS也不会只盯着局部得失，而是整个盘面都去划清楚边界。这个特点让几个AI对局势的评估经常很相似，大局观都不错。MCTS对于双方交界的地方，以及虚虚实实的阵势，通过打入之类的模拟，大致有个评估。当然这不是棋力的关键，大局观再好，局部被对手杀死也没有用，可能几手下来，局势评估就发生了突变。

AlphaGo的大局观还特别好，特别准确，主要是它模拟的次数最多，模拟的质量最好。而且这个大局观从原理上就超过了人类！比如人看到一块阵势，如果不是基本封闭的实空，到底价值多少评估起来其实是非常粗的。高手点目时经常这样，先把能点的目算清楚，有一些小阵势如无忧角就给个经验目数，然后加上贴目算双方精确目数的差值，然后说某方的某片阵势能不能补回这个差值，需要扣除对方打入成的目数，孤棋薄棋减目数。这类估算有很多不精确的因素。

AlphaGo就不一样了，它会真的打入到阵势里，来回模拟个几十万次，每一次都是精确的！人绝对没有能力像AlphaGo这么想问题，一定是利用经验去估算阵势的价值，误差就可能很大。极端情况下，一块空有没有棋，职业棋手根本判断不清，AlphaGo却可以通过实践模拟清楚，没棋和有棋相比，目数差别太大了。AlphaGo虽然不是严格证明，但通过概率性地多次打入模拟，能够接近理论情况，比人类凭经验要强太多了。我可以肯定，AlphaGo的大局观会远远超过职业高手，算目也要准得多，所以布局好、中后盘收束也很强大。甚至Zen之类的程序大局观都可能超过职业高手。

例如第二局这个局面：

李世石左下占了便宜，本来局势还可以。但是他70和72手吃了一子落了后手，被AlphaGo走到73，大局一下就落后了。这个在前面Darkforest对局势的评估图中都非常清楚，是局势的转折点。李世石要是手头有个Zen辅助，试着下两下都可能会知道70手不要去吃一子了。大局观不太好的职业高手，比如李世石就是个典型，大局观不如Zen真不一定是笑话。李世石比Zen强的是接触战全局战的手段，要强太多了。MCTS实事求是不怕麻烦下完再算子的风格，比起人类棋手对于阵势价值的粗放估算，是思维上先天的优势。

AlphaGo比其它程序强，甚至比职业高手还强的，是近身搏杀时的小手段。

第三局，李世石29和31是失着。29凑白30双，虽然获得了H17的先手，但是中间的头更为重要。当黑31手飞出后，白32象步飞可以说直接将黑击毙了。在盘面的左上中间焦点处，AlphaGo的快速走子网络会有一个7*7之类的小窗口，对这里进行穷举一样的搜索，用人手写的代码加上策略网络。32这步妙招可能就是这样找出来的，李世石肯定没有算到。但是AlphaGo是不怕麻烦的，就一直对着这里算，比人更容易看到黑三子的可怜结局。这个计算对人有些复杂，只有实力很强的才能想到算清楚，对AlphaGo就是小菜。李世石一招不慎就被技术性击倒了。AlphaGo对这种封闭局部的计算，是它超过人类的强项。

夺标 · 发表于 2016-4-5 10:18:47

现在有了三盘高水平的棋谱，质量远高于之前和樊麾的五盘棋谱。还有谷歌2016年1月28号发表在《自然》上的论文，介绍了很多技术细节，还有一些流传的消息，其实相关的信息并不少，可以作出一些技术分析了。

之前一篇文章提到，从研发的角度看，谷歌团队把15-20个专家凑在了一起，又提供了巨量的高性能计算资源，建立起了整个AlphaGo算法研究的“流水线”。这样谷歌团队就从改程序代码的麻烦工作中解放出来，变成指挥机器干活，开动流水线不断学习进步，改善策略网络价值网络的系数。而且这个研发架构似乎没有什么严重的瓶颈，可以持续不断地自我提升，有小瓶颈也可以想办法再改训练方法。就算它终于遇到了瓶颈，可能水平也远远超过人类了。

这些复杂而不断变动的神经网络系数是AlphaGo的独门绝技，要训练这些网络，需要比分布式版本对局时1200多个CPU多得多的计算资源。AlphaGo算法里还是有一些模块代码是需要人去写的，这些代码可不是机器训练出来的，再怎么训练也改不了，谷歌团队还不可能做到这么厉害。例如蒙特卡洛搜索（MCTS）整个框架的代码，例如快速走子网络的代码。这里其实有两位论文共同第一作者David Silver和Aja Huang多年积累的贡献。这些人写的代码，就会有内在的缺陷，不太可能是完美无缺的。这些缺陷不是“流水线”不眠不休疯狂训练能解决的，是AlphaGo真正的内在缺陷，是深度学习、self-play、进化、强化学习这些高级名词解决不了的。谷歌再能堆硬件，也解决不了，还得人去改代码。

第一局开局前，谷歌就说其实还在忙着换版本，最新版本不稳定，所以就用上一个固定版本了。这种开发工作，有可能就是人工改代码消除bug的，可能测试没完，不敢用。

总之，像AlphaGo这么大一个软件，从算法角度看存在bug是非常可能的。在行棋时表现出来就是，它突然下出一些不好的招数，而且不是因为策略网络价值网络水平不够高，而是MCTS框架相关的搜索代码运行的结果。如果要找AlphaGo潜在的bug，需要去仔细研究它的“搜索 ”。这可能是它唯一的命门所在，而且不好改进。

那么MCTS的好处坏处到底是什么？幸运的是，Zen和CrazyStone等上一代程序，以及facebook田渊栋博士开发的Darkforest都用了MCTS。它们和AlphaGo虽然棋力相差很远，但是行棋思想其实很相似，相通之处远比我们想象的高得多。

这是田渊栋贴的Darkforest对前两局的局势评分。可以看出，这个评分和棋局走向高度一致，完全说得通。而且谷歌也透露了AlphaGo对局势的评分，虽然一直领先，但第二局也有接近的时候，能够相互印证。如果到网上下载一个Zen，输入AlphaGo和李世石的对局，选择一个局面进行分析，也会有像模像样的评分出来。这究竟是怎么回事？

		自动登录	找回密码
密码			立即注册