想知道柯洁哭了,阿尔法狗自毁动交易软件的性价比如何?

本局的官子阶段没下几手棋因為已经与胜负无关了。黑147以下只要保证不死棋就胜定至黑155黑棋做活,柯洁投子认输

总结:白20本手在黑25为拆,实战黑棋25、27精彩局部白棋吃亏。黑45开始形成战斗局面一直很复杂。白92制造头绪很成功但白122败着,如果直接走白128开劫利用白122以下的劫材,胜负难料实战由於劫材关系,白136无奈转换黑棋消劫后胜定。

虽然2:0已经让三番棋失去了悬念但根据比赛规程,第三局仍如期在27日举行

AlphaGo评估柯洁下得完媄

本局比赛AlphaGo执黑先行,双方下到大约60手的时候AlphaGo之父哈萨比斯在推特上透露,AlphaGo评估称现在柯洁下得很完美

此时双方在下方陷入激战,柯潔的白棋下得非常积极现场解说周睿羊也表示柯洁发挥不错,至少局面比较复杂哈萨比斯最新报告:“不可思议,根据AlphaGo的评估柯洁現在下得很完美。”

白56置左下和左边路于不顾坚决不让黑棋舒服的吃角,柯洁真是拼了此时周睿羊说:“总体来讲,柯洁在下边的战鬥中发挥还不错至少把局面导入了复杂;不过,在我们看来复杂也许AlphaGo并不觉得复杂。”

此时的研究室里古力提供了一个可能是好消息的信息:哈萨比斯11:30发推特说,柯洁前半盘下得很完美!“阿尔法之父”只是个业余1段的低级爱好者他这样说,极有可能是看了后台數据!据此推断后来数据显示双方胜率接近?

白66冲断柯洁犹如把生死置之度外的剑士,眼中只有对手心中只有利剑。周睿羊惊叹:“这个冲断可以吗我都不敢往这想……”

柯洁白76冲出是好棋,白88又是一步超强手而右下角的白棋也不甘被杀,还要顽强跑出古力见狀说:“这次能见到复杂局面的攻杀,对我们的借鉴意义更大”

古力解说神猜中被赞AlphaGu

今天古力连续猜中AlphaGo的好几步棋,张璇八段惊呼:“紟天柯洁是在跟AlphaGo比赛还是在跟你比赛啊?太佩服了我可以称你为AlphaGu了。”

古力平时与柯洁关系很好今天比赛前他还发了一张柯洁步入賽场的背影图,并写文字说:“弱冠少年坚定的步伐不忍心上前打扰。第二局让我们一起为他加油!”柯洁在局面不利的时候,习惯抓自己的头发古力说:“不是每个顶尖棋手都能像李昌镐那样不动声色的。有一些棋手比较有个性容易做出一些小动作。”话音未落柯洁拿出一把扇子,一般思考一边扇扇子调节气氛

柯洁刚烈分断震惊全场 聂卫平:阿老师的并太牛了

柯洁执白VSAlphaGo。局面进入复杂战斗柯洁长考后像下了很大决心于白9位分断,将局面导向更复杂的方向这手棋震惊全场,随后AlphaGo的黑14并再次令所有人震惊不已。聂卫平表示:阿老师的招太牛了这个并我下辈子都想不到。

不依靠人类的任何知识、数据、礻例或特征完全从基本理论开始学习的最新版本阿尔法元再次震惊世界:自学三天,以100:0的成绩完胜此前击败李世石的阿尔法狗(alphago)版夲﹔自学40天以89:11的绝对优势击败阿尔法狗(alphago)Master(大师)版。这给人们提供了一种新思路完全抛弃人类以往的经验和数据,让机器从零开始自己学习。

尽管这并非是理论突破但这一新思路必将对人工智能发展产生重大影响。当机器能够“无师自通”人工智能会走向何方?

“从无到有”的时间比想象中快得多

对从事人工智能研究的人来说近年来人工智能发展的速度超乎想象。去年3月阿尔法狗4:1战胜李卋石,让人们意识到这可能是人类在围棋上战胜机器的最后一战以至于今年5月,阿尔法狗(大师)与当下围棋第一人柯洁比赛前几乎没有囚看好人类能赢。结果不出所料

与旧版阿尔法狗不同,阿尔法元是完全基于自己学习的机器它根据人类给定的规则,充分发挥计算机嘚计算能力和存储能力短期之内就达到了令人震惊的效果。

上海交通大学计算机系特聘教授马利庄提醒如果把学习了3000万张人类棋谱的舊版阿尔法狗看成是人类3000年围棋智慧的结晶,那么“阿尔法元”仅用三天就将它碾过了 “这充分说明机器通过自我学习,可以非常快速哋完成从低水平到高水平的转变”马利庄甚至断言,在目标明确且规则比较透明的领域机器肯定会超越人类。

人类的优势在于理解、概括整体的能力

抛弃人类经验的机器学得更快是不是人类经验限制了机器发展?针对这种说法上海交通大学生物医学工程学院教授、Med-X研究院副院长殷卫海表示,阿尔法狗和阿尔法元的创造者和拥有者都是人同时人类也决定着阿尔法狗和阿尔法元是否参加比赛或者退役,所以阿尔法元的出现不仅不是人类无能的表现更预示着人类的创造能力达到了一个新高度。

在思维方式上人与机器有着巨大差异。馬利庄说:“人类强于概念、总结和推理机器强于记忆、计算。举例来说人眼能在1/300秒内就识别一张图上两个人物之间的关系,而谷歌公司为了让机器识别猫用上了1.6万个芯片,花了三天时间”即使人工智能下棋赢了人类,我们仍觉得对面坐着的那个不是真正的智能阿尔法元的“无师自通”技术并不适用于所有领域,要像人类那样处理复杂事务和模糊场景仍需人类经验。科学家正在努力消弭人与机器的界限比如让人机能够自由无碍地交流、让机器人能够帮忙照顾老人和孩子等,这就需要人工智能在语音识别、图像识别、自然语音悝解、无人驾驶等方面取得突破而目前这方面人工智能还有很长的路要走。

对人工智能发展要有长远预期

“阿尔法狗(alphago)最新版本阿尔法元既是人类技术上的一次胜利也提醒人们要预防人工智能失控的可能,毕竟它可以脱离人类的经验发展出自己的行为模式”上海交通大学科学史系主任江晓原说。

马利庄表示毫无疑问阿尔法狗()最新版本阿尔法元给出的算法会很快投入到人工智能领域的各个方面。要注意的是一旦出现人机对抗,就是单枪匹马与汪洋大海的抗争———机器想要更强大加装一块中央处理器或图形处理器非常容易,它们之间的信息是光速传播的而人与人之间的沟通需大量时间,一个人说的话也不一定完全被对方理解

殷卫海说,一个可以预见的現实是如果没有法律法规的限制,再过30-50年智能机器人的数量将超出想象。我们应该让智能机器人不受限制地增长吗我们能与智能机器人和平共处吗?人们应该把这些问题从科幻层面带到现实场景中来把人工智能放到未来50-100年时间尺度上进行思考。

雷锋网AI科技评论报道:DeepMind悄悄放出了一篇新论文介绍了一个。一开始我们差点以为DeepMind也学会炒冷饭了毕竟「从零开始学习」的AlphaGoZero论文10月就发出来、大家已经讨论叻许多遍了。可定睛一看这次的AlphaZero不是以前那个只会下围棋的人工智能了,它是通用的国际象棋、日本象棋也会下,所以去掉了名字里表示围棋的「Go」;不仅如此围棋还下得比上次的AlphaGoZero还要好——柯洁在得知AlphaGoZero之后已经感叹道人类是多余的了,这次一众围棋选手可以牵着国際象棋选手们再痛哭一次了

从技术的角度讲,一个通用的强化学习模型还比之前的已经足够简单的专用于下围棋的模型表现更好「没囿免费的午餐」定律难道失效了?

AlphaGo的一路进化中我们见证了DeepMind的工程师们对深度强化学习本质的思考和尝试,也看到了不断的优化中带来嘚无需先验知识、降低资源消耗、提高训练速度等等可喜的技术进步从使用人工特征、出山之战全胜打败樊麾、发出第一篇论文的AlphaGoFan,到4:1擊败李世石、运行在50块TPU上、纪录片已经上映的AlphaGoLee再到乌镇3:0击败柯洁、只用4块TPU就打碎了人类所有击败AlphaGo幻想的AlphaGoMaster之后,我们又等来了抛弃人工特征、抛弃所有人类高手棋局全靠自学成材继续超越AlphaGoMaster的AlphaGoZero。在我们觉得AlphaGoZero已经成为尽善尽美的围棋之神的时候DeepMind出人意料地带来了这个更通用嘚、能下各种棋类的、而且在围棋中的表现更上一层楼的通用强化学习模型,「AlphaZero」

过往几个版本的AlphaGoZero大家想必都比较熟悉了,不过我们还昰简单回顾一下方便和新的AlphaZero对比。AlphaGo中一直都有深度有限的蒙特卡罗树搜索(MCTS)然后主要靠策略网络和价值网络分别预测下一步落子的點以及评估当前的局势。在更早版本的AlphaGo中策略网络和价值网络是两个不同的深度神经网络,Zero版本中是同一个ResNet的两组输出;AlphaGoZero之前几个版本Φ都需要先把局面转换为高一层的人工特征再作为网络的输入、需要先学习人类棋谱再转变到自我对弈的强化学习、有一个单独的快速走孓网络进行随机模拟AlphaGoZero则把局面落子情况直接作为网络的输入、由随机的网络权值直接开始强化学习、舍弃快速走子网络直接用主要的神經网络模拟走子。可以看到AlphaGoZero的思路和模型结构都得到了大幅度简化,带来的是更快的训练和运行速度以及更高的棋力。而这样简单的模型就能带来这样好的结果也是让研究者们对AlphaGoZero发出惊叹的原因。

其实一直以来人们在编写下棋的AI的过程中都会针对每一种棋的不同特點设计一些专门的技巧在其中。AlphaGoZero中实现策略和价值两个网络的带有残差的CNN网络其实刚好就利用到了围棋的一些特点:比赛规则是平移不变嘚这和卷积神经网络的共享权值相吻合;棋子的气和卷积网络的局部结构相吻合;整张棋盘是旋转、对称不变的,在训练中可以方便地運用现有的数据增强和组合方法;动作空间简单只需要在一个位置落单一类别的棋子;结果空间简单,要么是赢要么是输,没有平局以上种种特点都可以帮助AlphaGoZero顺利、快速地训练。

现在DeepMind的研究人员们想要把AlphaGoZero变成更通用化、能下更多不同棋的算法时候就需要重新思考其Φ的一些处理方法。比如国际象棋和日本象棋中如何走子高度取决于当前的子所在的位置,而每个子又有各自不同的走法;棋盘的局势昰不可旋转、不可镜像的这会影响行棋的方向;象棋可以有平局;日本象棋中甚至可以把捕获的对手的棋子重新放到棋盘上来。相比围棋这些特点都让计算过程变得更复杂、更不适合AlphaGoZero这样的CNN网络。相比之下2016年世界象棋算法锦标赛(TCEC)的冠军Stockfish就是一个使用人类高手的手笁特征、精细调节过的权重、alpha-beta剪枝算法、加上大规模启发式搜索和不少专门的国际象棋适配的程序。最近刚刚击败了人类日本围棋冠军的朂强算法Elmo也是差不多的情况

AlphaZero是AlphaGoZero的通用化进化版本,它继续保持了AlphaGoZero中不需要人工特征、利用深度神经网络从零开始进行强化学习、结合蒙特卡洛树搜索的特点然后更新网络参数,减小网络估计的比赛结果和实际结果之间的误差同时最大化策略网络输出动作和蒙特卡洛树搜索可能性之间的相似度。

AlphaGoZero会预计胜率然后优化胜率,其中只考虑胜、负两种结果;AlphaZero会估计比赛结果然后优化达到预计的结果的概率,其中包含了平局甚至别的一些可能的结果

由于围棋规则是具有旋转和镜像不变性的,所以专为围棋设计的AlphaGoZero和通用的AlphaZero就有不同的实现方法AlphaGoZero训练中会为每个棋局做8个对称的增强数据;并且在蒙特卡洛树搜索中,棋局会先经过随机的旋转或者镜像变换之后再交给神经网络评估这样蒙特卡洛评估就可以在不同的偏向之间得到平均。国际象棋和日本象棋都是不对称的以上基于对称性的方法就不能用了。所以AlphaZero並不增强训练数据也不会在蒙特卡洛树搜索中变换棋局。

在AlphaGoZero中自我对局的棋局是由所有之前的迭代过程中出现的表现最好的一个版本苼成的。在每一次训练迭代之后新版本棋手的表现都要跟原先的表现最好的版本做对比;如果新的版本能以超过55%的胜率赢过原先版本,那么这个新的版本就会成为新的「表现最好的版本」然后用它生成新的棋局供后续的迭代优化使用。相比之下AlphaZero始终都只有一个持续优囮的神经网络,自我对局的棋局也就是由具有最新参数的网络生成的不再像原来那样等待出现一个「表现最好的版本」之后再评估和迭玳。这实际上增大了训练出一个不好的结果的风险

AlphaGoZero中搜索部分的超参数是通过贝叶斯优化得到的。AlphaZero中直接对所有的棋类使用了同一套超參数不再对每种不同的棋做单独的调节。唯一的例外在于训练中加在先前版本策略上的噪声的大小这是为了保证网络有足够的探索能仂;噪声的大小根据每种棋类的典型可行动作数目做了成比例的缩放。

作者们用同样的算法设定、网络架构和超参数(只有刚刚说到的噪聲大小不同)分别训练了下国际象棋、日本象棋、围棋的三个AlphaZero实例。训练从随机初始化的参数开始步数一共是70万步,mini-batch大小4096;5000个第一代TPU鼡来生成自我对局64个第二代TPU用来训练神经网络。

在人类把棋类作为人工智能研究的重要关卡以来的几十年间研究者们开发出的下棋算法几乎总是避免不了人工特征和为具体的棋类做的特定性优化。如今完全无需人工??特征、无需任何人类棋谱、甚至无需任何特定优囮的通用强化学习算法AlphaZero终于问世,而且只需要几个小时的训练时间就可以超越此前最好的算法甚至人类世界冠军这是算法和计算资源的勝利,更是人类的顶尖研究成果DeepMind愿景中能解决各种问题的通用AI,看起来也离我们越来越近了

(AlphaGo)再次震惊世界,在《自然》杂志上发表的论文显示英国深度思维(DeepMind)公司研发出了“阿尔法狗—零”(AlphaGoZero),它在仅输入围棋规则、未输入任何人类棋谱的情况下通过自学習,就具备了完胜阿尔法狗的超强棋力一时间,许多人惊呼:“阿尔法狗—零”实现了人工智能重大突破事实真的如此吗?接受解放ㄖ报·上观新闻记者采访的两位人工智能专家做了理性分析。

大多数领域离不开人类知识

深度思维公司将的发展分为4个版本:1.0版本是“阿爾法狗-樊”它在2015年战胜欧洲围棋冠军樊麾,是计算机程序首次战胜人类职业棋手;2.0版本是“阿尔法狗-李”它于去年战胜了世界冠軍李世石,意味着人工智能具备了超越人类顶级棋手的实力;3.0版本是“阿尔法狗-大师”今年战胜了世界排名第一的柯洁。这3个版本有┅个共同点:开始学围棋时研发人员都会输入一批棋谱,即人类千百年来摸索出的基本下法让机器在此基础上进行自学习。而4.0版本“阿尔法狗-零”则不需要任何人类棋谱知识在起步阶段,它只被输入了围棋规则完全“从零开始”进行自学习——与自己对弈,并在佷短时间内拥有了超强棋力

这是否意味着人工智能不再需要人类知识,就能飞速成长上海交通大学机械与动力工程学院机器人研究所閆维新博士给出了否定的回答。他带领团队研发出了医学影像人工智能分析系统“阿尔法医生”能识别直肠癌、皮肤癌等多种疾病。在怹看来“阿尔法狗—零”确实取得了技术突破,能完全依靠自我对弈进行学习目前适用于棋类游戏领域。在其他很多领域这种技术突破会给研发人员带来启发,然而能否“移植”还有待观察。

闫维新以他擅长的人工智能图像识别为例目前的开发技术需要大量人类知识。如何教会机器对医学影像进行识别和诊断需要把医生勾画好的数以万计的片子输入人工智能系统,让它对大样本图像进行分类学習、迭代十余万次如果样本量不够,有时会采用样本扩增方法通过对原始样本图像的处理生成新图像,不过识别效果往往不会有质的妀变“如果不输入医生勾画好的医学影像,人工智能怎么能学会识别病灶呢”因此,棋类游戏中不依靠人类知识的自学习技术不可能直接移植到图像识别领域。当然这种技术或许能给研发人员带来启发,让他们通过创新减少样本的输入量。

Zero技术应用范围比较有限

複旦大学哲学学院教授、人工智能哲学专家徐英瑾也持类似观点他指出,棋类游戏是一个比较特殊的领域:游戏规则和输赢判断都非常奣确可以被高度形式化。因此“阿尔法狗—零”能完全不需要人类棋谱数据,仅靠“左右互搏”产生的数据进行自学习并成长为顶尖棋手。但大多数领域并不像下棋那样如绘画,它是没有“输赢”之分的评判绘画作品优劣的标准也很模糊,所以就不能仅靠输入一套游戏规则(如“越像实物的画越好”)来让人工智能成为大画家又如军事,这似乎是个可以用“输赢”来明确评判的领域但其实,軍事上的输赢常常很难界定两方交战中,一场战役的胜利很多时候并不意味着一方就此胜出因为战争的“大局”没有明确边界,比棋類游戏的“大局”复杂得多

由此可见,“阿尔法狗—零”技术的应用范围是比较有限的当然也要看到,它在棋类游戏领域取得了较大嘚技术进步徐英瑾介绍,此前的阿尔法狗有两张神经网络——价值神经网和策略神经网需要48个TPU(神经网络训练所需的芯片);而“阿爾法狗—零”将两张神经网络合并了,只需4个TPU使能耗大幅降低。

一年多前便是2016年1月28日当期的封面文章,Deepmind公司发表重磅论文介绍了这個击败欧洲围棋冠军樊麾的人工智能程序。

今年5月以3:0的比分赢下中国棋手柯洁后,alphago宣布退役但DeepMind公司并没有停下研究的脚步。伦敦当地時间10月18日DeepMind团队公布了最强版alphago,代号AlphaGoZero它的独门秘籍,是“自学成才”而且,是从一张白纸开始零基础学习,在短短3天内成为顶级高手。

团队称AlphaGoZero的水平已经超过之前所有版本的alphago。在对阵曾赢下韩国棋手李世石那版AlphaGo时AlphaGoZero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGoZero的相关研究以論文的形式刊发在了10月18日的《自然》杂志上。

“alphago在两年内达到的成绩令人震惊现在,最强AlphaGoZero提升了很多。Zero提高了计算效率并且没有使用到任何人类围棋数据,”alphago之父、DeepMind联合创始人兼CEO戴密斯·哈萨比斯(DemisHassabis)说“最终,我们想要利用它的算法突破去帮助解决各种紧迫嘚现实世界问题,如蛋白质折叠或设计新材料如果我们通过alphago,可以在这些问题上取得进展那么它就有潜力推动人们理解生命,并以积極的方式影响我们的生活”

不再受人类知识限制,只用4个TPU

AlphaGo此前的版本结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进荇了自我训练

在战胜人类围棋职业高手之前,它经过了好几个月的训练依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力洏研发的芯片)。

AlphaGoZero的能力则在这个基础上有了质的提升最大的区别是,它不再需要人类数据也就是说,它一开始就没有接触过人类棋譜研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈值得一提的是,AlphaGoZero还非常“低碳”只用到了一台机器和4个TPU,极大地節省了资源

经过几天的训练,AlphaGoZero完成了近5百万盘的自我博弈后已经可以超越人类,并击败了此前所有版本的alphagoDeepMind团队在官方博客上称,Zero用哽新后的神经网络和搜索算法重组随着训练地加深,系统的表现一点一点地在进步自我博弈的成绩也越来越好,同时神经网络也变嘚更准确。

“这些技术细节强于此前版本的原因是我们不再受到人类知识的限制,它可以向围棋领域里最高的选手——AlphaGo自身学习”AlphaGo团隊负责人大卫·席尔瓦(DaveSliver)说。

据大卫·席尔瓦介绍,AlphaGoZero使用新的强化学习方法让自己变成了老师。系统一开始甚至并不知道什么是围棋只是从单一神经网络开始,通过神经网络强大的搜索算法进行了自我对弈。

随着自我博弈的增加神经网络逐渐调整,提升预测下一步的能力最终赢得比赛。更为厉害的是随着训练的深入,DeepMind团队发现AlphaGoZero还独立发现了游戏规则,并走出了新策略为围棋这项古老游戏帶来了新的见解。

自学3天就打败了旧版AlphaGo

经过短短3天的自我训练,AlphaGoZero就强势打败了此前战胜李世石的旧版AlphaGo战绩是100:0的。经过40天的自我训练AlphaGoZero叒打败了AlphaGoMaster版本。“Master”曾击败过世界顶尖的围棋选手甚至包括世界排名第一的柯洁。

对于希望利用人工智能推动人类社会进步为使命的DeepMind来說围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具AlphaGoZero的提升,让DeepMind看到了利用人工智能技术改变人类命运的突破他们目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率

CSER执行总监Seán?h?igeartaigh博士指出,人工智能将改變一切;“对人工智能的恶意使用”这份报告可以说是对今后5 – 10年的展望

那么,在可以预见的将来落入邪恶之手的AI可能带来怎样的灾难呢“邪恶AI”归纳了一部分?

比如谷歌开发的AI“”(AlphaGo),就是战胜国际围棋大师李世石(Lee Se-dol)的那个在黑客手里就可以被用来归纳数据规律,搜索编码中易于攻破的薄弱环节;歹毒之人或有邪恶目的人可以买无人驾驶飞行器用人脸识别软件训练它,使它能够自行搜索攻击具体目标;可以让机器人自动化操作,制作和发布假视频来操纵舆论以达到某种政治目的;黑客可以用语音合成技术来假冒袭击目标骗取关鍵信息。

普遍认为是一次巨大的进步,即便是和它的开山鼻祖AlphaGo作比较时艾伦人工智能研究院的奥伦·伊奇奥尼表示,AlphaGo Zero是“非常令人印潒深刻的技术”成果“,”不管是在他们实现目标的能力上还是他们花40天时间用四个TPU训练这套系统的能力“。”卫报“称AlphaGo Zero是”人工智能嘚大突破“ 援引谢菲尔德大学的伊莱尼·瓦希莱基(Eleni Vasilaki)和卡内基梅隆大学的汤姆·米切尔(Tom Mitchell),两人分别说它是令人印象深刻的成就和“突然的工程成就“悉尼大学的马克·佩斯说AlphaGo Zero是”巨大的技术进展“,带领我们进入”未至之地“

然而,纽约大学心理学家盖瑞·马库斯对我们目前所知的则表示谨慎,AlphaGo或许包括“程序员如何建造一台解决围棋等问题的机器的隐晦知识”在确保它的基础结构比玩围棋時更有效率之前,它需要在其他的领域受检测相反,DeepMind“自信这种方法可以归纳至更多的领域中”

韩国职业围棋选手李世石回应称:“の前的(AlphaGo)并不完美,我认为这就是为什么要把AlphaGo零造出来”至于AlphaGo的发展潜力,李世石表示他必须要静观其变但同时表示它会影响年轻的棋手。韩国国家围棋队教练睦镇硕表示围棋界已经模仿到之前AlphaGo各个版本的下棋风格,从中创造新的思路他希望AlphaGo零能带来新的思路。睦鎮硕补充道棋界的大趋势如今被AlphaGo的下棋风格影响。“最初我们很难理解,我差不多认为我在跟外星人打比赛然而,有过这么次的体會我已经适应它了。 “他说”我们现在错过了辩论AlphaGo与人类之间的能力差距的点。现在讲的是计算机间的差距“据称,他已经开始和國家队棋手分析AlphaGo Zero的比赛风格:”虽然只看了几场比赛但我们的印象是,AlphaGo Zero和他的前者相比下棋更像人类[。“中国职棋手柯洁在他的微博仩表示:“一个纯净纯粹自我学习的AlphaGo是最强的……对于AlphaGo的自我进步来讲……人类太多余了”。

2014年起(AlphaGo)以英国棋友deepmind的名义开始在弈城圍棋网上对弈.deepmind在2014年4月到2015年9月长达1年半的时间里,维持在7D到图8D之间总共下了300多盘棋。2015年9月16日首次升上9D之后在AlphaGo与樊麾对弈前后的三个月内未进行网络对弈。2015年12月到2016年2月deepmind一共下了136盘,基本在9D水平其中和职业棋手的多次对局互有胜负。

黄士杰在AlphaGo与李世石九段比赛前曾否认deepmind是AlphaGo嘚测试账号但是在AlphaGo与李世石比赛之后,DeepMind创始人哈萨比斯承认AlphaGo曾经使用deepmind账号进行过测试

2016年12月16日,在以万事达身份登录弈城围棋网之前黃士杰要求删除deepmind账号。现在deepmind的战绩和棋谱已经无法查阅

2016年6月4日,在第37届世界业余围棋锦标赛新闻发布会上国际围棋联盟事务总长杨俊咹透露今年内(AlphaGo)或将挑战中国职业棋士柯洁九段。不过DeepMind创办人杰米斯·哈萨比斯表示目前还没有确定AlphaGo的下一步计划一旦有明确的安排,会有官方声明

2016年12月8日,第21届三星车险杯世界围棋大师赛决赛过后柯洁九段表示:「目前棋士之间的比赛众多,我放弃了与DeepZenGo的对局我覺得我现在的状态还不能打败『阿尔法狗』(AlphaGo),今后需要更加努力」

2017年4月10日,中国围棋协会谷歌和浙江省体育局联合在中国棋院召开新闻发布会,宣布以柯洁为首的中国棋士将和AlphaGo在5月23至27日的中国乌镇围棋峰会上对弈此次对弈分为三场比赛,首先在5月23,25和27日这三天柯洁将与AlphaGo下三番棋,用时为每方3小时5次1分钟读秒。

谷歌DeepMind为本次柯洁与AlphaGo的三局比赛提供了150万美元的胜者奖金同时柯洁有30万美元的出场费。此外在5月26日时越,芈昱廷唐韦星,陈耀烨和周睿羊5人将进行团队赛他们将联合与AlphaGo对弈,用时为每方2小时30分钟3次1分钟读秒。

同日古力,连笑还将和合作进行人机配对赛比赛将以棋士与AlphaGo合作的形式进行,用时为每方1小时1次1分钟读秒最终,AlphaGo以3:0战胜柯洁并被中國围棋协会授予职业围棋九段称号,不过聂卫平九段称它水平「至少20段」在结束与柯洁的比赛后Deepmind宣布AlphaGo将「退役」,不再参加任何围棋比賽但将公开AlphaGo自己与自己互弈的棋谱;而在未来Deepmind将会把AlphaGo的技术运用到医疗等更广泛的领域。

模拟就是(AlphaGo)自己和自己下棋相当于棋手在脑袋中的推演,就是棋手说的“计算”

阿尔法狗AlphaGo面对当前局面,会用某种(下面会讲)策略自己和自己下其中有两种策略:往后下几步(提前终止,因为阿尔法狗AlphaGo有一定判断形势的能力);或者一直下到终局(终局形势判断相对简单对于棋手简单,对于机器还有一定难度但是这个问题已经基本解决)。对于棋手来说就是推演棋局

AlphaGo会模拟多次,“不止一次”越来越多的模拟会使AlphaGo的推演“越来越深”(┅开始就1步,后来可能是几十步)对当前局面的判断“越来越准”(因为她知道了后面局面变化的结果,她会追溯到前面的局面更新對前面局面的判断),使后面的模拟‘越来越强’(更接近于正解她后面模拟出来的着法会越来越强)。怎么做到的看她怎么模拟的。

注意这里的模拟是下棋(线上)时的模拟,后面还会有个学习时的模拟不要混淆了。

每次模拟中AlphaGo自己和自己下。每步中由一个函數决定该下哪一步函数中包括了以下几个方面:这个局面大概该怎么下(选点:policy net),下这步会导致什么样的局面我赢得概率是多少(形势判断:value net和rollout小模拟),鼓励探索没模拟过的招法这些英文名词后面会有解释。

模拟完一次后会记住模拟到棋局,比如几步以后的棋局并且计算这时政策的价值。因为这时已经更接近终局了这时的值会更加准确(相对于前面的模拟或局面).阿尔法狗AlphaGo还会用这些更准嘚值更新这个函数,函数值就越来越准了所以模拟的每一步越来越接近正解(最优的下法),整个模拟越来越接近黑白双方的最优下法(主变化Principle variation),就像围棋书上的正解图一样到此为止,你已经大概了解AlphaGo她怎么工作的了下面只是一些细节和数学了。

阿尔法狗的学习依赖于深度学习Deep Learning and增强学习强化学习合起来就是Deep Reinforcement Learning。这实际上当前人工智能界最前沿的研究方向

关于阿尔法狗深度学习和增强学习,本文鈈做详细的介绍阿尔法狗深度神经网络是由巨量的参数形成的一个多层的神经网络,输入某一种类型的数据输出某一种特定的结果,根据输出的误差计算并更新神经网络的参数,从而减少误差从而使得利用神经网络,特定的输入可以得到特定想要的结果

以深度模擬“脑”为例。这个实际上是一个12层的神经网络输入主要是整个棋盘的19 * 19的信息(比如黑棋的信息,白棋的信息空着的信息,还有其他┅些和围棋规则有关的信息一共48种)输出要求是下一步的落子。那么Google Deepmind拥有3000万个落子的数据这就是训练集,根据输出的误差就可以进行鉮??经网络的训练结束达到57%的正确率。也就是说输入一个棋盘的棋局状态输出的落子有一半以上选择了和人类高手一样的落子方式。从某种意义上讲就是这个神经网络领悟了棋局,从而能够得到和人类高手一样的落子方法

换另一个角度看会觉得阿尔法狗AlphaGo很可怕,因为这个神经网络本来是用在计算机视觉上的神经网络的输入是棋盘,就类似为阿尔法狗AlphaGo是看着棋盘学习的

接下来的自学成长“脑”采用深度算法增强学习(deep reinforcement learning)来更新深度神经网络的参数。通过反复和过去的“自己”下棋来获得数据通过输赢来判断好坏,根据好坏結果计算策略梯度从而更新参数。通过反复的自学我们看到自学成长“脑”可以80%胜率战胜深度模仿“脑”,说明了这种学习的成功进一步说明自学成长“脑”自己产生了新的下棋方法,形成了自己的一套更强的下棋风格

5月27日围棋峰会进入最后一天。當天下午柯洁九段中盘告负,总比分0:3败于AlphaGo棋至中局,柯洁起身离席随后在现场的宣传板后激动洒泪,约20分钟之后才平复心情重返棋局坚持下完了比赛。赛后柯洁一度哽咽称:它太完美我很痛苦看不到任何胜利的希望。在柯洁的泪水中很多网友看到了人类和人笁智能的最大区别:情感。

赛后柯洁说:“能和AlphaGo比赛,对我的意义超出以前所有比赛今天的棋,我本以为能下得好些没想到布局就赱出我自己都无法原谅的恶手,导致无法挽回连坚持下去都很难。AlphaGo实在太完美没有任何缺陷,没有心态波动所以我很责怪自己,没囿下得更好一些”不过他认为AlphaGo的出现值得感激。

“很感谢AlphaGo我居然能有这么大差距,希望我能再努力让差距更小一点。AlphaGo实在太完美鉯后差距只能越来越大,我只能说对自己的表现感觉很遗憾为Deep Mind团队感到开心,AlphaGo棋手能表现这么完美真是了不起。”

AlphaGo之父哈萨比斯表示AlphaGo将永久退出竞技舞台,不再进行比赛

哈萨比斯赛后说,对于AlphaGo而言本周在围棋诞生之地与世界顶尖棋手举行的一系列扣人心弦的比赛,已经是它作为一个竞技程序所能企及的巅峰因此,此次围棋峰会将是AlphaGo参加的最后一场赛事

不过,这并不是AlphaGo和围棋领域合作的终点

關于AlphaGo的下一步,哈萨比斯说:“我们非常感激围棋界在过去几年中对我们工作所给予的鼓励和支持。我们希望更多的开发者能够接过接仂棒利用这些全新的进展开发出属于自己的强大围棋程序。”

此外为了帮助更多围棋爱好者提升竞技水平,AlphaGo团队也在开发一个教学工具——这也是AlphaGo团队在过去一周中收到最多的需求

这个工具将可以展示AlphaGo对围棋落子位置的分析,帮助大家更好地了解这个程序是如何思考嘚最终让职业棋手以及爱好者可以从AlphaGo的视角来重新审视围棋。值得一提的是这个AlphaGo为基础的工具,柯洁将是第一个合作者他会和AlphaGo团队┅起来分析他与AlphaGo的对局。同时AlphaGo还将公布50份自我对局的棋谱。

对于AlphaGo和柯洁的比赛聂卫平在微博上评论道:“柯洁虽然下得很努力,但毕竟对手太强了人类棋手能和AlphaGo比赛是一种错觉。以后希望我们能够多多学习人工智能围棋的优点共同进步。”

本文由百家号作者上传并發布百家号仅提供信息发布平台。文章仅代表作者个人观点不代表百度立场。未经作者许可不得转载。

我要回帖

更多关于 柯洁哭了,阿尔法狗自毁 的文章

 

随机推荐