新版阿尔法围棋横空出世：自学3天，100:0碾压李世石版“旧狗”

每经记者蔡鼎每经实习编辑郭鑫

人工智能程序AlphaGo在先后击败世界围棋冠军李世石和柯洁之后，宣布退出“棋坛”。

如今，谷歌的深度学习团队又宣布了一个重磅消息：新版AlphaGo可以彻底摆脱人类的知识。当地时间10月18日，谷歌人工智能团队DeepMind团队在著名学术期刊《自然》上发表论文，宣布新版AlphaGo——AlphaGo Zero可以在没有人类指导的情况下学习，实现无师自通！

据《每日经济新闻》了解，新版本AlphaGo从零开始自学围棋，仅用3天时间，“阿尔法围棋－零”就以100比0的成绩打败了此前战胜李世石的旧版AlphaGo（旧版AlphaGo在击败李世石40天后，又战胜了世界排名第一的柯洁）。

新AlphaGo Zero完虐旧版“阿尔法狗”

当地时间10月18日，谷歌人工智能团队DeepMind团队在著名学术期刊《自然》上发表论文表示，在输入棋盘和棋子信息后，AlphaGo Zero通过与自己对弈490万次学会了如何下出最好的围棋。

经过3天的训练，AlphaGo Zero就以100：0的比分赢下了李世石版AlphaGo，并且只用了1台机器和4个TPU（谷歌专为加速深层神经网络运算能力而研发的芯片）。比较而言，李世石版AlphaGo则用了48个TPU。AlphaGo Zero除了独立地学会了人类花费数千年时间发现的围棋规则外，还自行学会了非常有趣的围棋策略，并且许多走法都“极具创造性”。

那么AlphaGo Zero是如何实现这种飞跃的？《每日经济新闻》记者注意到，AlphaGo Zero采用的是人工神经网络。这种人工智能技术可以计算出对手下一步走棋的可能性，并且估算出下棋选手赢的概率。根据计算，AlphaGo Zero每一步都会选择最大概率赢的走法。整个训练过程中，不需要人类参与，全程是AlphaGo Zero自我学习，自我对弈。在训练过程中，AlphaGo Zero每下一步需要思考的时间是0.4秒。通过对围棋游戏的模拟和训练，神经网络会变得越来越好。值得一提的是，AlphaGo Zero相比之前的版本，仅使用了单一的神经网络。

DeepMind创始人：希望能应用到其他结构性问题上

谷歌深度学习联合创始人兼CEO德米斯·哈比斯（Demis Hassabis）表示，AlphaGo Zero这个项目之所以如此强大，是因为它“不再受限于人类知识的局限”。哈比斯还相信，如果将这个项目应用到治疗像老年痴呆症这样重大的健康问题上的话，那么在几周内，就能找到治愈人类需要花费几百年时间才能找到的疗法。

“最终，我们希望利用这种算法突破，来帮助解决各种紧迫的现实问题，”哈比斯表示。“如果类似的技术可以应用到其他结构性问题上，例如蛋白质折叠、减少能源消耗或寻找革命性新材料，那么取得的突破就具有推动人类理解的潜力，并对我们的生活产生积极影响。”

其实，谷歌的深度学习团队已经开始使用AlphaGo Zero来研究蛋白质折叠，并承诺称将很快发表新的研究发现。错误折叠的蛋白质曾导致了包括老年痴呆症、帕金森病和囊性纤维化等许多毁灭性的疾病。

《每日经济新闻》记者注意到，近年来，越来越多的科技公司先后进入健康领域。去年，微软宣布计划在10年内攻克癌症。谷歌的秘密部门Calico也在调查延长人类寿命甚至停止衰老的方法。

AlphaGo Zero重大突破：“白板理论”

《电讯报》指出，最新版的AlphaGo Zero最重大的突破在于实现了“白板理论”。在这个白板式的学习过程中，程序成了自己的老师，通过与自己下围棋（或其他游戏）取得不断的提高，这个过程中不需要人类的知识、数据或任何其他形式的干预。

AlphaGo的首席研究员戴夫·西尔弗（Dave Silver）博士指出:“如果一个程序能实现‘白板学习’,那么这个程序就有一个代理,这个所谓代理也可以被移植到任何其他的领域。意思就是说，Alphago Zero可以从围棋中‘解放’出来，并致力于那种可以应用到其他任何地方的算法。”

“对于我们来说，AlphaGo不是要去在各种领域中打败人类，而是要去发现科学的意义，以及让一个能无师自通的程序去进行自我学习。”西尔弗博士补充道。“在很短的时间内，Alphago Zero已经理解了人类经过数千年的积累、分析而总结的围棋理论。除此之外，Alphago Zero还深入分析围棋的走法，并自行算出了更多具有创造性的走法。”

新版阿尔法围棋横空出世：自学3天，100:0碾压李世石版“旧狗”

新AlphaGo Zero完虐旧版“阿尔法狗”

DeepMind创始人：希望能应用到其他结构性问题上

AlphaGo Zero重大突破：“白板理论”

关联专题