浅谈AlphaGo的三点缺陷

作者：网络转载发布时间：[ 2016/4/28 10:06:30 ] 推荐标签：软件测试管理缺陷管理

　　经历傲慢、恐惧、莽撞这些人性弱点带来的三盘失利之后，人类围棋目前排位前三的九段棋手李世石赢得了人机围棋大战的胜利。好励志的一幕：他在多数人都已不看好时获取的胜利，不仅证明他的实力，也表明人类远比自己或者外界想象的强大，即使面临绝境。同时，人也总是先战胜自己，然后方能赢得世界。
　　祝贺李世石之后，回来看他的对手阿法狗，从目前几盘棋来看，阿法狗中后盘棋力较强，人类棋手对其不熟悉情况下，一些九段棋手多可能会被5:0方式击败。然而，阿法狗仍然存在大概有如下三方面缺陷。棋手对其缺陷掌握后，当能提高胜率：
　　1，打劫。
　　阿法狗会尽量避免打劫。而对于连环劫、多个劫会都想赢。主要原因是打劫会导致后续算法变得异常复杂，而结果却充满不确定性。但电脑并非不能打劫，在胜负攸关时也会选择打劫。例如第三盘阿法狗如果不打劫、打劫失败三次会输掉（后李世石脱先赢得一个劫后投子认输）。利用这个特点，可以与阿法狗对弈中在布局与中盘阶段占到一些小便宜，你懂的：）
　　2，决定搜索广度的策略网络存在概率隐患。
　　因为阿法狗使用蒙特卡洛搜索数来搜索可能下棋的点以及后续可能的过程、结果，由于计算量过大需要缩小搜索广度和深度。使用了策略网络减小搜索范围，阿法狗的策略网络简单理解即通过人类棋手的历史棋局、自我对弈的强化训练对可能下棋的点做出概率判断从而缩小范围的核心算法。由于围棋棋局的复杂性，有时对一些重大隐患点可能会认为概率低而有忽略。第四盘的例子即是，提前没预测到一系列走法留下了李世石白78挖的神之一手，导致翻盘。

　　关键的白78手挖逆转棋局

　　3，用来决定搜索深度的价值网络也有隐患。
　　价值网络即预测每一步及其后续步骤构成的赢棋概率。同样因为预测步骤有限，有时会对一些目前可行性较小、明显对自己有利的棋之后续较长远局势缺乏正确判断。例如第三盘差一点出现的活征子（李世石之前用活征方式赢过对手，即征子后，远端有对手棋子接应所以征不死）。该局面下，电脑可能预测李不会这么干。所以也预测不到李会通过反常的活征可围杀另一块尚没活定的大龙，从而获胜。
　　针对这些缺陷，电脑可通过改进算法、使用分布式系统与更强大硬件增加搜索范围的广度与深度来提高阿法狗能力，从而继续挑战人类围棋高手的能力。而围棋做为能锻炼和提高人的系统思维能力的一项棋类运动依然充满魅力，同时通过与阿法狗对弈也能提高人类围棋水准，后如果继续扩大棋盘（例如到二十九路）则棋手们当可继续碾压各种电脑。

本文内容不用于商业目的，如涉及知识产权问题，请权利人联系SPASVO小编(021-61079698-8054)，我们将立即处理，马上删除。