WAP手机版 RSS订阅 加入收藏  设为首页
永利代理网
当前位置:首页 > 永利代理网

永利代理网:引入神经网络的直觉来指导MCTS进行搜索探索

时间:2021/7/30 13:01:57   作者:   来源:   阅读:2   评论:0
内容摘要:围棋一直被认为是经典人工智能游戏中最具挑战性的游戏。但AlphaGo在2016年击败了世界冠军李世石。AlphaGo是第一个击败人类世界围棋冠军的计算机程序,可以说是当时最强大的围棋选手。因为在分阶段训练和网络数量上,AlphaGo的系统是相当复杂的。一年后,它的作者DeepMind对其进行了改进,并提出了一种新的围棋...

围棋一直被认为是经典人工智能游戏中最具挑战性的游戏。但AlphaGo在2016年击败了世界冠军李世石。AlphaGo是第一个击败人类世界围棋冠军的计算机程序,可以说是当时最强大的围棋选手。

因为在分阶段训练和网络数量上,AlphaGo的系统是相当复杂的。一年后,它的作者DeepMind对其进行了改进,并提出了一种新的围棋人工智能:AlphaGo Zero,这是AlphaGo的简化和增强版。由于算法的通用性和围棋知识的匮乏,DeepMind将该算法移植到国际象棋和日本象棋中,并引入了一种新的人工智能:AlphaZero。

在简要讨论alpha级数的发展之后,让我们看看它的算法。由于算法细节繁琐复杂,这里只做简单的科学普及。AlphaGo的核心算法是蒙特卡罗树搜索和改进。蒙特卡罗树搜索是算法的核心。它主要是利用随机抽样来解决确定性问题。如下图所示,它分为4个步骤:选择、展开、模拟和反向传播。当我们需要做决策时,我们可以通过这棵树得到蒙特卡罗算法下的最优策略。当然,这并不一定是真正的最佳策略。

最初的MCTS看起来很愚蠢,计算量也很大。AlphaGo在这方面做了很多改进。它采用深度神经网络进行评估,而不是随机搜索来评估情况。如下图所示,Alphago中有3个神经网络;同时,DeepMind还提出了PUCT算法,引入神经网络的直觉来指导MCTS进行搜索探索,大大提高了搜索效率。由于神经网络的引入,AlphaGo变得可学习,可以通过训练神经网络不断提高自身的实力。



相关评论

本类更新

本类推荐

本类排行

本站所有站内信息仅供娱乐参考,不作任何商业用途,不以营利为目的,专注分享快乐,欢迎收藏本站!
所有信息均来自:百度一下(永利代理网浙ICP备08004651号-19