新闻

乘胜势跃雄关夺新巅：皇派门窗2026年经销商大会...

战鼓催征，旌旗猎猎。市场浪潮奔涌向前，真正的强者勇于在惊涛骇浪中劈波斩浪、稳立潮头。回望20...

香港创意之作席卷2025中国国际漫画节动漫游戏展引...
10月2日至10月5日，中国内地动漫游戏领域的重要盛会，2025中国国际漫画节动漫游戏展将在广州保利世贸博览馆盛大开幕。作为国家文化发展规划重点支持的三大动漫会展之一，中国国际漫画节诞生于2008年，经过十数年...

财经

金融支持文化产业复苏主攻六方面

21日，北京市文化改革和发展领导小组办公室印发《关于加强金融支持文化产业健康发展的若干措施》，这是...

创新

发挥技术优势主动参与抗疫

传递信息助力抗疫，支持企业线上运营，开放直播与行业融合……快手科技第一时间投身疫情防控阻击战，向武...

智能无人开采：能源供应的硬核力量
“知道它厉害，没想到这么厉害!”4月9日，谈及智能化无人采矿，国家能源集团宁夏煤业枣泉煤矿党委书记、矿长翟文，对着记者连说几个“没想到”。大年初三，枣泉煤矿收假复工的日子，不料新冠疫情将一部分回老家过...

“阿尔法狗”进化到第四代，无需告知规则，MuZero算法自学成“棋”才

发布时间：2020/12/31 科技 浏览：424

　　据最新一期《自然》杂志报道，DeepMind公司开发的一种人工智能(AI)算法MuZero，可以在不告知其游戏规则的情况下掌握围棋、国际象棋、日本将棋和视频游戏，这是谷歌人工智能部门获得的又一重大突破。

　　DeepMind公司表示，研究人员多年来一直在寻找一种方法，既可以学习建立用于解释当前环境的模型，也能够利用这个模型来进行最好的决策。到目前为止，大多数方法都难以在Atari这种游戏中进行有效规划。

　　MuZero最初在2019年推出，通过只关注环境中最重要的一个方面，来学习建立模型并解决问题。通过将这种方法与“阿尔法狗”强大的搜索树技术相结合，MuZero的能力实现了重大飞跃。此外，MuZero还利用了前瞻搜索、基于模型的规划来解决问题。

　　MuZero不会使用规则来找到最佳情况(因为事先不被告知)，而是学习考虑游戏环境的各个方面，自己观察它是否重要。在数百万场比赛中，它不仅学习规则，而且学习位置的通用价值、成功的通用策略以及事后评估自己行为的方式。后一种功能可帮助其从自身的错误中学习、回忆和重做游戏，以尝试各种不同方法来进一步优化位置和策略价值。

　　MuZero不仅在国际象棋、围棋和日本将棋上达到了与提供完善规则的“阿尔法狗”一样的超人水平，在Atari游戏这样的杂乱感知输入环境中，也创造了新纪录。研究人员将MuZero描述为“在追求通用算法方面迈出的重要一步”。

上一篇: 《全球工程前沿2020》报告发布这些方向将有大发展

下一篇: 小棋手对弈，AI判输赢

发布时间: