MOBA游戏中选择英雄 JueWuDraft

为MOAB游戏提供了一种名为JueWuDraft的英雄选择方法,该方法利用神经网络和蒙特卡洛树进行搜索。具体来说,MCTS与战略和价值网络相结合,其中价值网络用于评价当前状态的价值,战略网络为下一位英雄选择实行动作采样。

将best-of-N选择英雄问题描述为多个组合游戏问题,其中每个游戏都有预测最终阵容的胜利率。为了适应这样的best-of-N选英雄问题,作者设计了长期的价值机制。这将考虑当前状态的价值估计后续对局。

作者在单局和多局游戏中实施了广泛的实验验证,结果显示,JueWuDraft比其他现在的最佳方法更好。

相关的工作。

在MOBA游戏中选择英雄的问题上,以前的方法主要分为以下4种

1.根据该游戏过去的英雄出场率进行选择。

2.根据游戏前英雄的胜利率进行选择。

3.Minimax算法。

4.蒙特卡洛树搜索。

绝悟用这种方法选择英雄。

问题的说明。

如上所述,在MOBA游戏中,选择英雄的过程非常重要,尤其是在复杂的游戏比赛中。在正规的MOBA比赛中,在确定胜利者方面,常用的战略是best-of-N多局格式,其中n是奇数,通常是best-of-3或best-of-5,即三局两胜制或五局三胜制。举个例子,王者荣光职业联赛(KPL)的比赛形式总是包括很多比赛。其中两支战队进行多场比赛,直到某支战队赢得其中(N+1)/2场比赛。另外,在多场比赛中,KPL不允许玩家选择自己战队前几场比赛中选择的英雄。这意味着,为了赢得多场比赛的最终胜利,在选择英雄时,不仅要考虑现在的比赛,还要考虑后续的比赛。

基于这些考虑,除了单独考虑各局英雄的选择外,本文还将会场G定义为双玩家零和完美的信息游戏问题,其中有重复的子结构。比赛中考虑的要素包括玩家数量、选择顺序、游戏状态等,详情请参阅原论文。此外,还需要说明这篇论文没有考虑英雄禁止的情况。

利用神经网络和树木搜索学习在MOBA游戏中选择英雄。

整体训练框架图2展示了JueWuDraft的整体训练框架。为了提高训练效率,作者将这个框架分散在多个CPU和GPU服务器上进行处理。总的来说,这个框架包括四个模块:数据采样器、样品池、神经网络训练器和模型池。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

图2:整体训练框架。

结合深度神经网络的并行MCTS:该框架使用的检索算法是多种信赖度的上限树。为了提高数据采用的速度,充分利用计算资源,并行搜索树木。总的来说,PUCT搜索树是通过四个步骤反复构建的:选择、评价、扩展和反向传播。图3显示了这个过程。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

图3:英雄选择过程中使用的MCTS每次模拟分为选择、评价、扩展、向后传播4个步骤。搜索结束后,返回概率π(与各节点的访问次数c(s)相比。

战略和价值网络的训练深度神经网络在评价未见状态的价值方面具有很强的泛化能力,因此也是JueWuDraft的重要组成部分,可以提供当前价值的稳定参考,也可以提供主要动作。此外,这种神经网络还可以节省搜索和树木建设的时间。相对而言,传统的MCTS算法将采样到游戏结束,因此将花费大量时间在rollout上。因此,培训网络的方式至关重要。本论文提出的网络可以在单一框架内输出价值和预言策略。

长期价值传播正如前面介绍的那样,在多局比赛中,早期比赛对局的每一次英雄选择都会影响后期对局的选择。此外,总结所有相关对局的结果,预测当前步骤的价值也是直观的做法。长期价值传播有两种情况

MCTS中的反向传播步骤。

价值网络的目标

图4展示了三对局比赛的例子,说明了价值网络中上述两种价值传播方式。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

图4:价值传播。

网络结构和状态重建:为了更有效地训练战略和价值网络,需要重建状态。如图5所示,重构的状态向量主要包括三个部分。一是当前的英雄选择部分,即当前局的英雄选择,对当前局的胜率有主要影响。这个向量的中间部分是历史英雄选择信息。最后一部分是关系信息(例如,现在的对局是哪个先选择的)。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

图5:状态向量的配置。

如图6(b)所示,战略和价值网络使用了简单的3层全连接神经网络。以图5所示的状态向量为输入,输出为两个头(head):带softmax函数的全连接层(战略头,输出各动作的概率),带tanh函数的全连接层(价值头,输出当前状态的价值)。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

图6:网络结构:(a)是胜利率预测器,(b)是战略和价值网络。

胜利率预测器。

在选择英雄阶段,只能获得阵容信息,胜负信息未知。作者采用胜率预测器预测阵容胜率,作为奖励函数。

训练该胜率预测器使用的比赛数据集包括阵容和胜负信息。每个英雄都有[0、N_classeses1]之间的索引。输入特征是所有10个选择英雄的索引。

图6(a)给出了胜率预测器的网络结构。这是一个简单的三层神经网络,其输出层连接着sigmoid激活函数。

实验。

在实验中,JueWuDraft整体优于其他战略,这种算法的有效性和效率也得到了体现。

具体来说,JueWuDraft与这三种战略进行了比较

DraftArtist,使用简单的MCTS,没有战略和价值网络。这个战略不会考虑后续对局的情况。

最高胜利率(HWR)战略,根据统计数据选择剩馀英雄池中胜利率最高的英雄。

随机战略(RD)在剩馀英雄池中随机选择英雄。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

表1:在AI数据集的单局比赛中(各行各业的玩家对抗各行各业的玩家),各行各业的玩家预测胜利率。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

表4:在人类数据集的单局比赛中,各对战略中各行各业玩家的预测胜利率。

以下是一个具体的模拟案例,上市玩家是JueWuDraft和HWR,如图10所示。JueWuDraft在三场比赛中的预测胜率分别为56.3%、71.8%、65.1%。其中第二局和第三局JueWuDraft的胜利率高于第一局。具体而言,在第一局中,JueWuDraft先手选择成吉思汗而不是平均胜率最高的刘备,尽管先选择刘备可能在第一局获得更高的胜率。这说明JueWuDraft的贪婪战略没有HWR那么高,会长线考虑,兼顾后面的对局。

王者的荣耀AI绝悟如何选择英雄?腾讯AILab的新研究暴露了。

图10:JueWuDraft对抗HWR的具体模拟结果,其中JueWuDraft先手选择。

本文来自投稿,不代表野草吧立场,如若转载,请注明出处:https://www.yecaoba.com/40110.html