AlphaStar 现在是即时战略游戏中的大师级
DeepMind 今天宣布了一个新的里程碑,它的人工智能代理经过训练可以玩暴雪娱乐游戏星际争霸 II谷歌拥有的人工智能实验室的更复杂的软件,仍然被称为 AlphaStar,现在是即时战略游戏的大师级别,能够在比赛中击败 99.8% 的人类玩家研究结果将发表在科学期刊《自然》的研究论文中
不仅如此,DeepMind 还表示,在与去年夏天选择参加在线比赛的人类对手进行测试时,它还平衡了竞争环境一方面,它训练 AlphaStar 使用游戏的所有三个可玩种族,增加了职业比赛上层游戏的复杂性它还限制 AlphaStar 只能查看人类可以看到的地图部分,并将其可以注册的鼠标点击次数限制为每 5 秒播放 22 个非重复动作,以使其与标准的人类运动保持一致
ALPHASTAR 是星际争霸 II 中的第一位人工智能大师
尽管如此,人工智能仍然能够达到大师级别,最高的在线竞争排名,并且标志着星际争霸 II 中第一个做到这一点的系统DeepMind 认为这一进步进一步证明了通用强化学习有朝一日可以用于训练自学机器人,自动驾驶汽车,并创建更高级的图像和对象识别系统
人工智能进步的历史以游戏的里程碑式成就为标志自从计算机破解围棋,国际象棋和扑克以来,星际争霸已成为下一个重大挑战的共识,AlphaStar 团队的 DeepMind 主要研究科学家大卫·西尔弗在一份声明中说游戏的复杂性远大于国际象棋,因为玩家要控制数百个单位,比围棋复杂,因为每一步都有 10^26 种可能的选择,与扑克相比,玩家对对手的了解更少
早在 1 月份,DeepMind 就宣布其 AlphaStar 系统能够在预先录制的会话中连续 10 场击败顶级职业选手,但在最后一场在线直播的比赛中输给了职业选手 Grzegorz MaNa Komincz该公司在 1 月至 6 月期间不断改进该系统,当时它表示将开始接受来自世界各地的最佳人类玩家的邀请DeepMind 表示,随后的比赛发生在 7 月和 8 月
结果令人震惊:AlphaStar 已经成为这个星球上最老练的星际争霸 II玩家之一,但值得注意的是,它仍然不是超人大约有 0.2% 的玩家能够击败它,但在很大程度上认为系统改进到足以粉碎任何人类对手只是时间问题
这一研究里程碑与总部位于旧金山的人工智能研究公司 OpenAI 的类似里程碑密切相关,后者一直在使用强化学习训练人工智能代理来玩复杂的五对五多人游戏Dota 2早在 4 月份,最先进的 OpenAI Five 软件版本就击败了世界冠军Dota 2团队,而在去年夏天仅以微弱优势输给了两个实力较弱的电子竞技团队之后OpenAI Five 能力的飞跃反映了 AlphaStar 的能力,两者都是这种人工智能方法如何产生前所未有的游戏能力水平的有力例子
与 OpenAI 的Dota 2机器人和其他游戏代理类似,这类AI 研究的目标不仅仅是在各种游戏中碾压人类,只是为了证明它可以做到相反,它是为了证明——只要有足够的时间,精力和资源——复杂的人工智能软件几乎可以在任何竞争性认知挑战中击败人类,无论是棋盘游戏还是现代视频游戏它还展示了强化学习的好处,这是一种特殊的机器学习品牌,在结合大量计算能力和虚拟模拟等训练方法后,在过去几年中取得了巨大成功
与 OpenAI 一样,DeepMind 以更快的速度针对自身版本训练其 AI 代理,以便代理可以在几个月的时间内记录数百年的游戏时间这使得这种类型的软件能够与一些最有才华的围棋人类玩家以及现在的星际争霸和Dota等更复杂的游戏并驾齐驱
这种类型的人工智能有朝一日可能会控制更智能,更安全,自学的机器人
可是,该软件仍然仅限于它旨在解决的狭窄学科下棋的代理不能玩Dota,反之亦然那是因为该软件没有编写易于替换的规则集或方向相反,DeepMind 和其他研究机构使用强化学习让智能体自己弄清楚如何玩,这就是为什么该软件经常开发新颖且难以预测的游戏风格,这些风格后来被顶级人类玩家采用
AlphaStar 是一位引人入胜且非正统的选手——他拥有最好的职业选手的反应能力和速度,但策略和风格完全属于他自己AlphaStar 的训练方式,即特工在联盟中相互竞争,导致游戏玩法非常不同寻常,这真的让你怀疑星际争霸的职业玩家真正探索了多少不同的可能性,熊猫全球团队的职业玩家 Diego Kelazhur Schwimer 在一份声明中说虽然 AlphaStar 的一些策略乍一看可能很奇怪,但我不禁想知道将它展示的所有不同游戏风格结合起来是否真的是玩游戏的最佳方式
DeepMind 希望其实验室和其他 AI 研究人员在强化学习方面取得的进步可能在未来的某个时候得到更广泛的应用此类软件最有可能在现实世界中的应用是机器人技术,其中相同的技术可以正确训练 AI 代理如何在虚拟模拟中执行现实世界的任务,例如机械手的操作然后,在模拟多年的电机控制之后,人工智能可以控制物理机械臂,甚至有一天甚至可以控制全身机器人但 DeepMind 也将越来越复杂的自动驾驶汽车视为其特定机器学习方法的另一个场所
在此背景下,DeepMind还成立了一个由员工和外部研究员组成的“人工智能伦理研究部门”,旨在为真正有益和负责任的人工智能铺平道路。