(来源:教育新闻网)
一组脸谱人工智能研究人员最近开发了一种叫做“其他游戏(OP)”的算法,该算法建立了一种策略,使得没有经过其他代理训练的代理能够获得高回报(零镜头协调的一种形式)。如果要求不高,这项工作可以大大提高自动驾驶汽车的性能,自动驾驶汽车使用零打击来协调道路上的障碍物和驾驶员周围的导航。
研究人员研究了马尔可夫游戏,它依赖于以某种方式总结游戏历史的变量。(例如,变量可以是重复游戏中的当前游戏或最近游戏序列的任何解释。)游戏是部分可观察的,其玩家(人工智能驱动的代理)根据他们的行为和游戏状态的联合奖励来分享奖励。因此,目标是使预期收入最大化。
在实验中,该团队将操作程序(使用问题描述来协调代理而不是动作标签)应用到杠杆游戏中,在该游戏中,代理需要选择10个杠杆中的一个来协调未知的陌生人。他们说,在训练阶段和测试期间,当与其他作战代理配对时,作战代理执行零打击协调。相比之下,在训练阶段,相互竞争以发现策略的自我行动代理人获得更高的回报,但无法与其他独立训练的自我行动代理人协调。
接下来,研究人员将OP应用于合作纸牌游戏Hanabi。在哈纳比,玩家可以拿到总共五张牌。在每一轮中,他们必须(1)显示另一个玩家手中的花色或牌数,(2)弃牌,或(3)使用花色为“1”的牌或下一个序号尚未玩的花色。我们的目标是通过每组中最高的牌值来获得最高分——这个任务比听起来更具挑战性。关于该卡的信息的披露消耗了八个可用信息令牌中的一个,并且只能通过丢弃或成功打印任何带有“5”的套装来补充。同时,不能玩牌将消耗三个可用的融合令牌中的一个。
据研究人员称,OP改善了交叉游戏,从而消除了游戏中出现的“不人道”的行为,而这些行为通常是人类难以理解的。(例如,在没有OP的情况下,因为代理可能会提示某种颜色来表示它已经丢弃了一张牌,而其伙伴将此解释为在玩另一张牌。(责任编辑:fqj)
防控疫情的需求激发之下,代替人类送药、送餐送菜、消毒巡逻的无人车成了疫情期间的特殊尖兵。疫情过后,无人车配送是否...
2020-03-23 17:12市场分调研机构Omdia的最新数据分析显示,全球智能城市人工智能(AI)软件市场将从6 738亿美元(2019年),在2025年将增长到4...
2020-04-07 17:55现代电测技术日趋成熟,由于具有精度高、便于微机相连实现自动实时处理等优点,已经广泛应用在电气量和非电气量的测量中。
2020-04-07 17:56微软经常在游戏领域开辟路径,扮演开拓者的角色,这一点体现在很多方面,包括微软的尖端技术(DX12终极版 DX光追),硬件(X...
2020-04-07 17:57去年 12 月,波音为美国宇航局发射了未载人的 Starliner 航天器。然而由于技术问题,任务并没有按计划进行。作为 NASA ...
2020-04-07 17:58