谷歌宣布,它在多任务学习方面取得了巨大进展:他们创造了一个可以玩41场雅达利游戏的AI,采用的新训练方法与其他算法相比,大大提高了训练效率!
之前玩星际的CherryPi和火了的AlphaGo都属于单场代理也就是说,一个AI只能玩一局在多智能体方面,现有的训练算法屈指可数:主要包括时间差异学习和行为克隆
但是要让一个代理学会同时玩多个游戏,这些方法之前的训练过程是很漫长的。
现在,谷歌采用了新的决策变压器架构来训练代理,可以在少量的新游戏数据上进行快速微调,使得训练速度更快而且训练效果也是杠杠的——这种多局代理打41场的综合得分是DQN等其他多局代理的两倍左右,甚至比得上只进行单局训练的代理
100%代表每个游戏的平均人类水平,灰条代表单游戏代理,蓝条代表多游戏代理。
让我们来看看这款性能出色的多游戏代理。
新决策转换器的三大亮点
这种处理多种游戏学习的转换器采用了一种将强化学习问题视为条件序列建模的框架它根据agent与环境过去的交互以及预期的收益来指导agent接下来的活动
说到强化学习,讨论的主要问题是:在训练的过程中,面对复杂环境的agent如何在每个时间步感知当前的状态和奖励来指导下一步的行动,从而最终实现累积收益的最大化。
传统的深度RL智能学习一个策略梯度,增加高回报轨迹的概率,降低低回报轨迹的概率。
这就导致了一些问题:需要手动定义一个标量值范围,信息量很大,包括每个具体游戏的适当信息这是一个相当庞大的项目,扩展性很差
为了解决这个问题,谷歌团队提出了一种新方法。
培训包容性数据更加多样化。
谷歌的新决策Transformer将初级玩家到高级玩家的体验数据映射到相应的收入水平开发者认为,这将使AI模型更全面地理解游戏,从而使其更加稳定,提高其游戏水平
根据培训期间代理人与环境之间的相互作用,他们建立了一个利润分配模型这个代理玩游戏的时候,只需要加一个优化偏差,就可以增加高奖励的概率
此外,为了更全面地捕捉训练期间智能体与环境交互的时空模式,开发者还将输入的全局图像改为像素块,使模型能够关注局部动态,掌握与游戏相关的更详细信息。
决策转换器基本架构示意图
可视化代理培训流程
此外,开发人员还别出心裁地将代理的行为可视化然后他们发现,这种多博弈决策智能体总是关注包含关键环境特征等重要信息的区域,它还可以多任务处理:即同时关注多个关键点
红色越亮,代理越关注该像素。
这种多样化的注意力分配也提高了模型的性能。
更好的扩展性。
如今,规模已经成为许多机器学习相关突破的重要驱动力之一,规模扩张一般是通过增加变压器模型中的参数数量来实现的研究人员发现,这种多博弈决策变压器是相似的:伴随着规模的扩大,其性能较其他模型有显著提高
脸书也在研究决策转换器。
Google通过AI使用Decision Transformer,不仅提高了AI玩多游戏的水平,还提高了多游戏代理的可扩展性。
此外,根据谷歌大脑,加州大学伯克利分校和脸书人工智能研究中心的一篇论文,决策变压器架构在加强学习研究平台OpenAI Gym和Key—to—Door的任务方面也表现良好。
也许决策转换器是通用人工智能发展的关键因素之一。
对了,Google AI说相关代码和Checkpoint会陆续在GitHub上开源,有兴趣的朋友可以去看看~
门户网站:
参考链接:
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
关键词:
这个夏天,对城市人来说,比天气更热的应该是夜间经济和露营。 在广佛,你一定去过北滘的...
2022-07-24 10:51
,根据相关消息,将于9月中旬发布的iPhone14系列可能不会采用TSMC的3nm制程...
2022-07-24 09:11
华安证券2007年7月21日发布研报称,给予中控科技买入评级评级原因主要包括:1)营收...
2022-07-23 16:57
三元7月21日晚间发布公告为进一步降低公司生产成本,结合公司发展战略规划和业务发展需要...
2022-07-23 15:37
日前,中国长城大宗交易平台交易量50万股,交易金额487万元,大宗交易价格9.74元这...
2022-07-23 14:50
感谢本站网友肖恩肖提供的线索! ,魅蓝lifemeApp正式登陆苹果AppStore...
2022-07-23 12:27
育碧正计划开发一个全新的项目,名为《刺客信条:无限》,这将是一款类似于《GTAOnli...
2022-07-23 10:24
互联网医院硫酸阿托品滴眼液停止销售,齐星滴眼液神药的命运顿时增加了不确定性。 日前,...
2022-07-23 09:11
7月22日晚间,双塔食品发布公告称,截至本公告日,邢俊农业累计质押股份约1.88亿股,...
2022-07-22 16:45
豆:全球粮食供应趋稳,危机缓解,资金持续流出加剧谷物下行压力。 1.核心逻辑:之前在...
2022-07-22 15:32
2023-06-26 13:34
2023-05-08 17:57
2022-05-12 09:17
2022-05-12 09:16
2022-05-12 09:16
2022-05-12 09:15