李飞飞两位高徒联合指导:能看懂「多模态提示」的机器人,zero-shot性能提升2.9倍

人工智能领域的下一个发展机会,有可能是给AI模型装上一个「身体」,与真实世界进行互动来学习。

相比现有的自然语言处理、计算机视觉等在特定环境下执行的任务来说,开放领域的机器人技术显然更难。

比如prompt-based学习可以让单个语言模型执行任意的自然语言处理任务,比如写代码、做文摘、问答,只需要修改prompt即可。

机器人技术中的任务规范种类更多,比如模仿单样本演示、遵照语言指示或者实现某一视觉目标,这些通常都被视为不同的任务,由专门训练后的模型来处理。

最近来自英伟达、斯坦福大学、玛卡莱斯特学院、加州理工、清华大学和得克萨斯大学奥斯汀分校的研究人员共同提出一个基于Transformer的通用机器人智能体VIMA,利用多模态的prompt,实现极高的泛化性能,能够处理大量的机器人操作任务。

论文链接:https://arxiv.org/abs/2210.03094

项目链接:https://vimalabs.github.io/

代码链接:https://github.com/vimalabs/VIMA

输入prompt为交错使用的文字和视觉符号

为了训练和评估VIMA,研究人员提出了一个新的模拟基准数据集,包含上千个由程序生成的带有多模态提示的桌面任务,和60多万条专家轨迹用于模仿学习,以四个等级来评估模型的泛化性能

在同等尺寸的模型、等量训练数据的情况下,VIMA在最难的zero-shot的泛化设置下任务成功率为当下sota方法的2.9倍

在训练数据减少10倍的情况下,VIMA的表现仍然比其他方法好2.7倍。

目前所有的代码、预训练模型、数据集和模拟基准都已完全开源

论文的第一作者是Yunfan Jiang,斯坦福大学硕士二年级学生,目前在英伟达研究院实习。2020年本科毕业于爱丁堡大学。他的主要研究方向为具身人工智能(embodied AI),即通过与环境的互动来学习。具体研究内容为如何利用大规模的基础模型来实现开放式的的具身智能体(embodied agents)

论文包含两位导师,均为李飞飞曾经的学生。

朱玉可,本科毕业于浙江大学,并取得了浙江大学和加拿大西蒙弗雷泽大学的双学位。硕士和博士研究生就读于斯坦福大学,师从李飞飞,并于2019年8月取得博士学位。朱玉可现任UT Austin计算机科学系助理教授,同时是机器人感知和学习实验室的主任,以及英伟达研究院高级研究科学家。

范麟熙,博士毕业于斯坦福大学,师从李飞飞,目前是NVIDIA AI的研究科学家。主要研究方向为开发通用且强大的自主智能体(generally capable autonomous agents),具体的研究工作涵盖了基础模型、策略学习、机器人技术、多模式学习和大规模系统。

机器人与多模态prompt

Transformer在NLP领域多任务已经实现相当高的性能,仅一个模型就能同时完成问答、机器翻译、文本摘要等。

实现不同任务的接口就在于输入的文本提示,从而将具体的任务需求传递给通用大模型。

能不能把这种prompt接口用在通用机器人智能体上呢?

对于一个家务机器人来说,理想情况下,只需要输入给我拿 ,机器人就可以按照图片把杯子拿过来。

当机器人需要学习新技能时,最好可以通过输入视频演示就能学习。如果机器人需要与不熟悉的物体进行互动时,只需要通过图例即可轻松解释。

同时为了确保安全部署,用户可以进一步指定视觉约束,比如不要进入 房间

为了实现这些功能,VIMA模型主要包含三部分:

1、 形式化多模态提示,将机器人操纵任务转化为一个序列建模问题;

2、一个新的机器人智能体模型,能够进行多任务操作 

3、一个具有不同任务的大规模基准,以系统地评估智能体的可扩展性和通用性

首先,由多模态提示带来的灵活性可以让开发者指定和构建一个模型即可支持大量的任务规范,这篇论文中主要考虑六类任务:

1、简单物体操纵(Simple object manipulation),任务提示形如put into ,其中对应的槽位为物体的图像;

2、实现视觉目标(Visual goal reaching),操纵物体实现目标设置,比如重新排列(rearragement);

3、接纳新概念(Novel concept grounding),提示中包含一些不常见的词,例如dax, blicket等,可以通过在提示内的图像进行解释,然后直接在指令中使用,可以测试智能体对新概念的认知速度;

4、单样本视频模仿(One-shot video imitation),观看视频演示,并学习如何以相同的移动路径对一个特定物体进行复现;

5、满足视觉限制(Visual constraint satisfaction),机器人必须小心地操纵物体,来避免触犯安全性限制;

6、视觉推理(Visual reasoning),有一些任务要求智能体需要会推理,比如「把所有和相同纹理的物体都放到一个容器中」,或者要求视觉记忆,如「把放到容器中,然后再放回到原位」

需要注意的是,这六类任务并非互斥,比如有的任务可能会通过演示视频(imitation)引入了一个之前没见过的动词(Novel Concept)

新基准VIM-BENCH

巧妇难为无米之炊,为了训练模型,研究人员同时准备了一些配套数据作为多模态机器人学习基准VIMA-BENCH

仿真环境(Simulation Environment)上,现有的基准一般都是针对特定的任务规范,目前还没有一个基准能够提供丰富的多模态任务套件和全面的测试平台来有针对性地探测代理能力。

为此,研究人员通过扩展Ravens机器人模拟器来建立VIMA-BENCH,支持可扩展的物体和纹理集合,以组成多模态提示,并按程序生成大量的任务。

具体来说,VIMA-BENCH提供了17个带有多模态提示模板的元任务,可以被实例化为1000个独立的任务。每个元任务属于上述6种任务规范方法中的一种或多种。

VIMA-BENCH可以通过脚本化的oracle智能体生成大量的模仿学习数据。

观察和行动(Observation and Actions)上,模拟器的观察空间包括从正视图和自上而下视图渲染的RGB图像,基准还提供真实的物体分割和边界框,用于训练以物体为中心的模型。

VIM-BENCH从前人工作中继承了高级动作空间,由最基础的运动技能组成,如「取放」、「擦拭」等,具体由终端效果的姿势所决定。

模拟器还具有脚本化的oracle程序,可以通过使用特权模拟器的状态信息,如所有物体的精确位置,以及多模态指令的基础解释,生成专家示范。

最终,研究人员通过预编程的oracles生成了一个大型的专家轨迹离线数据集用于模仿学习。数据集包括每个元任务的5万条轨迹,共计65万条成功的轨迹。

同时保留一个物体模型和纹理的子集方便评估,并将17个元任务中的4个用于zero-shot泛化性测试。

VIMA-BENCH的每个任务标准只有成功和失败,不存在中间状态的奖励信号。

在测试时,研究人员在物理模拟器中执行智能体策略,以计算出成功率,所有评估的元任务的平均成功率为最终报告的指标。

评估协议包含四个层次以系统地探测智能体的泛化能力,每一级都更多地偏离训练分布,因此严格来说一级比一级难。

1、放置泛化(Placement generalization):在训练过程中,所有的提示都是逐字逐句的,但在测试时,桌面上的物体放置是随机的。

2、组合泛化(Combinatorial generalization):所有的材料(形容词)和三维物体(名词)在训练中都能看到,但在测试中会出现一些新的组合形式。

3、新物体泛化(Novel object generalization):测试提示和模拟的工作空间包括新的形容词和物体。

4、新任务泛化(Novel task generalization):测试时带有新提示模板的新型元任务

VIMA模型

多模态prompt中总共包含三种格式:

1、文本,使用预训练的T5模型进行分词及获取词向量;

2、整个桌面的场景,首先使用Mask R-CNN识别出所有的独立物体,每个物体由一个bounding box和裁剪图像表示,然后使用一个bounding bo编码器和ViT分别进行编码。

3、单个物体的图像,同样使用ViT获得tokens,然后将结果序列输入到预训练的T5编码器模型中。

机器人控制器(Robot Controller),即解码器的输入为提示序列上进行多次交叉注意力层后的表示和轨迹历史序列。

这样的设计可以增强对prompt的连接度;更好地保留且更深地处理原始prompt tokens;更好的计算效率。

在测试阶段的实验设计,主要为了回答三个问题:

1、VIMA和之前的SOTA基于Transformer的智能体在多模态提示的多种任务上的性能对比;

2、VIMA在模型容量和数据量上的缩放性(scaling properties);

3、不同的视觉分词器,条件提示和条件编码是否会影响到最终的决策。

对比的基线模型包括GatoFlamingoDecision Transformer(DT)

首先在模型缩放(Model scaling)上,研究人员对所有方法从2M到200M参数量进行训练,编码器的尺寸始终保持为T5-base,在所有层次的zero-shot泛化性评估上,VIMA都绝对好于其他工作。

尽管Gato和Flamingo在更大尺寸的模型上性能有所提升,VIMA也仍然好于所有模型。

数据缩放(Data scaling)上,研究人员对各个方法的训练数据采取0.1%, 1%, 10%和全量模仿学习数据集的不同实验,VIMA仅需1%的数据,就能实现其他方法用10倍的数据训练的L1和L2泛化性指标。在L4指标上,仅需1%的训练数据,VIMA就已经要比其他模型在全量数据上训练效果要好了。

渐进泛化(Progressive Generalization)性能对比中,在面向更难的泛化任务中,没有采用任何微调。VIMA模型的性能倒退最少,尤其是从L1到L2和L1到L3,而其他模型退化超过了20%,这也意味着VIMA学习到了更泛化的策略,更健壮的表征。 

参考资料:

https://arxiv.org/abs/2210.03094

本文转载于:https://www.51cto.com/article/720802.html 如有侵犯,请联系admin@zhengruan.com删除

上一篇:AI开发大一统:谷歌OpenXLA开源,整合所有框架和AI芯片

下一篇:人工智能可以帮助实现元宇宙愿景吗?

产品推荐

  • 售后无忧

    立即购买>
    DAEMON Tools Lite 10【序列号终身授权 中文版 Win】
    ¥150.00

    office旗舰店

  • 售后无忧

    立即购买>
    DAEMON Tools Ultra 5【序列号终身授权 中文版 Win】
    ¥198.00

    office旗舰店

  • 售后无忧

    立即购买>
    DAEMON Tools Pro 8【序列号终身授权 中文版 Win】
    ¥189.00

    office旗舰店

  • 售后无忧

    立即购买>
    CorelDRAW X8 简体中文【标准版 Win】
    ¥1788.00

    office旗舰店

  • 正版软件
    gala币有利好消息吗
    利好消息提振Gala币(GALA)价格:1.与EpicGames合作;2.TownStar2即将发行;3.CoinbasePro上市;4.NFT市场增长;5.玩家基础扩大。
    12小时前 00:140
  • 正版软件
    中国十大正规虚拟货币
    目前中国无任何受中国人民银行认可的正规虚拟货币。但以下十种虚拟货币在中国可能存在交易活动:1.比特币(BTC)2.以太坊(ETH)3.泰达币(USDT)4.BNB(BNB)5.狗狗币(DOGE)6.瑞波币(XRP)7.Solana(SOL)8.Cardano(ADA)9.波场币(TRX)10.Uniswap(UNI)。投资这些虚拟货币存在风
    13小时前 23:140
  • 正版软件
    马蹄币交易所
    马蹄币交易所是一个专注于加密货币交易的平台,提供安全可靠、低交易费、24/7全天候支持等优势,特点包括:1.现货交易;2.杠杆交易;3.期货合约;4.质押挖矿;5.OTC交易;6.币币转换。
    昨天 08-19 22:010
  • 正版软件
    kda币前景如何
    KDA币具有良好前景,其PoW共识机制、平行链架构和智能合约平台带来技术优势;此外,企业级可扩展性、DeFi和NFT项目需求增加市场需求;然而,竞争、监管和市场波动也带来了挑战。
    昨天 08-19 21:090
  • 正版软件
    法拉第未来财报揭露:公司或长期难盈利
    据5月29日消息,法拉第未来在最新财报中坦言,公司或许将长期面临无法实现或维持盈利的困境。这一言明揭示了这家电动汽车制造商在经营和财务上面临的巨大压力。尽管法拉第未来在过去几年推出了多款亮眼的电动汽车,并且获得了一定的市场认可,但是高额的研发和生产成本使得公司难以实现盈利。法拉第未来指出,由于可能产生的不可预见费用,以及在交付FF91系列过程中可能遭遇的阻碍和延误,公司可能开始无法获得足够支撑自身运营的稳定收入。尽管FF91系列已经开始逐步交付,但受到包括市场需求不足、车辆服务及保修成本高昂、市场竞争加剧
    前天 08-18 16:57 法拉第未来 0

最新发布

  • 1
    阿里追捧的中台,“热度”退了?
    2080天前
  • 2
    Overture设置踏板标记的方法
    1917天前
  • 3
    思杰马克丁取得CleanMyMac中国区独家发行授权
    1907天前
  • 4
    IBM:20万台Mac让公司职工在工作中更快乐 更多产
    2105天前
  • 5
    报道称微软一直在悄然游说反对“维修权”立法!
    2071天前
  • 6
    美国怀疑华为窃取商业机密 华为:身正不怕影子斜
    2067天前
  • 7
    三星被曝正与联发科接洽 A系列手机有望搭载其5G芯片
    2082天前
  • 8
    环球墨非完成千万级融资 联合企业集团投资
    2103天前
  • 9
    EasyRecovery恢复移动设备中的数据前需要注意什么
    1904天前

相关推荐

  • Siri等明年!苹果WWDC25给AI交底:画小饼,继续熬
  • 比特现金未来:可扩展性与支付潜力
  • 2025虚拟币预测:最贵BTC,最便宜DOGE
  • VIRTUAL币销毁指南:方法与影响
  • 熊链空投惹争议:代币分配谁受益?
  • 艾达币交易规则
  • USDT0上线Optimism和Unichain:跨链新选择
  • ChainLink虚拟币是啥?在哪里交易?
  • CEX挑选潜力代币:AI Agent链化趋势

热门关注

  • Xshell 6 简体中文
    ¥899.00-¥1149.00
  • DaVinci Resolve Studio 16 简体中文
    ¥2550.00-¥2550.00
  • Camtasia 2019 简体中文
    ¥689.00-¥689.00
  • Luminar 3 简体中文
    ¥288.00-¥288.00
  • Apowersoft 录屏王 简体中文
    ¥129.00-¥339.00
网站备案号: 湘ICP备19013367号-1 联系邮箱:haolingbacom@outlook.com
Copyright ©2018-2020

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
标签:
上一篇2025-08-22

相关推荐

  • 莱特帀手机钱包-莱特币手机钱包

    【莱特帀手机钱包】——您的虚拟货币安全助手随着数字货币的兴起,莱特帀作为一种备受关注的加密货币,越来越受到投资者的青睐,为了方便用户安全、便捷地管理莱特帀资

    2025-08-22 01:02:05
    2019
  • ttm数字货币币钱包-ttt数字货币

    TTM数字货币币钱包——您的虚拟货币钱包助手随着数字货币的普及,越来越多的人开始关注并投资数字货币,数字货币的安全存储问题成为了投资者们面临的一大挑战,为了解

    2025-08-22 01:02:05
    2013
  • 货币钱包转账违法吗

    虚拟货币钱包助手:揭秘钱包转账的合法性与风险尊敬的用户,您好!作为虚拟货币钱包助手,今天我们来探讨一下关于虚拟货币钱包转账的合法性与风险问题,什么是虚拟货币钱包

    2025-08-22 01:02:05
    2005
  • 欧意交易所app最新下载安装_欧意OK交易平台App下载教程

    大家好,今天来跟大家分享一下如何下载安装欧意交易所的官方App,也就是欧意OK交易平台App,这个App可以帮助用户在手机上轻松进行数字资产的交易和管理,下面是详细的下

    2025-08-22 01:02:05
    2004
  • 派币今天价值多少钱(派币今日价值报告)

    派币今天价值多少钱(派币今日价值报告)如果你是一名投资者,特别是加密货币投资者,那么你可能会对派币的表现感兴趣。究竟,在今天的市场上,你的派币价值是多少呢?让我们

    2025-08-22 01:02:05
    2003
  • usdt钱包官方下载(高级版本V6.4.24)_USDT钱包是什么?

    USDT钱包是一款基于区块链技术的数字货币钱包,主要应用于泰达币(USDT)的存储、转账和交易,泰达币作为一种稳定币,其价值与美元挂钩,1 USDT兑换1美元,因此在数字货币市场

    2025-08-22 01:02:05
    2003
  • 虚拟币前十名的各币价格

    在数字货币的世界里,各种虚拟币的价格波动总是牵动着投资者的心,下面,我将为您详细介绍当前市值排名前十的虚拟币及其价格情况,帮助您更好地了解这个市场,我们需要明确

    2025-08-22 01:02:05
    2003
  • 鱼池sc钱包-鱼池钱包模式

    【鱼池SC钱包】——您的虚拟货币守护神随着区块链技术的不断发展,虚拟货币已经成为越来越多人的投资选择,为了方便用户安全、便捷地管理自己的虚拟货币资产,各种虚拟

    2025-08-22 01:02:05
    2003