新标题:北京大学开创新纪元:类别级6D物体位姿估计新范式在NeurIPS 2023取得最新最佳结果

北京大学的研究人员提出了一种新的类别级6D物体位姿估计方法,这是一个基础且重要的问题,广泛应用于机器人、虚拟现实和增强现实等领域。他们在这篇论文中取得了新的SOTA结果,并且已被机器学习领域的顶级会议NeurIPS 2023接收

6D 物体位姿估计作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多应用。尽管实例级别的物体位姿估计已经取得了显著进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际应用。为了解决这一问题,近年来,越来越多的研究工作集中在类别级别的物体位姿估计上。类别级别的位姿估计要求算法不依赖于物体的 CAD 模型,能够直接应用到与训练数据中相同类别的新物体。

目前,目前广泛使用的6D物体位姿估计方法可以分为两大类:一是直接回归的端到端方法,二是基于物体类别先验的两阶段方法。然而,这些方法都将问题建模为回归任务,因此在处理对称物体和部分可见物体时,需要特殊的设计来应对多解问题

为了克服这些挑战,北京大学的研究团队提出了一种全新的类别级 6D 物体位姿估计范式,将该问题重新定义为条件分布建模问题,从而实现了最新的最优性能。他们还将这一方法成功应用于机器人操作任务,如在视频中展示的倒水等任务。

请点击以下链接查看论文:https://arxiv.org/abs/2306.10531

类别级 6D 物体姿态估计中的多解问题

在6D物体姿态估计的类别级别上,多解问题是指在相同的观测条件下可能存在多个合理的姿态估计。这种情况主要由两个因素引起,如图1所示:对称物体和部分观测。对于对称物体,例如球形或圆柱形的物体,在不同的方向上观测时可能完全相同,因此从理论上讲,它们有无限多个可能的姿态真值。同时,单一视角无法获得完整的物体观测,例如马克杯,在没有观察到杯柄的情况下,也存在无限多个可能的姿态真值

图 1. 多解问题的来源:对称物体和部分观测

方法介绍

怎样应对上述的多解问题呢?作者将此问题视为条件分布建模问题,并提出了一种名为GenPose的方法,该方法利用扩散模型来估计物体位姿的条件分布。该方法首先使用基于分数的扩散模型生成物体位姿的候选项。然后通过两个步骤对候选项进行聚合:首先,通过似然估计筛选掉异常值,然后通过平均池化对剩余候选位姿进行聚合。为了避免在估计似然时需要繁琐的积分计算,研究作者还引入了一种基于能量的扩散模型的训练方法,以实现端到端的似然估计

重新表达为:图片2展示了GenPose的框架结构

以分数为基础的扩散模型用于生成物体姿态候选

重写后的内容:这一步骤的目的是解决多解问题,那么怎样对物体位姿的条件概率分布进行建模呢?作者采用了基于分数的扩散模型,并利用 VE SDE(变分欧拉随机微分方程)构建了一个连续的扩散过程。在模型的训练过程中,其目标是估计扰动条件姿态分布的分数函数,并最终通过 Probability Flow ODE(常微分方程)从条件分布中采样物体姿态的候选项

根据得分的扩散模型生成物体姿态候选,如图3所示

应用以提高物体识别的准确性

通过训练好的条件分布,可以产生无限个物体的姿态候选。从这些候选中,如何得出最终的物体姿态呢?最简单的方法是随机采样,但是这种方法可能无法保证预测结果的稳定性。是否可以通过平均池化的方式来聚合这些姿态候选呢?但是这种聚合方式没有考虑姿态候选的质量,容易受到异常值的影响。作者认为,可以通过似然估计的方式来考虑姿态候选的质量,并进行聚合。具体来说,根据似然估计的结果,对物体姿态候选进行排序,过滤掉似然估计较低的异常值,然后对剩余的姿态候选进行平均池化,就可以得到聚合后的姿态估计结果。但是,使用扩散模型进行似然估计需要进行复杂的积分计算,这严重影响了推理速度,限制了其实际应用。为了解决这个问题,作者提出了训练一个基于能量的扩散模型,直接用于进行端到端的似然估计,从而实现快速聚合候选

图4. 基于能量的扩散模型用于似然估计与物体姿态候选聚合

实验与结果

作者在 REAL275 数据集上对 GenPose 性能进行了验证,可以看出 GenPose 在各项指标上都大幅优于之前的方法,即使是与使用更多模态信息的方法进行对比,GenPose 依然有很大的领先优势,表 1 展示了作者提出的生成式物体姿态估计范式的优势。图 5 是可视化的结果。

需要重写的内容是:与其他方法的对比

第五幅图展示了不同方法的预测可视化效果

作者还研究了不同聚合方法(随机采样、随机排序后聚合、基于能量排序后聚合、GT排序后聚合)的影响。结果显示,使用能量模型进行排序明显优于随机抽样方法。此外,作者提出的基于能量的扩散模型对物体姿态候选进行聚合的方法也明显优于随机采样和随机排序后平均池化的方法

表 2. 不同聚合方式的对比

为了更好地分析能量模型的影响,作者进一步研究了估计的位姿误差与预测的能量之间的相关性。如图 4 所示,预测的位姿误差和能量之间存在一般的负相关关系。能量模型在识别误差较大的姿态时表现较好,而在识别误差较小的姿态时表现较差,这解释了为什么预测的能量被用来去除离群点,而非直接选出能量最大的候选

图6. 能量与预测误差相关性分析

作者还展示了该方法在跨类别泛化方面的能力,该方法不依赖于类别先验知识,并且在跨类别泛化方面的表现也明显优于之前的方法

表格三显示了跨类别泛化效果。左边的斜线表示在训练数据集中包含测试类别时的性能,右边的斜线表示在训练时将测试类别移除后的性能

同时,由于扩散模型的闭环生成过程,文章中的单帧姿态估计框架还可以直接用于 6D 物体姿态跟踪任务,没有任何特殊的设计,该方法在多项指标中优于最先进的 6D 物体姿态跟踪方法,结果如表 4 所示。

表 4. 类别级 6D 物体姿态追踪性能对比

总结与展望

这项工作提出了一个类别级 6D 物体位姿估计新范式,训练过程无需针对对称物体和部分观测带来的多解问题做任何特殊设计,取得了新的 SOTA 性能。未来的工作会利用扩散模型的最新进展来加速推理过程,并考虑结合强化学习来实现主动式 6D 物体位姿估计。

研究团队介绍:

本次研究的通讯作者董豪为北京大学的助理教授、博导、博雅青年学者、智源学者,其创立并领导北大超平面实验室(Hyperplane Lab)。

论文共同一作张继耀、吴铭东为北京大学博士生,导师为董豪老师,详见个人主页。 需要重写的内容是:张继耀和吴铭东是北京大学的博士生,他们共同合作撰写了一篇论文,而董豪老师是他们的导师。具体信息请查看他们的个人主页

  • 需要重写的是:https://jiyao06.github.io/

  • https://aaronanima.github.io/

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
标签:
上一篇2025-08-11

相关推荐

  • 莱特帀手机钱包-莱特币手机钱包

    【莱特帀手机钱包】——您的虚拟货币安全助手随着数字货币的兴起,莱特帀作为一种备受关注的加密货币,越来越受到投资者的青睐,为了方便用户安全、便捷地管理莱特帀资

    2025-08-11 20:56:11
    2019
  • ttm数字货币币钱包-ttt数字货币

    TTM数字货币币钱包——您的虚拟货币钱包助手随着数字货币的普及,越来越多的人开始关注并投资数字货币,数字货币的安全存储问题成为了投资者们面临的一大挑战,为了解

    2025-08-11 20:56:11
    2012
  • 货币钱包转账违法吗

    虚拟货币钱包助手:揭秘钱包转账的合法性与风险尊敬的用户,您好!作为虚拟货币钱包助手,今天我们来探讨一下关于虚拟货币钱包转账的合法性与风险问题,什么是虚拟货币钱包

    2025-08-11 20:56:11
    2004
  • 派币今天价值多少钱(派币今日价值报告)

    派币今天价值多少钱(派币今日价值报告)如果你是一名投资者,特别是加密货币投资者,那么你可能会对派币的表现感兴趣。究竟,在今天的市场上,你的派币价值是多少呢?让我们

    2025-08-11 20:56:11
    2003
  • usdt钱包官方下载(高级版本V6.4.24)_USDT钱包是什么?

    USDT钱包是一款基于区块链技术的数字货币钱包,主要应用于泰达币(USDT)的存储、转账和交易,泰达币作为一种稳定币,其价值与美元挂钩,1 USDT兑换1美元,因此在数字货币市场

    2025-08-11 20:56:11
    2003
  • 虚拟币前十名的各币价格

    在数字货币的世界里,各种虚拟币的价格波动总是牵动着投资者的心,下面,我将为您详细介绍当前市值排名前十的虚拟币及其价格情况,帮助您更好地了解这个市场,我们需要明确

    2025-08-11 20:56:11
    2003
  • 鱼池sc钱包-鱼池钱包模式

    【鱼池SC钱包】——您的虚拟货币守护神随着区块链技术的不断发展,虚拟货币已经成为越来越多人的投资选择,为了方便用户安全、便捷地管理自己的虚拟货币资产,各种虚拟

    2025-08-11 20:56:11
    2003
  • 欧意交易所app最新下载安装_欧意OK交易平台App下载教程

    大家好,今天来跟大家分享一下如何下载安装欧意交易所的官方App,也就是欧意OK交易平台App,这个App可以帮助用户在手机上轻松进行数字资产的交易和管理,下面是详细的下

    2025-08-11 20:56:11
    2003