300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > EPro-PnP:用于单目物体姿态估计的广义端到端概率 PnP(CVPR )

EPro-PnP:用于单目物体姿态估计的广义端到端概率 PnP(CVPR )

时间:2018-07-30 02:17:33

相关推荐

EPro-PnP:用于单目物体姿态估计的广义端到端概率 PnP(CVPR )

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨张海晗

来源丨泡泡机器人SLAM

标题:EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points

for Monocular Object Pose Estimation

作者:Hansheng Chen, Pichao Wang, Fan Wang, Wei Tian, Lu Xiong, Hao Li

来源:CVPR

编译:张海晗

审核:zhh

大家好,今天要介绍的是CVPR的Best Student Paper,EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation。这篇文章通过Softmax将PnP问题带入连续域,结果显著高于现有方法。

摘要:

通过Perspective-n-Points (PnP) 从单个 RGB 图像定位 3D 对象是计算机视觉中长期存在的问题。在端到端深度学习的驱动下,最近的研究建议将 PnP 解释为可微层,以便通过反向传播梯度 w.r.t 来部分学习 2D-3D 点对应关系。物体姿势。然而,从头开始学习整个不受限制的 2D-3D 点集在现有的方法中是无法收敛的,因为确定性姿势本质上是不可微分的。在本文中,我们提出了 EPro-PnP,一种用于一般端到端姿态估计的概率 PnP 层,它输出 SE(3) 流形上的姿态分布,本质上将分类 Softmax 带入连续域。 2D-3D 坐标和相应的权重被视为通过最小化预测和目标姿态分布之间的 KL 散度来学习的中间变量。基本原理统一了现有方法,类似于注意力机制。 EPro-PnP 显著优于竞争基线,缩小了基于 PnP 的方法与 LineMOD 6DoF 姿势估计和 nuScenes 3D 对象检测基准的任务特定领导者之间的差距。

主要贡献:

我们提出了 EPro-PnP,这是一个概率 PnP 层,用于通过可学习的 2D-3D 对应关系进行端到端姿态估计。

我们证明,只需将EPro-PnP 插入 CDPN 框架,EPro-PnP 就可以轻松达到 6DoF 姿态估计的顶级性能。

我们通过提出可变形的对应学习来进行精确的3D 对象检测来展示EPro-PnP 的灵活性,其中整个2D-3D 对应关系都是从头开始学习的

算法流程:

整体流程如上图所示,想通过神经网络提取2D-3D的权重对应关系,再利用提出的PnP方法推算对象位姿的概率。本文的目标是预测一个包含2D和3D以及其对应关系权重的特征X,w表示2D-3D的权重。

PnP层的本质是寻找最小化加权重投影误差fi(y)下的最优位姿y。R和t代表旋转和平移矩阵,公式如下表示:

以前的工作仅通过y的局部解进行反向传播求解,这本质上是不稳定的而且不可微的。本文的一个关键点就是通过引入softmax构建了端到端学习的可微替代方案,保证了可微的概率密度。这里使用的概率密度函数如下:

将位姿 y 的似然函数定义为高斯,即误差平方和

根据贝叶斯定理求解的,位姿y的后验概率表示,也可以被解释为连续的Softmax对应。

在训练的时候对概率模型进行训练,而不是直接对特征X进行训练,从而将整体框架变为可微的形式。

损失函数:

损失函数定义为真值分布与估计分布的KL散度。

真值分布用一个在真值位姿上类似于狄拉克函数的目标分布来表示,当代入后验概率时,

最后,由于不可能计算所有位姿的值,所以通过优先采样来近似分布。在位姿的采样上使用了蒙特卡洛采样方式,这样可以加快采样速度。

实验:

实验部分修改了CDPN的方法进行6DOF位姿推定。在LINEMOD等数据集上得到比较好的结果。

如果你对本文感兴趣,请点击点击阅读原文下载完整文章。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进

4.国内首个面向工业级实战的点云处理课程

5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解

6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦

7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化

8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉+ 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。