300字范文 > CVPR|微软中科大开源基于深度高分辨表示学习的姿态估计算法

CVPR|微软中科大开源基于深度高分辨表示学习的姿态估计算法

时间：2024-03-29 19:04:51

作者 | 周强（CV君）

来源 | 我爱计算机视觉（公众号id：aicvml）

如何挑战百万年薪的人工智能！
/topic/ai30?utm_source=csdn_bw

昨天arXiv出现了好几篇被CVPR 接收的论文。

其中来自微软和中国科技大学研究学者的论文《Deep High-Resolution Representation Learning for Human Pose Estimation》和相应代码甫一公布，立刻引起大家的关注，不到一天之内，github上已有将近50颗星。

今天就跟大家一起来品读此文妙处。

该文作者信息：

该文为第一作者Ke Sun在微软亚洲研究院实习期间发明的算法。

基本思想

作者观察到，现有姿态估计算法中往往网络会有先降低分辨率再恢复高分辨率的过程，比如下面的几种典型网络。

为便于表达，在下面的a、b、c、d四幅图中，同一水平线上的特征图为相同分辨率，越向下分辨率越小，在最终的高分辨率特征图heatmap中计算姿态估计的关键点。

Hourglass

Cascaded pyramid networks

Simple baseline

Combined with dilated convolutions

其中的网络结构说明如下：

作者希望不要有这个分辨率恢复的过程，在网络各个阶段都存在高分辨率特征图。

下图简洁明了地表达作者的思想。

在上图中网络向右侧方向，深度不断加深，网络向下方向，特征图被下采样分辨率越小，相同深度高分辨率和低分辨率特征图在中间有互相融合的过程。

作者描述这种结构为不同分辨率子网络并行前进。

关键点的heatmap是在最后的高分辨率特征图上计算的。

网络中不同分辨率子网络特征图融合过程如下：

主要是使用strided 3*3的卷积来下采样和up sample 1*1卷积上采样。

这么做有什么好处？

作者认为：

1）一直维护了高分辨率特征图，不需要恢复分辨率。

2）多次重复融合特征的多分辨率表示。

实验结果

该算法在COCO姿态估计数据集的验证集上测试结果：

与目前的state-of-the-art比较，取得了各个指标的最高值。相同分辨率的输入图像，与之前的最好算法相比增长了3个百分点！

在COCO test-dev数据集上，同样一骑绝尘！

在MPII test 数据集上，同样取得了最好的结果！

作者进一步与之前最好模型比较了参数量、计算量，该文发明的HRNet-W32在精度最高的同时，计算量最低！

如下图：

在PoseTrack姿态跟踪数据集上的结果比较：

同样取得了最好的结果。

下图是算法姿态估计的结果示例：

（请点击查看大图）

不仅仅是姿态估计

作者在官网指出，深度高分辨率网络不仅对姿态估计有效，也可以应用到计算机视觉的其他任务，诸如语义分割、人脸对齐、目标检测、图像分类中，期待更多具有说服力的结果公布。

论文地址：

/pdf/1902.09212.pdf

项目主页：

https://jingdongwang.github.io/Projects/HRNet/PoseEstimation.html

代码地址：

/leoxiaobin/deep-high-resolution-net.pytorch

（本文为AI科技大本营转载文章，转载请微信联系原作者）

人工智能的现状及今后发展趋势如何？
/topic/ai30?utm_source=csdn_bw

群招募

扫码添加小助手微信，回复：公司+研究方向（学校+研究方向），邀你加入技术交流群。技术群审核较严，敬请谅解。

推荐阅读：

90后美女学霸传奇人生：出身清华姚班，成斯坦福AI实验室负责人高徒

如今，你感受到内存技术的“思维速度”了吗？

暴雪游戏遭遇AI“实力”坑队友：四处游走，还不参与战斗

我用Python分析了翟天临的论文，学术还是要认真做啊

快速上手爬虫，有哪些方便实用的工具和服务？

C++ 开发者怒了：这个无用的模块设计最终会害死 C++！

程序员写代码没激情该怎么破？

以太坊升级完成你也做不出爆款应用, 就因为你不知道这个！

刚刚，阿里发布了一个重磅技术炸弹，70%的程序员受影响！

点击“阅读原文”，查看历史精彩文章。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

CVPR|微软 中科大开源基于深度高分辨表示学习的姿态估计算法

CVPR|微软中科大开源基于深度高分辨表示学习的姿态估计算法