300字范文 > 腾讯开源业内最大多标签图像数据集附ResNet-101模型

腾讯开源业内最大多标签图像数据集附ResNet-101模型

时间：2024-03-25 08:11:22

允中发自凹非寺
量子位报道 | 公众号 QbitAI

鹅厂福利，又是开源。

最迟本月月底，腾讯AI Lab将开源“Tencent ML-Images”项目。

不仅要开源多标签图像数据集ML-Images，以及业内目前同类深度学习模型中精度最高的深度残差网络ResNet-101。

业内最大规模

值得注意的是，这次开源的ML-Images包含了1800万图像和1.1万多种常见物体类别，在业内已公开的多标签图像数据集中，规模最大，一般科研机构及中小企业的使用场景，应该够了。

此前，业内公开的最大规模的多标签图像数据集是谷歌公司的Open Images, 包含900万训练图像和6000多物体类别。

所以一旦腾讯ML-Images开源，毫无疑问将成为业内规模最大。

不过腾讯方面认为，不光是数量规模上够诚意，在项目细节上，也都颇为用心：

大规模的多标签图像数据集的构建方法，包括图像的来源、图像候选类别集合、类别语义关系和图像的标注。在ML-Images的构建过程中，团队充分利用了类别语义关系来帮助对图像的精准标注。

基于ML-Images的深度神经网络的训练方法。团队精心设计的损失函数和训练方法，可以有效抑制大规模多标签数据集中类别不均衡对模型训练的负面影响。

基于ML-Images训练得到的ResNet-101模型，具有优异的视觉表示能力和泛化性能。通过迁移学习，该模型在ImageNet验证集上取得了80.73%的top-1分类精度，超过谷歌同类模型（迁移学习模式）的精度，且值得注意的是，ML-Images的规模仅为JFT-300M的约1/17。这充分说明了ML-Images的高质量和训练方法的有效性。详细对比如下表。

（注：微软ResNet-101模型为非迁移学习模式下训练得到，即1.2M预训练图像为原始数据集ImageNet的图像。）