300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟

AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟

时间:2023-06-11 20:14:28

相关推荐

AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟

AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI最佳论文公布。

2月22日 极链AI云

官网地址 点击注册

更多AI内容,关注《极链AI云》公众号

文章目录

AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI最佳论文公布。一、中国信息通信研究院发布《AI框架发展白皮书》二、华为诺亚调研200多篇文献发布视觉Transformer 综述,入选TPAMI 三、AAAI22奖项公布,9000投稿选出唯一杰出论文。四、华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白。

一、中国信息通信研究院发布《AI框架发展白皮书》

白皮书致力于厘清AI框架的概念内涵、演进历程、技术体系,通过梳理总结当前AI框架发展现状,研判AI框架技术发展趋势,并对AI框架发展提出展望与路径建议。

白皮书核心观点

1、AI框架演进步入深化阶段。AI框架技术持续演进,历经萌芽阶段、成长阶段、稳定阶段,当前已进入深化阶段,AI框架正向着全场景支持、超大规模AI、安全可信等技术特性深化探索,不断实现新的突破。

2、AI框架已形成较为完整的技术体系。当前主流AI框架的核心技术演化出三大层次,分为基础层、组件层和生态层,其中基础层实现AI框架最基础核心的功能,具体包括编程开发、编译优化以及硬件使能三个子层。

3、AI框架是应对智能经济时代的技术利器。从技术生态体系中的功能定位看,AI框架对下调用底层硬件计算资源,对上支撑AI应用算法模型搭建,提供算法工程化实现的标准环境,是AI技术体系的关键核心。AI框架是应对智能经济时代的技术利器,也将成为智能经济时代的操作系统。

4、全球AI框架繁荣发展,多元化竞合态势渐显。数字科技企业巨头是AI框架发展壮大的核心力量,业界已形成Google-TensorFlow和Meta-PyTorch两家独大的市场格局,双寡头并驱态势下国内AI框架市场格局向着多元发展。全球AI框架开源生态进入活跃期,对AI框架的发展壮大至关重要。AI框架的推广路径逐步清晰,社区生态壮大优化、与高校科研院所联动、面向产业应用提供基础设施及解决方案服务是AI框架开发者规模壮大的主要路径。

5、应对未来多样化挑战,AI框架有六大技术趋势。技术趋势–泛开发:AI框架将注重前端便捷性与后端高效性的统一。技术趋势–全场景:AI框架将支持端边云全场景跨平台设备部署。技术趋势–超大规模:AI框架将着力强化对超大规模AI的支持。技术趋势–科学计算:AI框架将进一步与科学计算深度融合交叉。技术趋势–安全可信:AI框架将助力提升AI模型可解释性与鲁棒性。技术趋势–工程化:AI框架将加速AI应用产业规模级工程化落地。

下载地址:http://www./kxyj/qwfb/bps/02/P00226369908606520.pdf

二、华为诺亚调研200多篇文献发布视觉Transformer 综述,入选TPAMI

华为诺亚方舟实验室联合北大和悉大整理了业界第一篇视觉Transformer综述。

综述论文链接:

/document/9716741/

如何将 Transformer 应用于计算机视觉(CV)任务,引起了越来越多研究人员的兴趣。在过去很长一段时间内,CNN 成为视觉任务中的主要模型架构,但如今 Transformer 呈现出巨大的潜力,有望在视觉领域中打败 CNN 的霸主地位。

谷歌提出了 ViT 架构,首先将图像切块,然后用纯 Transformer 架构直接应用于图像块序列,就能完成对图像的分类,并在多个图像识别基准数据集上取得了优越的性能。除图像分类任务之外,Transformer 还被用于解决其他视觉问题,包括目标检测(DETR),语义分割(SETR),图像处理(IPT)等等。

对于很多刚接触视觉 Transformer 的研究员,看到这么多模型架构或许一时没有头绪,在面对具体应用需求的时候,也不知道选哪一个视觉 Transformer 架构。另外,想做视觉 Transformer 的同学也经常在问还有没有新方向可以挖掘。这些问题或多或少的都可以从这一篇涵盖了 200 多篇前沿论文的综述中找到答案。

基于华为在 Transformer 领域的这些经验并且联合了业界知名学者一起进行了深入思考和讨论,给出了几个很有潜力的未来方向,供大家参考。

表 1 视觉 Transformer 代表性工作

三、AAAI22奖项公布,9000投稿选出唯一杰出论文。

第 36 届 AAAI 人工智能会议已于 2 月 22 日在线上召开。目前,大会公布了今年的杰出论文奖(1 篇)和提名奖(2 篇)。

作为全球人工智能顶会之一, 年的 AAAI 大会热度又创下了历史新高:大会共收到 9251 篇投稿,其中 9020 篇投稿进入了评审环节。但令人意外的是,今年的接收率却创下了历史新低,仅 1349 篇论文被接收,接收率仅为 15.0%。

目前,AAAI 已经公布了杰出论文奖、杰出学生论文奖、Distinguished 论文奖、最佳演示奖等多个奖项。

杰出论文奖

本届会议有 1 篇论文获得杰出论文奖,另有 2 篇论文获得杰出论文提名奖。

杰出论文:

论文地址:

/pdf/2104.14527.pdf

作者:Virginie Do、Sam Corbett-Davies、Jamal Atif、Nicolas Usunier

机构:巴黎第九大学、法国国家科学研究中心、Meta AI 等

摘要:推荐系统正面临审查,因为它们对用户的影响越来越大。当前的公平审计仅限于敏感群体级别的粗粒度奇偶校验评估。该研究建议审计应该「envy-freeness」,这是一个与个人偏好一致的更细化的标准:每个用户都应该更喜欢符合自己的推荐而不是其他用户的推荐。由于「envy」审计需要估计用户现有推荐之外的偏好。该研究提出了一种样本高效算法,理论上保证推荐系统不会降低用户体验。此外,他们还研究了所提方法在现实世界推荐数据集上可以实现的权衡。

杰出论文提名 1:

论文地址:

/pdf/2106.05137.pdf

作者:Jiarui Gan、Rupak Majumdar、Goran Radanovic、Adish Singla

机构:马克斯 · 普朗克软件系统研究所

杰出论文提名 2:

论文地址:

/pdf?id=HJW__woAe7B

作者:Daniel Fišer、Alvaro Torralba、Joerg Hoffmann

机构:萨尔兰大学、捷克理工大学、奥尔堡大学

四、华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白。

华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 ——「悟空」,并在此基础上对不同的多模态预训练模型进行基准测试,有助于中文的视觉语言预训练算法开发和发展。

目前,社区缺乏大规模公开可用的中文数据集,不仅导致社区发展受阻,而且每项工作都使用一个私密的大型数据集来实现,达到一个其它工作无法公平比较的惊人性能。

为了弥补这一差距,华为诺亚方舟实验室的研究者发布了一个名为「悟空」的大型中文跨模态数据集,其中包含来自网络的 1 亿个图文对。为了保证多样性和泛化性,悟空数据集是根据一个包含 20 万个高频中文单词列表收集的。本文还采用基于图像和基于文本的过滤策略来进一步完善悟空数据集,使其成为了迄今为止最大的中文视觉语言跨模态数据集。研究者分析了该数据集,并表明它涵盖了广泛的视觉和文本概念。

论文地址:

/pdf/2202.06767.pdf

数据集地址:

https://wukong-dataset.github.io/wukong-dataset/benchmark.html

研究者还进一步发布了一组使用不同架构(ResNet/ViT/SwinT)和不同方法(CLIP、FILIP 和 LiT)大型预训练模型。本文的主要贡献如下:

发布了具有 1 亿个图文对的大规模视觉和中文语言预训练数据集,涵盖了更全面的视觉概念;

发布了一组使用各种流行架构和方法预训练好的大规模视觉 - 语言模型,并提供针对已发布模型的全面基准测试;

发布的预训练模型在数个中文基准测试任务,例如由 17 个数据集组成的零样本图像分类任务和由 5 个数据集组成的图像文本检索任务,表现出了最优性能。

「悟空」数据集

研究者构建了一个名为悟空的新数据集,该数据集包含从网络收集的 1 亿个图文对。为了涵盖足够多样的视觉概念,悟空数据集是由包含 20 万个词条的查询列表里收集的。这个基础查询列表取自 Yan Song 等人的论文《Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings》,然后根据华为的海量新闻文本语料库中出现的中文单词和短语的频率进行过滤后所得。

查询列表建好后,研究者在百度图片搜索每个查询,以获取图片 URL 列表和相应的标题信息。为了保持不同查询结果间的平衡,他们每个查询最多搜索 1000 个样本。然后使用先前获得的图像 URL 下载图像,最终共收集了 1.66 亿个图文对。然后按照惯例,研究者通过下文的一系列过滤策略来构建最终的悟空数据集。下图 2 显示了悟空数据集中的一些样本。

AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI度论文公布。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。