300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > Nature Communications|高歌研究组发表单细胞转录组数据检索新方法和参考数据库

Nature Communications|高歌研究组发表单细胞转录组数据检索新方法和参考数据库

时间:2022-11-10 15:45:37

相关推荐

Nature Communications|高歌研究组发表单细胞转录组数据检索新方法和参考数据库

作为细胞异质性研究的重要工具,近年来单细胞转录组测序技术蓬勃发展,并积累了大量研究数据。若能有效利用现有的单细胞数据进行检索与推断,研究者便能更好地进行新测序单细胞的注释,以及综合多数据集的研究。然而,精确的单细胞转录组数据检索和注释需要克服两个挑战:

一、数据集之间的批次效应(batch effect)会显着影响细胞检索的可靠性;

二、目前缺少跨物种和平台、具有高质量注释的单细胞转录组数据库。

日前,北京大学生物医学前沿创新中心(BIOPIC)、北京未来基因诊断高精尖创新中心(ICG)、北京大学生命科学学院生物信息中心(CBI)、蛋白质与植物基因研究国家重点实验室的高歌课题组,在期刊Nature Communications上发表了题为“Searching large-scale scRNA-seq databases via unbiased cell embedding with Cell BLAST”的生物信息学论文,发布了基于深度学习模型的单细胞转录组数据检索和注释的新方法Cell BLAST,以及具备高质量注释的单细胞转录组参考数据库ACA,为有效利用现有数据进行细胞注释和跨数据集研究提供了新的工具和资源。

Cell BLAST使用对抗自编码器(Adversarial Autoencoder)进行转录组数据降维,利用对抗学习策略来消除数据集间的批次效应,取得了优于当前其他同类工具的效果。此外作者基于该模型提出了一个新的、更为准确的细胞相似性度量用于细胞检索,在设计上考虑了单细胞转录组观测本身所具有的不确定性。

除了可以用于细胞类型鉴定,Cell BLAST能灵敏地发现参考数据集中不存在的、未知的细胞类型(图一 a-c);此外,作者用一系列造血干细胞分化的数据集验证了Cell BLAST还能用于注释连续细胞状态(图一 d-f)。

最后,通过收集大量已发表的单细胞转录组数据,作者建立了一个涵盖2,989,582个单细胞、8个物种、27个不同的组织器官的数据库,称为Animal Cell Atlas (ACA)(图一 g, h)。作者对ACA中的细胞注释进行了详细的整理,并使用Cell Ontology构建了一套结构化的细胞类型标注,用于统一不同数据集中的标注以及支持细胞类型的推断。

图一 Cell BLAST的应用和ACA数据库

该课题提供了在线检索平台(https://cblast. gao-),用户可以直接上传待注释的单细胞转录组数据,用ACA中的参考数据集进行细胞检索和自动注释;同时也提供了Python软件包Cell BLAST (/gao-lab/Cell_ BLAST),用户可以使用软件包在自定义的参考数据集上进行模型训练、检索和定制化分析。

北京大学生命科学学院博士生曹智杰和魏琳为该论文的共同第一作者,高歌研究员为通讯作者,陆燊、杨德昌在网站构建方面提供了大力支持。该课题得到了国家重点研发计划、863计划、蛋白质与植物基因研究国家重点实验室和北京未来基因诊断高精尖创新中心的资助。

参考资料:

Cao, Z-J. et al. Searching large-scale scRNA-seq >

研究组介绍

高歌:

北京大学生命科学学院研究员。

实验室研究领域:

随着以深度测序为代表的高通量生物技术在生命科学领域的广泛应用,各种生物学大数据以指数增长大量涌现。这些数据之中蕴藏着大量的宝藏,即生物学的新规律、新发现。但是,这些海量的、指数增长的、并且高噪声的生物数据也带来了巨大的数据分析技术上的挑战。课题组以生物信息学分析技术、方法与平台开发为基础,通过综合运用大数据与统计学习(statistical learning)等计算方法,整合高通量遗传学与功能基因组学数据,探索新表达调控因子的功能与演化及其对生物体新性状和新功能的贡献。目前课题组主要研究方向包括1) 非编码RNA对干细胞命运决定过程的调控、与2) 基因组中适应性基因获得/丢失对调控网络演化的影响。

点击“阅读原文

查看该研究论文全文

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。