300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > NBT | gutSMASH预测人类肠道微生物的专门初级代谢途径

NBT | gutSMASH预测人类肠道微生物的专门初级代谢途径

时间:2022-11-17 08:25:22

相关推荐

NBT | gutSMASH预测人类肠道微生物的专门初级代谢途径

gutSMASH预测人类肠道微生物的专门初级代谢途径

gutSMASH predicts specialized primary metabolic pathways from the human gut microbiota

Research article,2月13日,Nature Biotechnology,[IF 54.908]

DOI:/10.1038/s41587-023-01675-1

第一作者:Victòria Pascal Andreu

通讯作者:Michael A. Fischbach, Dylan Dodd, Marnix H. Medema

合作作者:Hannah E. Augustijn、Lianmin Chen(陈连民)、Alexandra Zhernakova、Jingyuan Fu(傅静远)

主要单位:

荷兰瓦赫宁根大学生物信息学组(Bioinformatics Group, Wageningen University, Wageningen, The Netherlands)

美国加州斯坦福大学生物工程系(Department of Bioengineering, Stanford University, Stanford, CA, USA)

美国加州斯坦福大学微生物和免疫学系(Department of Microbiology and Immunology, Stanford University, Stanford, CA, USA)

美国加利福尼亚州旧金山陈·扎克伯格生物中心(Chan Zuckerberg Biohub, San Francisco, CA, USA)

美国加州斯坦福大学病理学系(Department of Pathology, Stanford University, Stanford, CA, USA)

- 摘要 -

肠道微生物群产生数百种小分子,其中许多调节宿主生理。尽管已努力鉴定次级代谢产物的生物合成基因,但肠道微生物群的化学输出主要由初级代谢产物组成。在此,我们介绍了用于鉴定初级代谢基因簇的gutSMASH算法,并将其用于系统地分析肠道微生物群代谢,在4240个高质量微生物基因组中鉴定出19890个基因簇。我们发现门之间的途径分布存在显著差异,反映了能量捕获的不同策略。这些数据解释了短链脂肪酸生成的分类差异,并提示了每个分类单元的特征代谢生态位。对荷兰人群队列中1135名个体的分析表明,血浆和粪便中微生物源性代谢产物(microbiome-derived metabolites)的水平与相应代谢基因的宏基因组丰度几乎完全不相关,这表明其在途径特异性基因调控和代谢产物通量(metabolite flux)中起着关键作用。这项工作是理解细菌分类群如何影响微生物群化学差异的起点。

- 介绍 -

编码微生物代谢产物产生的途径通常在物理上聚集在基因组中,位于被称为代谢基因簇(MGC)的区域。目前用于计算预测代谢途径的工具集中于天然产物生物合成或通用初级代谢的基因簇。在此,我们引入了一种称为gutSMASH的算法,用于分析肠道微生物群中已知和预测的新的特化初级MGC,我们将其定义为编码初级代谢途径的基因簇,这些代谢途径是分类单元特异性的、生态位定义的并且对(宿主–)微生物群相互作用很重要。我们使用该工具对来自肠道微生物群的细菌菌株中的原发性MGC进行了系统分析,并在一个基于人群的大型队列和一个临床队列中确定了每种途径的患病率和丰度。尽管gutSMASH的构建旨在从厌氧的人肠道细菌中特异性预测MGC,但该工具也可应用于栖息在其他(动物)身体部位的微生物群。

识别物理聚集基因的算法已经成为细菌途径识别的主流。仅基于序列相似性,考虑基因的保守物理聚类可防止假阳性命中。这一原理已被广泛应用于天然产物生物合成领域——例如,在antiSMASH中,它通过使用轮廓隐马尔可夫模型(pHMMs)检测物理聚集的蛋白质结构域来预测生物合成基因簇(BGC)。在本研究中,我们定制了该基因簇检测框架来检测参与初级代谢和生物能学的MGC。

- 结果 -

图1:gutSMASH检测规则的开发与设计

(1)从文献中收集了一组已知和表征过的的MGC编码通路。在所有MGC中鉴定了蛋白结构域,并手动鉴定了核心酶结构域。对于属于广泛的多功能酶家族的酶结构域,构建了蛋白质超家族系统发育,以产生分支特异性pHMMs。

(2)这些域已包含在初始检测规则中。在测试集上运行检测规则,并将同一规则预测的所有MGC分组在一起

(3)通过BiG-SCAPE,将MGC分组为基因簇家族(GCF)。

(4)基于对GCF成员的文献分析,手动微调检测规则,以纳入或排除与特定初级代谢相关或不相关的MGC架构。

(5)最后,对微调后的检测规则进行注释,并根据其代谢终产物将其分为不同的MGC类。

图2:人类肠道中已知的最具代表性的跨属的通路分布

a, 圆圈代表每个属中已知通路的缺失/存在。较大的圆圈表示一个属中超过50%的基因组编码这条通路,而较小的圆圈表示50%或更少的基因组编码这条通路。彩色范围表示MGC按其产物的化学类别分类,其中npAA代表非蛋白原性氨基酸,SCFA代表短链脂肪酸。使用基因组分类数据库版本95(Genome Taxonomy Database release 95)进行分类学分配。该树是使用phyloT(https://phylot.biobyte.de/)生成的,并使用iTOL可视化。

b, 主要乙酸酯合成通路在门水平上的分布。其中一些通路在五个主要门中都普遍存在(例如,丙酮酸转化为乙酸盐/甲酸盐(PFL)),而其他通路仅在厚壁菌门中发现(CO2转化为乙酸盐(WLP))。所描述的基因和基因簇是来自多形拟杆菌(Bacteroides thetaiotaomicron)(PFL和PFOR)、肠炎沙门氏菌(Salmonella enterica)(Eut)、产孢梭菌(Clostridium sporogenes)(Cut)、艰难梭菌(Clostridium difficile)(WLP)和胶粘梭菌(Clostridium sticklandii)(Grd)的代表。

c, 埃希氏菌属(Escherichia)中的生物能策略,与类杆菌(Bacteroides)和梭菌(Clostridium)相比,其有多种替代电子受体可供选择。CA,胆酸;CDCA,鹅去氧胆酸;Cut,胆碱使用(choline use);DCA,脱氧胆酸;Eut,乙醇胺使用(ethanolamine use);Grd,甘氨酸还原酶;Hyd,氢化酶;LCA,石胆酸;Ndh,NADH脱氢酶。

图3:1135份人类微生物组样本中专门化初级代谢途径的流行率和丰度

a, 所有微生物群中41种已知MGC编码通路类中每一种的流行率,以样本的百分比测量,其中属于给定类的至少一种参考MGC的核心酶编码基因被跨 > 5%序列长度的宏基因组读长所覆盖。由于低丰度分类群的测序深度有限,为了避免假阴性,将该界限值保持在较低水平(原始数据见补充表7)。

b, 所有LifeLines DEEP宏基因组中所有41种已知通路类别的log2 RPKM相对丰度值的分布,按产物类别分类(n = 1135原始计数数据见补充表8)。所有样本都用方框图中的点表示,代表给定样本的log2 RPKM值。方框限制表示数据集的四分位数;轴须线延伸至1.5×四分位数范围;中心线表示中间值。

图4:与代谢组数据的通路相关性

a, LifeLine DEEP队列(n = 1055)的遗传通路丰度与血浆(相关图1-5)和粪便(相关图6-8)中代谢产物丰度的相关性有限。相关图2-4和6-8分别对应于与相同SCFAs的血浆和粪便水平相关的通路。x轴表示通路的丰度,y轴表示血浆或粪便中代谢产物的丰度水平。灰色线表示最佳线性拟合,置信区间为95%。在对年龄、性别和读长深度进行调整后,使用Spearman相关性(双侧)检验通路丰度和代谢产物水平之间的关系。还显示了基于秩的Spearman相关系数和经验P值(empirical P value are)。Spearman相关性(双侧)用于在对年龄、性别和高增长深度进行调整后,检查通路丰度和代谢产物水平之间的关系。

b, 在考虑宏基因组/代谢组相关性(mg_81,红色)和宏转录组/代谢组相关性(mt_81,青绿色)时,考虑具有成对宏基因组/代谢组/宏转录组数据的81个样本的情况下,gutSMASH预测的通路与iHMP数据之间的总体相关性方框图,以及考虑具有宏转录组/代谢组数据的271个样本的相关性(mt_271,黄色)。点图中显示了各个数据点。方框限制表示数据集的四分位数;轴须线延伸至1.5×四分位数范围;中心线表示中间值。

c, 每个数据集中三种特定通路的相关性(Spearman,双侧)图,mg_81和mt_81数据集以红色/绿松石色显示,mt_271数据集以黄色显示。对于每种通路,轴标签使用不同的颜色:紫色表示丙二醇利用,绿色表示琥珀酸盐转化为丙酸盐,红色表示CA/CDCA转化为DCA/LCA;b中方框图中的相应数据点被相应地着色。

- 讨论 -

gutSMASH软件构成了一个整合自动化工具,旨在从基因组序列或宏基因组重叠群中识别生态位定义(niche-defining)的主要代谢途径。即使是成熟的代谢网络重建软件,如PathwayTools(使用广泛的MetaCyc数据库)也无法检测到gutSMASH检测到的41条MGC编码途径中的两条)。我们还评估了gutSMASH和GenomeProperties之间的通路重叠,在41条MGC编码的通路中,只有5条可以使用后者进行系统注释。此外,MGC的鉴定大大增强了对给定通路的推定检测同源物确实协同作用的可视度。下游检测到的MGC可用作HUMAnN或BiG-MAP等基于读长分析工具的输入,以测量编码通路的丰度或表达水平。除了这些功能之外,gutSMASH框架还有助于识别微生物群中的新(即未表征的)通路。为此,我们设计了一套额外的规则,称为图1中的一般规则,以检测含有至少一种以下关键酶的未知功能的原代MGC: Fe-S黄素酶、甘氨酰自由基酶、2-羟基戊二酰-CoA脱水酶相关酶和/或参与氧化脱羧的酶。在对4240个微生物基因组进行gutSMASH分析并取出推定的MGC后,我们发现了来自760个不同物种的12256个推定的MGC,这些MGC在90%的序列相似性下进行冗余过滤后,被归类为932个GCF。在这些数据中,我们手动对附图3和图4中突出显示的具有前所未有的酶编码基因含量的一系列基因簇进行了优先排序(补充信息结果:“假定簇和远缘同源物的分析: 进一步研究的相关候选物”)。这些假定的MGC可能是发现新通路和代谢产物的潜在来源。因此,在酶/通路发现领域,gutSMASH是一种有价值的工具,可用于将代谢产物与基因簇联系起来,并鉴定与微生物相关的表型相关的基因。

翻译:吴季秋 格罗宁根大学

责编:马腾飞 兰州大学

审核:刘永鑫 中国农科院基因组所

参考文献

Pascal Andreu, Victòria, Hannah E. Augustijn, Lianmin Chen, Alexandra Zhernakova, Jingyuan Fu, Michael A. Fischbach, Dylan Dodd, Marnix H. Medema. . “gutSMASH predicts specialized primary metabolic pathways from the human gut microbiota.” Nature Biotechnology /10.1038/s41587-023-01675-1

antiSMASH 5.0: updates to the secondary metabolite genome mining pipeline. /10.1093/nar/gkz310

Pascal Andreu, Victòria, Jorge Roel-Touris, Dylan Dodd, Michael A Fischbach, Marnix H Medema. . “The gutSMASH web server: automated identification of primary metabolic gene clusters from the gut microbiota.” Nucleic Acids Research /10.1093/nar/gkab353

猜你喜欢

iMeta简介高引文章高颜值绘图imageGP网络分析iNAP

iMeta网页工具代谢组MetOrigin美吉云乳酸化预测DeepKla

iMeta综述肠菌菌群植物菌群口腔菌群蛋白质结构预测

10000+:菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature

系列教程:微生物组入门Biostar微生物组宏基因组

专业技能:学术图表高分文章生信宝典不可或缺的人

一文读懂:宏基因组寄生虫益处进化树必备技能:提问搜索Endnote

扩增子分析:图表解读分析流程统计绘图

16S功能预测PICRUStFAPROTAXBugbaseTax4Fun

生物科普:肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

点击阅读原文,跳转最新文章目录阅读

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。