300字范文 > linux转录组kegg注释蛋白质组学KEGG注释详解

linux转录组kegg注释蛋白质组学KEGG注释详解

时间：2023-10-29 22:20:48

8种机械键盘轴体对比

本人程序员，要买一个写代码的键盘，请问红轴和茶轴怎么选？

一、KEGG简介

KEGG is a database resource for understanding high-level functions and utilities of the biological system, such as the cell, the organism and the ecosystem, from molecular-level information, especially large-scale molecular datasets generated by genome sequencing and other high-throughput experimental technologies.

(KEGG是一个数据库资源，用于从分子级信息，特别是基因组测序和其他高通量产生的大规模分子数据集中了解生物系统(如细胞，生物体和生态系统)高级功能和效用。)KEGG数据库可以分为3大部分，基因数据库、化学分子物质数据库及基于基因和化学分子物质相互关系而建立起来的代谢通路数据库，在KEGG数据库中，有一个“专有名词”KO(KEGG Orthology)，它是蛋白质(酶)的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后打上KO(或K标签，KEGG orthology (ko)代表的是某个代谢途径，k代表的是某个酶，c代表的是某个化合物，M代表的是某个模块，后面都会跟着编号。代谢通路图中的正方形代表酶，圆形代表代谢物，5.4.4.4代表的是EC编号。

1. KEGG在线注释工具：KAAS(KEGG Automatic Annotation Server)：The method is based on sequence similarities,bi-directional best hit information and some heuristics, and has achieved a high degree of accuracy when compared with the manually curated KEGG GENES database.

在KEGG数据库中，有一个“专有名词”KO(KEGG Orthology)，它是蛋白质(酶)的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后打上KO(或K)标签。对于酶来说，40-70%的序列相似性对于功能的预测有90%的准确性。直系同源基因是来自于相同的祖先的基因分化，保存在不同的物种中的功能基因。在实际操作中，可以通过双向BLAST，来判断两个基因是否是BBH(bi-directional best hit),从而来判断两个基因是否是直系同源基因。因此，对在许多物种中的直系同源基因的鉴定是对新测序的基因功能预测的最便捷的途径。而KEGG 数据库就是通过KEGG Orthology (KO)系统来跨物种注释的一种机制。KAAS的整个预测流程如下图所示：

2.算法原理

KAAS注释软件在运行中提供两种策略，the bi-directional best hit information method(BBH method)和 the single-directional best hit information method (SBH method)。下面以BBH方法为例来讲解一下KAAS软件运行原理。

首先将要注释的基因作为 query，和KEGG数据库中的参考基因进行blast比对，输出的结果(E>10)称为homolog。同时把 KEGG数据库中的参考基因作为query，将要注释的基因作为reference，进行blast比对。实际上KEGG 在做注释的时候，并不是把所有的基因都作为 refernce，而是按照是否来自同一个基因组分成一个一个的小的 reference，分别进行 blast。

假设有两个基因组 A 和B，含有的基因分别为 a1,a2,a3…an；b1,b2,b3…bn 先用A作为 query，B作为refer，进行blast比对，A中的基因a1对B中的基因进行遍历，和基因b1有最高的 bit score。现在用B作为query, A作为refer,进行blast比对，B中的基因b1对A中的基因进行遍历，如果bits score最高的是a1，则a1和a2就是一个Bi-directional best hit (BBH)，但也有可能不是a1，只能成为 Single-directional hit (SBH)。

BHR( Bi-directional hit rate)是KEGG在Bi-directioanl Best Hit 的基础上进行修改的一个选项，BHR = Rf* Rr。用刚才的A和B作为例子。Rf为用A作为query，B作为Refer, a1和B中的每一个基因都计算一次，Rf=Bits_score[a1-b1] /MaxBits_score[a1_b]。Blast Bits Score 是在 Blast raw score 换算过来的。分子是a1和B中的一个基因的Bit_score,分母是a1和B中基因最大的bit_score。反过来，可以计算一下Rr，即B作为query，A作为Refer。对每个 homolog 进行过滤的条件为Blast bits score > 60，bi-directional hit rate (BHR)>0.95

首先根据自己提交数据类型(Complete or Draft Genome、Partial Genome、Metagenomes)，选择对应的提交界面。在这里我们选用Complete or Draft Genome，进入以下界面，并按照图中红色方框及文字指示进行操作。对于比对策略的选用，一般情况下对于单个完整的基因组都选用BBH，尽管速度稍慢(耗用时间为SBH的2倍)，但准确性较高。而对于部分基因组及宏基因组，建议使用SBH。

4.对注释结果进行脚本解析

KAAS软件注释的结果保存在pathway.txt和kolist.txt两个文件中，然后进行脚本解析

解析脚本KEGG_annotation.pl#!/usr/bin/perl -w

use strict;

use Getopt::Long;

my $pathway; #pathway.txt

my $kolist; #kolist.txt

my $tag; #物种拉丁名缩写

my $pathway_name;

my %hash;

my %gene_desc;

Getopt::Long::GetOptions(