生信分析、meta分析、数据挖掘
TCGA、GEO、SEER、Oncomine

宏基因组分析——对比和注释篇

本章导读

在上期的微信推送中,小编为大家介绍了宏基因组基因预测的原理和操作。本期,将在预测得到的非冗余的基因序列基础上,为大家介绍物种注释和功能注释等分析

原理

宏基因组物种注释主要有两种策略,即基于组装和基于reads mapping的方式,且两种方法的应用都很广泛。基于组装的物种注释能够用于发现新物种、挖掘新基因、获得基因的物种来源;而基于reads mapping方法能够避免组装错误,注释过程不依赖于组装和基因预测结果从而避免复杂环境的组装难度。基于序列比对的物种注释,就是将测序数据比对到参考基因组,具体操作步骤这里将不做介绍。

基于组装的物种注释步骤:


注:LCA方法的物种注释可以通过MEGAN软件实现,即基于NR数据库的比对结果,匹配到NCBI Taxonomy。MEGAN还能够接收其他多种格式的输入文件,包括SAM, SILVA, RDP, QIIME等。所以,MEGAN同样能够用于功能等注释,且基本步骤包括:去冗余后的 Unique Genes 与KEGG等数据库比对、MEGAN实现功能注释。


操作

1)软件

  • 比对工具DIAMOND(http://ab.inf.uni-tuebingen.de/software/diamond/)比对速度比blast快,且持续更新。

  • 物种注释工具MEGAN(http://ab.inf.uni-tuebingen.de/data/software/megan6/download/welcome.html),基于LCA算法,能够进行物种注释和功能注释,可视化分析等。

2)输入文件

  • 微生物NR数据库:下载NCBI NR数据库,下载地址为ftp://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz。根据acc号,提取细菌、古细菌序列,最终获得微生物NR文件micronr.fa。

  • 去冗余后的基因序列文件NonRundant.gene.fasta, 见上期推送稿。

3)实现

A. NR库比对(如果做功能注释,则与功能数据库比对,如KEGG):

标准化NR数据库

 diamond makedb --in micronr.fa -d nr

比对

 diamond blastx -d nr -q NonRundant.gene.fasta -a matches

输出m8格式

 diamond view -a matches.daa -o matches.m8

参数说明

makedb 创建适合DIAMOND格式的参考数据库

Blastx   将核酸序列比对到蛋白质序列

View    将daa格式的文件转为m8格式

结果文件matches.m8,如图所示


共有12列,每一列代表:


B. MEGAN注释(以物种注释为例)

文件输入:打开软件MEGAN,如图所示;通过file→import from blast导入上一步比对后的结果文件matches.m8。

物种注释: 加载分类分析包,下载地址http://ab.inf.uni-tuebingen.de/data/software/megan6/download/welcome.html。这里我们使用Accession号的数据包。

进行LCA参数设置,这里选择默认值

点击Apply,生成结果图


注:同样地,如果需要进行功能注释,只需要加载KEGG、SEED等数据包按照相同步骤即可进行功能注释,大家可以尝试一下,由于篇幅限制这里就不做介绍。

供稿人:微生物事业部 王先月

推荐阅读
  1. 微生物分析——R语言绘图篇1

  2. 微生物分析——R语言绘图篇2

  3. 微生物分析——R语言绘图篇3

  4. 手把手教您学会宏基因组组组装

  5. 宏基因组分析——基因预测篇

生信圈致力于每天推送生物信息干货,让大家了解生信行业。旨在通过更多的交流促进行业的发展。我们一直在寻找志同道合的伙伴!投稿邮箱:bioinfor_club@163.com

生信圈

微信ID:bioinfor-club

1.点击历史信息,查看更多内容

2.长按右侧二维码,关注更多生物信息干货

长按二维码关注

赞(0) 打赏
未经允许不得转载:医学SCI科研之家 » 宏基因组分析——对比和注释篇
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

meta分析、生信分析

meta、生信交流群综合科研交流群