宏基因组上机操作手册.docx

上传人:小飞机 文档编号:3433574 上传时间:2023-03-13 格式:DOCX 页数:11 大小:40.22KB
返回 下载 相关 举报
宏基因组上机操作手册.docx_第1页
第1页 / 共11页
宏基因组上机操作手册.docx_第2页
第2页 / 共11页
宏基因组上机操作手册.docx_第3页
第3页 / 共11页
宏基因组上机操作手册.docx_第4页
第4页 / 共11页
宏基因组上机操作手册.docx_第5页
第5页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《宏基因组上机操作手册.docx》由会员分享,可在线阅读,更多相关《宏基因组上机操作手册.docx(11页珍藏版)》请在三一办公上搜索。

1、宏基因组上机操作手册目录 0. 准备工作 . 2 1. 宏基因组比对 . 2 2. 宏基因组组装 . 3 2.1 组装软件:SOAPdenovo . 3 2.2 组装软件:Meta-Velvet . 5 3 基因预测 . 6 4 构建基因集 . 7 0. 准备工作 上机步骤如下: mkdir /Metagenome #新建工作目录 cd /Metagenome #进入工作目录 cp -R /RealBio_Train/Metagenome/01_clean_reads ./ #拷贝数据 1. 宏基因组比对 宏基因组的序列可以通过SOAPaligner比对软件,比对上目标基因组,从而进行物种注释

2、或计算物种丰度。SOAPaligner需要先对目标基因组进行建库,建库命令如下: 2bwt-builder SOAPaligner用法: soap a -b -D -o -2 -m -x 其他重要参数: Option -r Type INT 0:不显示;1:随机显示一个;2:全部 匹配模式:0:只允许完全匹配;1:允许一个错配; -M -p INT 2:允许两个错配;4:最佳匹配 INT 程序运行的线程个数 Content 匹配到多处时的策略: 上机内容为: 将拷贝得到的reads比对上微生物的基因组。 上机步骤如下: cd /Metagenome #先进入个人目录下的工作目录 mkdir 0

3、2_alignment #新建02_alignment目录 cd 02_alignment #进入比对目录 cp /RealBio_Train/Metagenome/02_aligner/soapaligner.sh ./ 比对脚本 less test01.pm #查看比对结果 less test01.sm #查看比对结果 #拷贝2. 宏基因组组装 基因组组装是指将测序仪产出的大量的DNA片段拼接成原始的待测物种的染色体序列,可以类比为拼图游戏。本手册指导你如何使用SOAPdenovo组装软件对鸟枪法测序数据进行组装。 2.1 组装软件:SOAPdenovo SOAPdenovo的功能是对二代

4、测序数据进行从头组装。使用SOAPdenovo前首先要清楚的是它的组装配置文件,该文件包含以下信息: Option 全局配置 max_rd_len avg_ins Content 记录输入数据的最大读长,并根据这个配置输入缓存大小。 记录当前文库插入片段大小。 用来配置流程中哪些步骤用到当前文库数据: 文库配asm_flags 置,每个文库需要以LIBrank 表明 q1/q2,q 置单端的reads 本次上机使用到的完整的配置文件内容如下: 不用于构建scaffold,该文库不用设置rank参数。 配置当前文库数据路径,q1/q2用于配置双端的reads,q用于配2,表示当前文库只在构建sc

5、affold时用到; 3,表示当前文库在构建contig与scaffold时都用到。 配置构建scaffold时当前文库的使用优先级,由于单端的reads1,表示当前文库只在构建contig时用到; 配置文件完成后,即可开始进行组装。组装分四步骤操作。 四个步骤分别是: 1. pregraph,De Bruijn图构建。输入组装配置文件,输出图信息文件,主要参数如下: Option -s Type CONFIG Content 指定组装配置文件 -o PREFIX 指定输出文件的前缀,由用户随意设定 指定使用的线程数目。SOAPdenovo使用了多线程技术以充分利-p INT 用计算机资源,一

6、般取运行机子的cpu核心数目即可,如你的机器是双核一个cpu的,那么可指定为2 指定需要构建De Bruijn图的kmer大小,应根据SOAPdenovo的-K INT 版本设定。如使用31mer版本,则可取kmer为31,29,27等 指定构建完De Bruijn图后,需要对深度小于多少的kmer进行过-d INT 滤,一般设置为1 2. 构建contig。输入上一步骤产生的图文件,输出contig序列文件,主要参数如下: Option -g -D Type PREFIX INT 连接边进行过滤。默认取值为1 设定在进行构建contig时,可以先对相似的序列进行合并,参数最-M INT 大取

7、值为3,表示最大程度合并相似序列;最小取值为0,表示不对相似序列进行合并。这里取经验值2 选择是否利用reads的相邻kmer信息解决短重复序列,一般选择-R 利用 3.测序数据map回contig序列。在搭建scaffold前,需要先将输入数据比对回contig序列中,输出比对信息。SOAPdenovo在这一步中会将reads打碎成kmer,将一个个kmer比对回contig上,涉及到的参数有: Option -s -g -p Type STR STR INT Content 输入组装配置文件 输入De Bruijn图文件的前缀,应该与上面步骤1中的-o参数一致 指定多线程运行使用的cpu个

8、数 Content 输入图文件前缀,应该与上面步骤中的-o参数一致 设定在进行构建contig时,需要对深度低于该设定参数的contig4.搭建scaffold。输入上步产生的contig文件和原始数据的比对信息文件,SOAPdenovo将根据比对的pair关系信息,搭建scaffold,主要参数有: Option -g Type STR 一致 Content 输入De Bruijn图文件的前缀,应该与上面步骤1中的-o参数选择是否在搭建完scaffold后对其进行补洞。SOAPdenovo内-F 可选参数 置有补洞流程,主要思路是把落在内洞中的reads进行局部组装,把装好的序列嵌入到内洞中

9、去,完成补洞工作 选择是否需要对高深度的contig进行屏蔽后再搭建scaffold。SOAPdenovo默认会对高深度的contig进行屏蔽,以减少重-u 可选参数 复序列的影响,选择此参数,将不对高深度的contig进行屏蔽 选择选取多长以上的contig进行scaffold搭建。SOAPdenovo-L INT,可选参数 默认选取kmer+2 上机内容为: 将上一步得到的clean reads进行SOAPdenovo组装,得到contig。 上机操作的步骤如下: cd /Metagenome #先进入个人目录下的工作目录 mkdir 03_assembly #新建03_Assembly

10、目录 cd 03_assembly #进入组装目录 mkdir CFG cp /RealBio_Train/Metagenome/03_assembly/CFG/test01.cfg CFG/ #拷贝 组装的config文件到当前目录 mkdir shell #新建脚本目录 cp /RealBio_Train/Metagenome/03_assembly/shell/test01_Kmer31.sh shell/ #拷贝组装脚本到脚本目录 mkdir assemble #新建结果目录 mkdir assemble/test01 sh shell/test01_Kmer31.sh #运行组装脚本

11、 less assemble/test01/test01.scafSeq #查看组装结果 ss.o assemble/test01/test01.scafSeq #查看组装统计结果 模仿CFG/test01.cfg,生成test02文件的config文件CFG/test02.cfg,插入片段长度为412;模仿shell/test01_Kmer31.sh,生成关于test02文件的组装脚本shell/test02_Kmer37.sh,kmer值设为37 mkdir assemble/test02 sh shell/test02_Kmer37.sh #运行组装脚本 less assemble/te

12、st02/test02.scafSeq #查看组装结果 ss.o assemble/tets02/test02.scafSeq #查看组装统计结果 2.2 组装软件:Meta-Velvet Meta-Velvet是在原来基因组组装软件Velvet基础上改进的,适合宏基因组数据的组装软件。主要参数如下: Option -cov_cutoff -ins_length Type INT or auto INT Content De Bruijn图中节点过滤参数,节点层数小于该参数即被过滤 插入片段长度,reads长度加上gaps长度 -exp_cov INT or auto 基因组覆盖层数,这里选a

13、uto 上机内容为: 将上一步得到的test03样品的clean reads进行SOAPdenovo组装,得到contig。 上机操作的步骤如下: cd /Metagenome #先进入个人目录下的工作目录 cd 03_assembly #进入组装目录 cp /RealBio_Train/Metagenome/03_assembly/shell/test03_Kmer31.sh shell/ #拷贝组装脚本到脚本目录 mkdir assemble/test03 sh shell/test03_Kmer31.sh #运行脚本 less assemble/test03/meta-velvetg.c

14、ontigs.fa #查看组装结果 ss.o assemble/test03/meta-velvetg.contigs.fa #查看统计结果 3 基因预测 宏基因组一般使用MetaGeneMark预测contig中的cds序列。 Option -a -d -f -k -r Type 可选参数 件作为输出格式 利用RBS序列预测基因起始位点 输出RBS序列的打分与间隔序列 Content 输出基因碱基序列 输出基因蛋白序列 选择输出格式:L为lst文件,G为gff文件,一般使用gff文上机内容为: 将上一步得到的clean reads进行SOAPdenovo组装,得到contig。 上机操作的步

15、骤如下: cd /Metagenome #先进入个人目录下的工作目录 mkdir 04_gene_predict #新建04_Gene_predict目录 cd 04_gene_predict #进入基因预测目录 cat .03-assembly/assemble/test01.tst01.scafSeq contig.fa #将上步得到的3个文件的contig文件写入04_gene_predict/contig.fa perl filter.pl contig.fa contig.filter.fa #过滤500bp以下的contig cp /RealBio_Train/Metagenome

16、/04_gene_prediction/gene_prediction.sh /Metagenome/04_gene_predict #拷贝基因预测脚本 cp /RealBio_Train/soft/metagenemark/MetaGeneMark_linux_64/mgm/gm_key /.gm_key #拷贝权限 sh /Metagenome/04_gene_predict/gene_prediction.sh #运行脚本 less /Metagenome/04_gene_predict/gene.gff #查看gff文件 ss.o /Metagenome/04_gene_predict

17、/gene.cds 100 #查看统计信息 4 构建基因集 宏基因组研究未知菌的方法大多通过基因集,相当于环境中微生物基因的集合。通过预测出来的基因,其中有一部分是序列相近或完全相同的。这里需要进行去冗余的步骤,所用到的软件为CD-HIT。 CD-HIT是根据序列相似性,将序列进行聚类的软件。 Option -c Type DOUBLE 的碱基数的比值 配置coverage参数,即匹配上的碱基数与较短的基因碱基数-aS DOUBLE 的比值 上机内容为: 将之前得到的基因序列合并,并去冗余,得到非冗余的基因集。 上机操作的步骤如下: cd /Metagenome #先进入个人目录下的工作目录

18、mkdir 05_gene_catalog #新建05_Gene_catalog 目录 cd 05_gene_catalog #进入基因集去冗余目录 cp ./04_gene_predict/gene.cds ./ #将上步得到的gene序列文件写入05_gene_catalog/gene.cds cp /RealBio_Train/Metagenome/05_gene_catalog/cd-hit.sh ./ #拷贝基因集去冗余脚本 sh /RealBio_Train/Metagenome/05_gene_catalog/cd-hit.sh #运行脚本 less gene.fna.clstr #查看聚类文件 less gene.fna #查看基因集文件 Content 配合-G 0,配置identity参数,即完全匹配的碱基数与匹配上

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备2025010119号-1

经营许可证:宁B2-20210002

宁公网安备 64010402000987号