RepeatMasker网页版和命令行版使用说明.docx

上传人:小飞机 文档编号:4888749 上传时间:2023-05-21 格式:DOCX 页数:12 大小:206.13KB
返回 下载 相关 举报
RepeatMasker网页版和命令行版使用说明.docx_第1页
第1页 / 共12页
RepeatMasker网页版和命令行版使用说明.docx_第2页
第2页 / 共12页
RepeatMasker网页版和命令行版使用说明.docx_第3页
第3页 / 共12页
RepeatMasker网页版和命令行版使用说明.docx_第4页
第4页 / 共12页
RepeatMasker网页版和命令行版使用说明.docx_第5页
第5页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《RepeatMasker网页版和命令行版使用说明.docx》由会员分享,可在线阅读,更多相关《RepeatMasker网页版和命令行版使用说明.docx(12页珍藏版)》请在三一办公上搜索。

1、RepeatMasker网页版和命令行版 使用说明(中文翻译版)引用自 Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences. Curr Protoc Bioinformatics. 2009 Mar;Chapter 4:Unit 4.10. doi: 10.1002/0471250953.bi0410s25.RepeatMasker是一款广泛应用于基因鉴定、分类和mask repetitive elements,包括 低复杂度序列和散布重复序列。Re

2、peatMasker通过将数据库如:Repbase中已知的重复序列 与输入的基因组序列比对来搜素重复序列。在此我们描述两个基础协议,它对如何运用 RepeatMasker去分析基因组序列的重复元件提供细节上的指导,而不论是通过网络界面还 是通过Unix/Linux命令系统。在RepeatMasker中的序列比较通常经过cross-match程序 的序列比对来实现,对于较大序列这一过程需要大量处理时间。交替协议描述的是通过应用 诸如WU-BLAST这样的选择性比对程序来怎样减少处理时间。而且RepeatMasker的优势、局 限和已被发现的漏洞将在此进行讨论,最后提供理解其处理结果的指南。在新的

3、RepeatMasker程序包中添加了鉴定蛋白质序列的重复原件的程序。要运行RepeatMasker,首先要选择重复库文件(repeat library files),这一文件包 含重复元件共有序列。目前,Repbase Update是最大的商业性(商购)重复库(free for academic use)并且包含了相当数量的包括人、啮齿动物、斑马鱼、果蝇以及拟南芥在内的 生物体。生物体的库文件中没有Repbase Update时,库文件会用RECON (Bao and Eddy, 2002;)或 RepeatScout (; Price et al., 2005)从头产生。最新版本的 REC

4、ON v.1.06 已 经发布并且可以从.中获得RepeatModeler程序包。RepeatMasker的序列比较常通过Phil Green改进的cross-match ()来实现,另外也可以为了快速程序来用 WU-BLAST (; see Alternate Proto col)来代替 cross-match。一、通过网络界面运用RepeatMaskerRepeatMasker可通过来获得,它不像命令行版本的RepeatMasker,网络版RepeatMasker 的核苷酸序列长度限制在100kb,不能分析长度超过100kb的序列(提示会在窗口中显示)。 短于100kb的序列可以用网络版R

5、epeatMasker来分析,其花费的时间与序列的长度相关。 对于北美以外的快速服务有在德国、以色列和澳大利亚的RepeatMasker镜像网站。另外, 如果常规分析大片段序列,最好是下载并本地运行命令行版本。重要的是,如果需分析的序 列超过100kb,唯一的选择就是下载RepeatMasker并在本地运行。必需资源硬件:任意一台联网的计算机。软件:浏览器如IE或火狐浏览器文件:FASTA文件或能通过网络界面处理的收集的FASTA文件。1. 点击网页浏览器,进入.通过序列名或浏览文件下载FASTA序列文件(最大100kb),或 者粘贴FASTA序列(最大100kb)到指定的文本框。如果输入的序

6、列包含非DNA符号或者序列太长,RepeatMasker会提示错误信息。-ll P iSy r*Systems A*V1 LlMC4ahglSdna36433726 (1SS13) nxvu? MIRbgiedna37273768 (1771) (TA)nhgiedna37693WXAO 分 HIRf 1XTDhgiedna4VV 4349* (1V naxe g62”6635JU。*J6511 6763 (15776)v * tv MEMO UPMO6884 7043 54 96) MXR hgljdna70647184(155)MIRbhgie_dna72607500(15039)CMIR

7、chgiettaa93709504(X3O35)MIRhgiedna96119730(1280)CMXRhgiedna97989295(12M4)MIR3hglSdna100162067(12472)OA-rtchhglSdM 10123 X0261122”) C MIR bgiedna 10641 1070 (1173) MXRc bg,8_8a 12043 X2314 (10M5) C MER121 bgie_10 C MXRb hgXe_dna 13349 142018338 L1MBMX, HfiA!*r ! 1MT1LXNB/UC W /ifTO(5SW)2X61LIMB/LIC/W

8、Yt* (0SXHE/NXRv15(165SilMrepeat243(0)SIffi/XXRCTUV /WTO 今 *、255(nyaLINE/LICTM* AfYD*468KU 891(WU/XWltype2230A *4 (0)LINE/Ll SXHE/MIR9U3,衣.SXNE/MIkSIKE/MIR140 282260X9SIOT/MIR9。226(36)SXNB/XIRM Ytf* /WTQ(0)262124SXNt/MIK1 ty c YlfW /kt台1MV?MA () (0SIKB/WXR(o31.63.3 n1.4 n a 2773x /21.0.01.2 58937.10.

9、41-3 49334.63.4i.e3780.00.00.0 49334.63.41.5I 222.60.0L* 34227.09.04.5| 2115.9 27.5 0.0| J37315.00.92.6| 9049.30.80.0I 40030.59.41.7I *| 32732.52.50.8j * 38334.24.64.1 28222.8 7.4 5.8j 27031.116.70.7 40432.47.15.0| 24026.90.00.0| 37327.711.51.3j 21235.43.5l.S| ill29.87.32.5| 390I 57732.226.63.2X61 7

10、4741C.Ci.a1.7sw scoreperc percperc ins.query sequenceposition in querysatchlng repeatposition in repeatdiv.del.begin end(left)repeatclass/famllybeginend(left)XD63831.3.31.4h918_dna3214(22325)C LIMEgLINE/L1(5868)2“1135932.713.00.8hg!8_dna490705(21834) MXRbSIHE/MIR27268(0)2277321.06.01.2hgl8_dna1375 2

11、464(20075) LlMC4aLim/Ll67407882(0)358937.10.41.3hg“_dna2598 2832(19707) MXRbSIHE/MIR20252(1)449334.63.41.6hg!8_dna3643 3726(18813) MXRSIHE/MIR1597(165)53780.00.00.0hqlSdna3727 3768(18771) (TA)nSlsplerepeac2 3(0)649334.63.41.6hg!8_dna3769 3921(18618) MXRSIHE/MIR98255(7)518222.6ie.90.0hg!8_dna4020 407

12、2(18467)C MXRSIHE/MIR(122)14078734227.09.04.Shgl8_dna4349 ”58(17781) L1HE3ELINE/L1468891(99)8261IS.927.50.0hql8_dn.5500 5568(1971)C MXRSIHE/MIR(3)2S91729137315.00.926hg”_dna6279 6511(16028) MER30DNA/MERl_type2230(0)109049.30.80.0hg!8_dna663S 6763(15776) L1PA10LIHE/L1 -60346163(5)1140030.5941.7hq!8_d

13、na6884 7043(15496) MXRSIHE/HXR79250(IB)1232732.52.S0.8hgl8_dna)064 7184(1535$) MIRbSINE/MIR140262(6)1338334.2464.1hgl8_dn7260 7S00(1S039)C MXRcSIHB/MIR(8)26019U28222.87.4S.8hgl8_dna9370 9504(13035) MXR5XHE/MXR90226(36)IS27031.116.70.7hq!8_dna9611 9730(12809)C HIRSINE/MIR(0)2621241640432.47.15.0hQ18_

14、dna9798 9995(12544) MXR3SINt/MIR1202(6)1724026.90.00.0hg!8_dna1001C 10067(”2) GA-richLowcooplexicy152(0)1837327.711.51.3hg!8_dna10123 10261(12278)C MXRSINE/MIR(47)215631921235.43.51.8hgl8_dn10641 10780(11759) MXRcSINE/MIR101238(24)20S7129.7.32.ShQ18_dna12043 12314(10225)C MER121DNA/TcMdr?(37)3607213

15、8032.26.21.6hgl8_dna133S3 13529(9010)C HIRbSINE/MZR(58)2102622227726.63.21.1hql8_dna13549 14201(8338) L1ME3ALINE/Ll54616127(46)23767616.61.81.7hqlSdna14243 16662(5877)C L1MC1LINE/L1hgl8_dna range=chrlO:62743355-62765893 Spad-0 3pad-O strand-+ repeatMasking-none CTNNNiiNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

16、NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNfWNNNNNNNNNNNNACCACTTCCTGTTGCATTTTGTCTTTCTCATTTTAATATGCCAGCTATCTTTTCTATTTCCTTCTCTGGTTTATTACCTTTTATCATATTTGACTTTGTCTTTCTTATTTCAAATCTACTTTA

17、TTGCAGATGCTACCTCAGTGTTGATGTTATTATTTTTTATCCTTACCCTTTTAGTGAATTCATTTGCACAGATAAGTCTCAAATCCATTTCTGTAAGGCCTGTCCTGAGTGTGATTTCTACCTACCTTCCTCTCAAAAACAGTCGATTGATTNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

18、NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNCTGAATACCCATTGTAAGTTAGGTACAGGGGTAGGTATTAGGAATTCAAAAATATGGTATCTATCTTTAGGATAATACTTCCTGTTCTCTACTGGAGGTATTTTCTATTAACATGTCTCAATAATTCTTAAACTAAATATGTCAAAACTGAAGTCTATGCTTTCTTGACACAGAGTCAATCATTCCTCATATTTCCAGTGGCACCTTATATATTCAGCTCTCTAAGATAACA

19、AACAGAATAATTTTACACTTCCCCCAACCCTCTGTCGTGTCTGTCACTATCTCTAGCCAATTAITTTTCTCTAATGTTTTTGCTTCTCTTTTTTCTTTCTTCTGCTGACACTTTTATTCTGGTAGTGGGCCTTTTTCACTCCATGCATAGGTAGCCTTAACTAGCTATTTTTAGTCTTCCAGGCTTTTGCCCATTCATCTGTTATATCTTACGCCACAGCATGAGAATCATCTTGTAACACAATTCCATCACACACACCCCTGCTTAGCTTTATAATATTTCTCTCTAATACTAGTTATA

20、CCAGATCCCAACTCCTTAGACTGATGTGCAAAGTACTCTAAATTCCTACCCACTTACTCTCTCCACTCCCATCTCACCAAGGTTAGTTCTCATTAATGAAATGAAAGGTCTGAAGATCAGAATGCAAAGCTGATCTGNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

21、NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

22、NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNSummary:file nae: RH23cqupload_1212744700sequences:1S31 length:22539 bp (22539 bp excl N/X-runa)GC level:35.84 %bases masked:10789 bp ( 47.87 )=nunber o length pezeenageelesoen9Aoccupied of sequenceLINEg:10LIKE19LIKE21L3/CR10LTR eleen3:0

23、MaLRs0ERVL00ERVclasall0bpbpbpbpbpbpbpM 5 14 0 o o o o o 7 7 03 0 3DMA elexoens:SKERl_type3MER2ype1Unclassified:0Toal incexapcxaedzepcat:9:1079 bpS85 bp222 bp0 bp10695 bp9.94 % 0.00 , 9.94 %32.72 % 31.37 1.3S 0 0.00 ,0.00 0.00 % 0.00 % 0.00 % 0.00 04.79 % 2.60 0.98 0.00 %47.45 ,0 bp0.00 0.00 , 0.19 %

24、 0.23 GSmall RNA:0Savcllies:0Sisxle xepeas:1Low cocqplexiy:1repeals fragmented by insertions or deletions have been counvcd as one elezoen5. 通过点击Speed/Senitivity下的四个单选按钮来调整速度:“rrush”,“quick”, “default”,或“slow”。注意速度和敏感度相关。比如选择“ default”,为了便于理解结果可以看参考。6. 在下拉菜单中选择“DNA source”的次选项,每一项等同于不同的重复原件库。比如这里的例子

25、,其默认值是人,选择人是因为其序列来自于人类的基因组。注意如果待测序列所来自的生物体在菜单中没有,那么就必须本地运行命令行版本的 RepeatMasker 了,而且需要选用来自Rebase中的合适的副本文件。如果Rebase中不含合 适的副本文件,那么 RECON(Bao and Eddy,2002; Stein et al., 200或 RepeatScout(; Price et al.,200)会从头建立重复文件。7. 在下拉菜单的一系列功能中,单选按钮和Lineage Annotation Option下的检查框 (check boxes)来选择合适的选择项。这些选项不需要说明,比如选

26、择Comparison Species与所选物种相关的世系特异性 重复就会通过RepeatMasker输出。8. 在高级选项(Advance Option)的下拉菜单中,选择合适的选项。这些选项同样简单明了。比如,如果想在Masking Option的两个选项间选择,则要 么选择模糊特性,诸如“N”或“X”此类的隐藏,要么选择小写字母,这更适合于序列比 对。这些细节解释和附加选项可通过右边的下拉菜单中获得。9. 点击提交序列按钮运行RepeatMasker。二、在 Unix/Linux 下运行 RepeatMaker命令行版本的RepeatMasker为使用者提供了更多的选择,并且没有最大10

27、0kb的长度 限制。要本地运行 RepeatMasker 需要获得 RepeatMasker、cross_match 和来自 Repbase Update 的相应的重复元件库,下文有详细描述。这也是对于RepeatMasker运行快速程序WU-BLAST 所必须的(参见可选项目)。注意:对于不熟悉Unix的研究者请参见附录1C和附录1D。必须资源:硬件:任意链接网络的Unix或Linux计算机软件:RepeatMasker : 现在软件为开源版本 V.2.1, 可从 epeatmasker.org/RMDownload.html 下载。Cross_match:软件为Phred/Phrap/Co

28、nsed软件安装包的一部分,同时也是对 学术研究者免费的(.org/consed/consed.html#howToGet;also see UNIT 11.2)。为 Phil Green所写()包括以下信息:(a)姓名;(b)同意网站上描述的授权条件 (描述Cross_match要求);化)研究机构或部门;(d)以后联系用得e-mail地 址(e-mail的获得需通过Unix电脑运行通用mail程序,因为许多程序发送的是 非编码文件,而这是与一些mail程序相冲突的)。需要注意的是获得许可需要花 费大约两周的时间。Repbase Update:这一数据库(;Jurka, 2001)包含大量可

29、选择的重复元件库, 这些是运行RepeatMasker所需的。这些库对于学术研究者是免费下载的,对于 需求者需要填写在线表格以说明要获得的数据库文件 (g/accountservices/register.php)。而商业性质的使用者需要联系 Jolanta Walichiewicz()。此外,如果要研究的基因组在Repbase Update中没有合适的 重复库时就需要利用 RECON ( Bao and Eddy,2002)或 RepeatScout (.ucsd.edu/repeatscout/; Price et al., 2005)来进行处理。Stein et al. (2003)使用

30、RECON 建立了线虫 C. elegans和 C. briggsae 的重复库。RECON 可以从 RepeatMasker 安装包中获得,有效的可用下载地址是:,另外RepeatMasker利用RepeatScout 软件从新的基因组序列中标注重复家族的序列。文件:某一 FASTA文件(附件1B)或者一批FASTA文件可以通过命令行版RepeatMasker 处理,注意在这里没有文件大小的限制。例子中使用的是Caenorhabditis elegans的基因 组全序列,有102,287,094 bp长,下载自WormBase()FTP站点()。系统准备1、下载并安装 RepeatMaske

31、r、Tandem Repeat Finder(TRF)、cross_match、WU-BLAST 和Repbase库文件。RepeatMasker为Perl文件,可以安装在任一所需根目录下。Cross_match会通过e-mail方式由作者发送给符合条件的申请者。Repbase Update 将给予使用者名字和密码以便下载重复数据库文件。在实例中,建立一个文件,将其命名为repeat并置于home根目录下,然后复制 RepeatMasker、TRF 和 cross_match 到这一目录下。实例命令如下:$ mkdir repeat$ cd repeat2、更改程序许可。命令:$ chmod

32、u+x RepeatMasker$ chmod u+x cross match$ In -s trf321.linux.exe trf3、通过配置脚本设置路径首先,找到Perl的安装路径:$ which perl默认为:/usr/bin/perl然后更改到repeat文件目录和RepeatMasker的目录,获得现在路径的命令是:user nameRepeatMasker $ pwd默认路径是:/home/user name/repeat/RepeatMasker接下来按照同样的方法获得TRF和cross_match的路径。用下列命令安装程序:$ cd RepeatMasker$ perl .

33、/configure输入所需路径,如实例中,键入Perl解释器的路径:Enter path: /usr/bin/perl键入RepeatMasker程序的本地安装路径:Enter path: /home/ user name /repeat/RepeatMasker键入TRF的安装路径:Enter path: /home/user name/repeat键入cross_match的安装路径:Enter path: /home/ user name/repeat/cross match4、将repeat文件置于正确的目录中(即,RepeatMasker的目录)。确保Libraries的次级目录在

34、RepeatMasker的目录下并包含RepeatMasker.lib和 RepeatMaskerLib.embl 文件。5、为输入和输出创建新目录。注意要将RepeatMasker的输出文件和输入文件置于同一目录下。命令如:$ mkdir RepeatMasker file$ cd RepeatMasker fileRepeatMasker file $下载或复制包含C. elegans基因组序列的FASTA文件(如:current.dna.fa.gz) 并解压。$ gunzip current.dna.fa.gz6、调出命令行参数和选项的简介,方法是在命令行键入RepeatMasker,如

35、:$ ./RepeatMasker/RepeatMasker将会显示以下内容:SYNOPSISRepeatMasker -options .default settings are for masking all type of repeatsin a primate sequence.Choose from a number of options:-q Quick search; 5-10% less sensitive, 2-5 times faster than default-nolow Do not mask low complexity DNA or simple repeats-

36、div number Mask only those repeats x percent diverged from consensus seq-species Specify the species or clade of the input sequence (choose only one!)contamination optionsrunning optionsoutput options获得详细的帮助可键入:$./RepeatMasker/RepeatMasker -h运行 RepeatMasker7、在本地运行命令行版RepeatMasker:% /path/to/RepeatMa

37、sker -el current.dna.fa如:运行命令 $ ./RepeatMasker/RepeatMasker -species elegans current.dna.fa因为例子中的序列来自于C. elegans,使用-species elegans命令以保证调用C. elegans Repbase重复元件数据库文件。结果文件将写在RepeatMasker_file的目录中,在这一目录中调用的序列文件也在这 里。如例中结果文件包括:current.dna.fa.maskedcurrent.dna.fa.logcurrent.dna.fa.dna.catcurrent.dna.fa.dna.outcurrent.dna.fa.dna.tbl这些文件的解释参见后面输出结果文件的导读部分。8、RepeatMasker为使用者提供了大量的选择以满足不同需要。在这里仅对常用的选择 进行介绍,更多的细节参见repeatmasker.help这些也包含在RepeatMasker安装包中。注意当命令众多时,这

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号