2017第五章多序列比较的实际应用.ppt

上传人:小飞机 文档编号:5411032 上传时间:2023-07-04 格式:PPT 页数:93 大小:12.69MB
返回 下载 相关 举报
2017第五章多序列比较的实际应用.ppt_第1页
第1页 / 共93页
2017第五章多序列比较的实际应用.ppt_第2页
第2页 / 共93页
2017第五章多序列比较的实际应用.ppt_第3页
第3页 / 共93页
2017第五章多序列比较的实际应用.ppt_第4页
第4页 / 共93页
2017第五章多序列比较的实际应用.ppt_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《2017第五章多序列比较的实际应用.ppt》由会员分享,可在线阅读,更多相关《2017第五章多序列比较的实际应用.ppt(93页珍藏版)》请在三一办公上搜索。

1、多序列比较的实际应用主讲教师:赵雨杰,多序列比较的实际应用,多序列比较就是把两条以上可能有系统进化关系的序列进行比较的方法。,目前对多序列比较的研究还在不断前进中,现有的大多数算法都基于渐进比较的思想,在序列两两比较的基础上逐步优化多序列比较的结果。进行多序列比较后可以对比较结果进行进一步处理,尤其是在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比较。,在搜集的比较序列中,可以看出隐含于蛋白之中的物种进化关系,以便于更好地理解蛋白的进化。研究一个家族中的相关蛋白的差异,分析进化压力和生物秩序对于功能相关的蛋白进化影响。研究完多序列比较中的高度保守区域,我们可以

2、对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。,分析一群相关蛋白质时,很有必要了解比较正确的构成。发展用于多序列比较的程序是一个很有活力的研究领域,绝大多数方法都是基于渐进比较(progressive alignment)的概念。渐进比较的思想依赖于使用者用作比较的序列之间确实存在的生物学上的或者更准确地说是系统发生学上的相互关联。,与数据库检索的关系,1、对数据库搜索,检索结果未知;2、数据库检索后寻找到一组相似序列;3、构建进化树。,CLUSTAL主讲教师:赵雨杰,1.CLUSTAL Omega,CLUSTAL 算法是一个最广泛使用的多序列比较程序,在任何主要的

3、计算机平台上都可以免费使用。这个程序基于渐进比较的思想,将得到的一系列序列输入,对于每两个序列进行双重比较并且计算结果。基于这些比较,计算得到一个距离矩阵,反映了每对序列的关系,然后,基于邻近加入方法,这个矩阵被用来计算出一个系统发生辅助树。,这个辅助树,加权后可以证实极相近的序列,然后以双重比较极相近的序列开始,为组建比较提供基础,重新比较下一个加入的比较序列,依次类推。如果加入的序列较多,那么毫无疑问,必须加入空位以适应序列的差异,但是加入空位必须接受空位开放罚分和空位扩展罚分。,在绝大多数情况下,使用者不会在比较时加入结构信息,但是空位开放补偿利用了可以出现在-螺旋或-折叠末端的特殊残基

4、以及空位罚分所偏好的残基。已经存在的空位的扩展原则很简单,只是要在那些极有可能在结构中形成弯曲的位点扩展空位,这些空位扩展罚分计算是由位置决定的。,为了介绍CLUSTAL 的使用,考察一下从四种不同物种来源的matrix metalloproteinase 9 preproprotein蛋白(Homo sapiens,Paralichthys olivaceus,Rattus norvegicus,Bos taurus)。将下列蛋白序列放入一个独立的纯文本文件中。,gi|14786152|ref|XP_029934.1|matrix metalloproteinase 9 preproprot

5、ein Homo sapiensMSLWQPLVLVLLVLGCCFAAPRQRQSTLVLFPGDLRTNLTDRQLAEEYLYRYGYTRVAEMRGESKSLGPALLLLQKQLSLPETGELDSATLKAMRTPRCGVPDLGRFQTFEGDLKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYSRDADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGVVVPTRFGNADGAACHFPFIFEGRSYSACTTDGRSDGLPWCSTTANYDTDDRFGFCPSERLYTQDGNAD

6、GKPCQFPFIFQGQSYSACTTDGRSDGYRWCATTANYDRDKLFGFCPTRADSTVMGGNSAGELCVFPFTFLGKEYSTCTSEGRGDGRLWCATTSNFDSDKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYRFTEGPPLHKDDVNGIRHLYGPRPEPEPRPPTTTTPQPTAPPTVCPTGPPTVHPSERPTAGPTGPPSAGPTGPPTAGPSTATTVPLSPVDDACNVNIFDAIAEIGNQLYLFKDGKYWRFSEGRGSRPQGPFLIADKWPALPRKLDSVFEERLSKKLFFFSG

7、RQVWVYTGASVLGPRRLDKLGLGADVAQVTGALRSGRGKMLLFSGRRLWRFDVKAQMVDPRSASEVDRMFPGVPLDTHDVFQYREKAYFCQDRFYWRVSSRSELNQVDQVGYVTYDILQCPEDgi|15718389|dbj|BAB68366.1|gelatinase Paralichthys olivaceusMRCCALAVCLVLVIVQDGWSLPLRSISVTFPGDILKNVTDTDLAETYLKRFGYLDKMHRSGFQSMVSTAKALKMMQRQMGLKETGKLDKSTLEAMKQPRCGVPDVANYQTFEGDLKW

8、DHNDVTYRTLNYSPDMESSLIDDAFARAFKVWSDVTPLTFTRLYEGTADIMISFGKADHGDPYPFDGRNGLLAHAYPPGEGVQGDAHFDDDEHWTLGNGPAVKTLYGNADGAMCHFPFTFEGKSYTSCTTDGRTDNLPWCATTADYSRDGKYGFCPSELLYTVGGNADGAKCVFPFVFLEKEYDSCTKEGRSDGYRWCATTANFDQDQKYGFCPSRDTAVFGGNSEGEPCHFPFVFLGKEYDSCTSEGREDGKLWCSTTDNYDEDAKWGFCDDEGYSLFLVAAHEFGHALGLDHSNIREA

9、LMYPMYTYVEDFSLHKDDIEGIQYLYGRGTGPDPTPPQPTSTTTTPNPTEEPEPTTPQPVDPTRDACKLTKFDTITMIENELHFFENGNYWKMPSRGDGGLKGPFSLSERWPALPAVIDSAFEDLLTKNMYFFSGNRFWVYTKEGVLGPRSIEKLGLPTSIQKVEGALQRGKGKVLLFTEESFWKFDLKSQKMDKGYPKSTDYVFGGVPNDAHDVFQYKGHMYFCRDSFYWRMNSRRQVDRVGYVKYDLLKCSDSYgi|13591993|ref|NP_112317.1|matrix metallopr

10、oteinase 9(gelatinase B,92-kDa type IV collagenase)Rattus norvegicusMNPWQPLLLVLLALGYSFAAPHQRQPTYVVFPRDLKTSNLTDTQLAEDYLYRYGYTRAAQMMGEKQSLRPALLMLQKQLSLPQTGELDSETLKAIRSPRCGVPDVGKFQTFEGDLKWHHHNITYWIQSYTEDLPRDVIDDSFARAFAVWSAVTPLTFTRVYGLEADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGAVVPTYFGNANGAPCH

11、FPFTFEGRSYLSCTTDGRNDGKPWCGTTADYDTDRKYGFCPSENLYTEHGNGDGKPCVFPFIFEGHSYSACTTKGRSDGYRWCATTANYDQDKLYGFCPTRADVTVTGGNSAGEMCVFPFVFLGKQYSTCTGEGRSDGRLWCATTSNFDADKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYHYHEDSPLHEDDIKGIQHLYGRGSKPDPRPPATTAAEPQPTAPPTMCPTAPPMAYPTGGPTVAPTGAPSPGPTGPPTAGPSEAPTESSTPVDNPCNVDVFDAIADIQG

12、ALHFFKDGRYWKFSNHGGSQLQGPFLIARTWPALPAKLNSAFEDPQSKKIFFFSGRKMWVYTGQTVLGPRSLDKLGLGSEVTLVTGLLPRRGGKALLISRERIWKFDL KSQKVDPQSVTRLDNEFSGVPWNSHNVFHYQDKAYFCHDKYFWRVSFHNRVNQVDHVAYVTYDLLQCPgi|467621|emb|CAA55127.1|matrix metalloproteinase 9 Bos taurusMSPLQPLVLALLVLACCSAVPRRRQPTVVVFPGEPRTNLTNRQLAEEYLYRYGYTPGAELS

13、EDGQSLQRALLRFQRRLSLPETGELDSTTLNAMRAPRCGVPDVGRFQTFEGELKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYGPEADIVIQFGVREHGDGYPFDGKNGLLAHAFPPGKGIQGDAHFDDEELWSLGKGVVIPTYFGNAKGAACHFPFTFEGRSYSACTTDGRSDDMLWCSTTADYDADRQFGFCPSERLYTQDGNADGKPCVFPFTFQGRTYSACTSDGRSDGYRWCATTANYDQDKLYGFCPTRVDATVTGGNAAGELCVFPFTFLGKEYSAC

14、TREGRNDGHLWCATTSNFDKDKKWGFCPDQGYSLFLVAAHEFGHALGLDHTSVPEALMYPMYRFTEEHPLHRDDVQGIQHLYGPRPEPEPRPPTTTTTTTTEPQPTAPPTVCVTGPPTARPSEGPTTGPTGPPAAGPTGPPTAGPSAAPTESPDPAEDVCNVDIFDAIAEIRNRLHFFKAGKYWRLSEGGGRRVQGPFLVKSKWPALPRKLDSAFEDPLTKKIFFFSGRQVWVYTGASLLGPRRLDKLGLGPEVAQVTGALPRPEGKVLLFSGQSFWRFDVKTQKVDPQSVTPVDQMFPG

15、VPISTHDIFQYQEKAYFCQDHFYWRVSSQNEVNQVDYVGYVTFDLLKCPED,这四种输入序列放在一个单独的文件中,作成7种可以接受的格式中的一种,NBRF/PIR;EMBL/UniProtKB/Swiss-Prot;Pearson(Fasta);GDE;ALN/ClustalW GCG/MSF;RSF,进入站点,将需要比较的序列输入工具程序中,在“序列输入窗口”中输入或粘贴需要比较的序列,也可以在“文件输入窗口”将含有需要比较序列的文件名输入Clustal运行程序中,进行多序列比较。,CLUSTA O结束时,会显示最终的比较结果,在比较下方,一些位点被标记为星号或圆点

16、,这些标记分别显示这些残基在序列中是绝对或是高度保守的。结果输出的最后部分是进化树,可以看出,比较的四种源自不同种属的蛋白进化关系。,MultAlin主讲教师:赵雨杰,2.MultAlin,MultAlin方法也是基于用一系列双重比较开始的思想,然后基于双重比较的打分值进行一个分层次的聚类。当序列都分成类后,开始进行多序列比较,计算出多序列比较中的两个序列比较的新值,基于这些新值,重新构建一棵树。这个过程不断进行,直到分值不再上升,此时所有序列比较也就结束了。,MultAlin()可以在INRA Toulouse的一个环球网点上很容易地执行,要比较的序列按照FASTA的格式被粘贴到序列输入框内

17、,也可以在文件输入窗口输入文件名,将序列提交给服务器。,在提交序列之前,用主界面的一系列下拉菜单,用户定义适当的参数,比如输出格式,可选的输入格式,引用的分值矩阵以及空位开放和扩展罚分的分值。大多数用户只会根据输入序列的远近关系,选择不同的分值矩阵。,Blosum 45 Matrix,G 7 P-2 9 D-1-1 7 E-2 0 2 6 N 0-2 2 0 6 H-2-2 0 0 1 10 Q-2-1 0 2 0 1 6 K-2-1 0 1 0-1 1 5 R-2-2-1 0 0 0 1 3 7 S 0-1 0 0 1-1 0-1-1 4 T-2-1-1-1 0-2-1-1-1 2 5 A

18、0-1-2-1-1-2-1-1-2 1 0 5 M-2-2-3-2-2 0 0-1-1-2-1-1 6 V-3-3-3-3-3-3-3-2-2-1 0 0 1 5 I-4-2-4-3-2-3-2-3-3-2-1-1 2 3 5 L-3-3-3-2-3-2-2-3-2-3-1-1 2 1 2 5 F-3-3-4-3-2-2-4-3-2-2-1-2 0 0 0 1 8 Y-3-3-2-2-2 2-1-1-1-2-1-2 0-1 0 0 3 8 W-2-3-4-3-4-3-2-2-2-4-3-2-2-3-2-2 1 3 15 C-3-4-3-3-2-3-3-3-3-1-1-1-2-1-3-2-2-3

19、-5 12 G P D E N H Q K R S T A M V I L F Y W C,Homo sapiensMSLWQPLVLVLLVLGCCFAAPRQRQSTLVLFPGDLRTNLTDRQLAEEYLYRYGYTRVAEMRGESKSLGPALLLLQKQLSLPETGELDSATLKAMRTPRCGVPDLGRFQTFEGDLKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYSRDADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGVVVPTRFGNADGAACHFPFIFEGRSYS

20、ACTTDGRSDGLPWCSTTANYDTDDRFGFCPSERLYTQDGNADGKPCQFPFIFQGQSYSACTTDGRSDGYRWCATTANYDRDKLFGFCPTRADSTVMGGNSAGELCVFPFTFLGKEYSTCTSEGRGDGRLWCATTSNFDSDKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYRFTEGPPLHKDDVNGIRHLYGPRPEPEPRPPTTTTPQPTAPPTVCPTGPPTVHPSERPTAGPTGPPSAGPTGPPTAGPSTATTVPLSPVDDACNVNIFDAIAEIGNQLYLFKDGKYWRF

21、SEGRGSRPQGPFLIADKWPALPRKLDSVFEERLSKKLFFFSGRQVWVYTGASVLGPRRLDKLGLGADVAQVTGALRSGRGKMLLFSGRRLWRFDVKAQMVDPRSASEVDRMFPGVPLDTHDVFQYREKAYFCQDRFYWRVSSRSELNQVDQVGYVTYDILQCPEDParalichthys olivaceusMRCCALAVCLVLVIVQDGWSLPLRSISVTFPGDILKNVTDTDLAETYLKRFGYLDKMHRSGFQSMVSTAKALKMMQRQMGLKETGKLDKSTLEAMKQPRCGVPDVANYQTFEG

22、DLKWDHNDVTYRTLNYSPDMESSLIDDAFARAFKVWSDVTPLTFTRLYEGTADIMISFGKADHGDPYPFDGRNGLLAHAYPPGEGVQGDAHFDDDEHWTLGNGPAVKTLYGNADGAMCHFPFTFEGKSYTSCTTDGRTDNLPWCATTADYSRDGKYGFCPSELLYTVGGNADGAKCVFPFVFLEKEYDSCTKEGRSDGYRWCATTANFDQDQKYGFCPSRDTAVFGGNSEGEPCHFPFVFLGKEYDSCTSEGREDGKLWCSTTDNYDEDAKWGFCDDEGYSLFLVAAHEFGHALGLDHSN

23、IREALMYPMYTYVEDFSLHKDDIEGIQYLYGRGTGPDPTPPQPTSTTTTPNPTEEPEPTTPQPVDPTRDACKLTKFDTITMIENELHFFENGNYWKMPSRGDGGLKGPFSLSERWPALPAVIDSAFEDLLTKNMYFFSGNRFWVYTKEGVLGPRSIEKLGLPTSIQKVEGALQRGKGKVLLFTEESFWKFDLKSQKMDKGYPKSTDYVFGGVPNDAHDVFQYKGHMYFCRDSFYWRMNSRRQVDRVGYVKYDLLKCSDSYRattus norvegicusMNPWQPLLLVLLALGYSFAAPHQ

24、RQPTYVVFPRDLKTSNLTDTQLAEDYLYRYGYTRAAQMMGEKQSLRPALLMLQKQLSLPQTGELDSETLKAIRSPRCGVPDVGKFQTFEGDLKWHHHNITYWIQSYTEDLPRDVIDDSFARAFAVWSAVTPLTFTRVYGLEADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELWSLGKGAVVPTYFGNANGAPCHFPFTFEGRSYLSCTTDGRNDGKPWCGTTADYDTDRKYGFCPSENLYTEHGNGDGKPCVFPFIFEGHSYSACTTKGRSDGYRWCATTANYDQ

25、DKLYGFCPTRADVTVTGGNSAGEMCVFPFVFLGKQYSTCTGEGRSDGRLWCATTSNFDADKKWGFCPDQGYSLFLVAAHEFGHALGLDHSSVPEALMYPMYHYHEDSPLHEDDIKGIQHLYGRGSKPDPRPPATTAAEPQPTAPPTMCPTAPPMAYPTGGPTVAPTGAPSPGPTGPPTAGPSEAPTESSTPVDNPCNVDVFDAIADIQGALHFFKDGRYWKFSNHGGSQLQGPFLIARTWPALPAKLNSAFEDPQSKKIFFFSGRKMWVYTGQTVLGPRSLDKLGLGSEVTLVTGLLPRR

26、GGKALLISRERIWKFDL KSQKVDPQSVTRLDNEFSGVPWNSHNVFHYQDKAYFCHDKYFWRVSFHNRVNQVDHVAYVTYDLLQCPBos taurusMSPLQPLVLALLVLACCSAVPRRRQPTVVVFPGEPRTNLTNRQLAEEYLYRYGYTPGAELSEDGQSLQRALLRFQRRLSLPETGELDSTTLNAMRAPRCGVPDVGRFQTFEGELKWHHHNITYWIQNYSEDLPRAVIDDAFARAFALWSAVTPLTFTRVYGPEADIVIQFGVREHGDGYPFDGKNGLLAHAFPPGKGIQGDAHF

27、DDEELWSLGKGVVIPTYFGNAKGAACHFPFTFEGRSYSACTTDGRSDDMLWCSTTADYDADRQFGFCPSERLYTQDGNADGKPCVFPFTFQGRTYSACTSDGRSDGYRWCATTANYDQDKLYGFCPTRVDATVTGGNAAGELCVFPFTFLGKEYSACTREGRNDGHLWCATTSNFDKDKKWGFCPDQGYSLFLVAAHEFGHALGLDHTSVPEALMYPMYRFTEEHPLHRDDVQGIQHLYGPRPEPEPRPPTTTTTTTTEPQPTAPPTVCVTGPPTARPSEGPTTGPTGPPAAGPTGPPTA

28、GPSAAPTESPDPAEDVCNVDIFDAIAEIRNRLHFFKAGKYWRLSEGGGRRVQGPFLVKSKWPALPRKLDSAFEDPLTKKIFFFSGRQVWVYTGASLLGPRRLDKLGLGPEVAQVTGALPRPEGKVLLFSGQSFWRFDVKTQKVDPQSVTPVDQMFPGVPISTHDIFQYQEKAYFCQDHFYWRVSSQNEVNQVDYVGYVTFDLLKCPED,很明显,用两种方法分别得到的比较结果并不完全一样。这并不意味这一种方法比另外一种方法优越,根据实际情况,从输入序列的性质出发,应用不同的方法会得到不同程度的成功。用户应该选择若干个工

29、具同时使用,并且对最终的比较结果作手工修正以期达到最佳效果。,模序比较分析PROSITE主讲教师:赵雨杰,PROSITEPROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。基于经典的模式分析的Gribskov方法,PROSITE使用一种称为pfscan的方法寻找一个蛋白质或核酸的查询序列同一个模式库的相似性,因此,在搜索中需要有模式库。,第一个是PROSITE(),一个ExPASy(http:)数据库,通过使用基序和序列模式(诸如指纹)将生物学意义重大的位点收集分类。,第二个是Pfam(),收

30、集了蛋白质结构域家族,与其它收集方法有很大不同的是,最初的蛋白质结构域的比较完全是用手工完成的,而不是依靠自动化的处理方法,正因为这样,Pfam几年前,只拥有五百多条款目,但这些款目的质量极好。现在拥有几千条目。,基于PROSITE和Pfam的搜索可以通过访问ProfileScan的主页完成,它只需要一条简单的输入序列(用文本格式),或者一个标号,比如一个SWISS-PROT ID。用户可以选择搜索的敏感度,选择返回显著的匹配或者所有匹配,甚至包括边界的情况。,为了说明输出的格式,我们现在向PROSITE系统提交人类matrix metalloproteinase 9 preproprotei

31、n Homo sapiens蛋白序列。返回的PROSITE条目显示蛋白的功能区,数字“Start”和“End”是显示出查询序列和匹配的模式重叠的位点,Bits是序列比较可靠性评分,Evalue是序列比较错误概率。,gi|74272287|ref|NP_004985.2|matrix metalloproteinase-9 preproprotein Homo sapiens MSLWQPLVLVLLVLGCCFAAPRQRQSTLVLFPGDLRTNLTDRQLAEEYLYRYGYTRVAEMRGESKSLGPA LLLLQKQLSLPETGELDSATLKAMRTPRCGVPDLGRFQTF

32、EGDLKWHHHNITYWIQNYSEDLPRAVIDDA FARAFALWSAVTPLTFTRVYSRDADIVIQFGVAEHGDGYPFDGKDGLLAHAFPPGPGIQGDAHFDDDELW SLGKGVVVPTRFGNADGAACHFPFIFEGRSYSACTTDGRSDGLPWCSTTANYDTDDRFGFCPSERLYTQD GNADGKPCQFPFIFQGQSYSACTTDGRSDGYRWCATTANYDRDKLFGFCPTRADSTVMGGNSAGELCVFP FTFLGKEYSTCTSEGRGDGRLWCATTSNFDSDKKWGFCPDQGYSLFLVAAHEFGHA

33、LGLDHSSVPEALMY PMYRFTEGPPLHKDDVNGIRHLYGPRPEPEPRPPTTTTPQPTAPPTVCPTGPPTVHPSERPTAGPTGPPS AGPTGPPTAGPSTATTVPLSPVDDACNVNIFDAIAEIGNQLYLFKDGKYWRFSEGRGSRPQGPFLIADKW PALPRKLDSVFEERLSKKLFFFSGRQVWVYTGASVLGPRRLDKLGLGADVAQVTGALRSGRGKMLLFSGR RLWRFDVKAQMVDPRSASEVDRMFPGVPLDTHDVFQYREKAYFCQDRFYWRVSSRSELNQVDQVGYVTYD ILQCPED,模序比较分析SMART主讲教师:赵雨杰,SMART,SMART是一款简单的分子结构检索工具。可以用于识别和注释遗传易变的结构域,还可用于结构域结构的分析,可检测500种以上与信号转导、细胞外和染色质相关蛋白的结构域家族,广泛注释这些结构域种类分布、功能分类、三级结构、功能上重要的残基。在非冗余蛋白数据库中检索结构域,并且检索参数和分类信息存储在相关的数据系统中。该数据库的用户界面可以根据特定分类单元检索具有特殊组合结构域的蛋白。,“Conserved Domains”BLAST,Interpro,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号