生物信息学考查作业.ppt

上传人:小飞机 文档编号:6591749 上传时间:2023-11-15 格式:PPT 页数:9 大小:223.16KB
返回 下载 相关 举报
生物信息学考查作业.ppt_第1页
第1页 / 共9页
生物信息学考查作业.ppt_第2页
第2页 / 共9页
生物信息学考查作业.ppt_第3页
第3页 / 共9页
生物信息学考查作业.ppt_第4页
第4页 / 共9页
生物信息学考查作业.ppt_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《生物信息学考查作业.ppt》由会员分享,可在线阅读,更多相关《生物信息学考查作业.ppt(9页珍藏版)》请在三一办公上搜索。

1、郜刚生物信息与分子分析讲义,2009年3月,dotmacher,C.annuum AF208832MLTDFVRGVDCPHAEAVTCGQIQVGVVNCLPYLQNRGPLGRCCGVIKDLLKLCKTPHERRKSCKCVKTAANTIKGIDFGKAAGLSGVCGVKIPFEISPSVDCSKVKS.sogarandinum ABH03042MEMVSKIACFVLLCMVVVAPHAEALTCGQVTSSLAPCFPYLMNRGPLGGCCGGVKSLLGQAQTTADRQTACTCLKSAASSFTGLDLGKAAGLPSACSVNIPYKISPSTDCSKVQS.lycope

2、rsicum CAJ19706MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQS.lycopersicum CAJ19705MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLRNCCDGVKGLLGQAKTTVDRQAACTCLKSAASSFTGLNLGKAAALPNTCSVNIPYKISPSTDCSKVQN.tabacum AAM74206MEMVSKIACFVVLCMV

3、VVAPHAEALTCGQVQSSLAPCVPYLLGRGPLGGCCGGVKRLLGAARTPADRKTACNCLKSAANTFKGIDMGNAARLPGTCGVNIPYKISPSTDCSKVQS.lycopersicum AAB42069MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQMEIAGKIACFVVLCMVVAAPCAEAITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTE

4、DRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQN.tabacum Q03461MEMVGKIACFVVLCMVVVAPHAEALSCGQVQSGLAPCLPYLQGRGPLGSCCGGVKGLLGAAKSLSDRKTACTCLKSAANAIKGIDMGKAAGLPGACGVNIPYKISPSTDCSKVQS.lycopersicum P27056MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKNLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNI

5、PYKISPSTDCSTVQS.chilense Q3YMR2MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQAACACLKSAASSFTDLDLGKAASLPSTCNVNIPYKISPSTDCSKVQS.pennellii O24037MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKGLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQS.pennellii O24038MEMVN

6、KIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQTACTCLKSAASSFTGLDLGKAASLPSTCSVNIPYKISPSTDCSKVQS.lycopersicum P93224MEMFGKIACFVVFCMVVVAPHAESLSCGEVTSGLAPCLPYLEGRGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSTVQC.annuum AAF23460MEMVGKIACVVLLCMVVVAPHAEALTCGQVQSRMTPCLP

7、YLTGSGPLGRCCGGVKGLLGAAKTPADRKTVCSCLKSAAGSIGGINVRKAAGLPNMCGVNIPYQISPSTDCTKVQC.annuum AAF23459MDMFGKIACFVLLCMVVVAPSAEALSCSQVTSGLAPCLPYLQGRGPLGGCCSGVKDLLAAAKTPADRKTACTCMKSTANSIKGIDAGKAASIPATCGVNIPYKISPSTDCTKVEStLTPb3 ABU49732MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAA

8、NSIKGIDTGKAAGLPGVCGVSIPYKISPSTDCSKVQStLTPa1 ABU49731MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAVGLPGVCGVSIPYKISPSTDCSKVQStLTPb1 ABU49730MEMFGKIACFVLLCMVVVAPRAEALSCGEVTSGLAPCLPYLQGRGPIGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQStLT

9、Pf10 ABU49729MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGSGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQStLTPa7 ABU49727MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGSGPLGGCCGGVKGLLGAAKTPEDRKTACTCLKSAANSIKGIDTGKAAGLPGVCGVNIPYKISPSTDCSKVQC.annuum AAX20049MEGIGKIACFVLLCMVVVAPHAEALN

10、CGQVTSAMAPCVPYLMGRGPLGGCCGGVKGLMGAAKTPADRKTACTCLKSAANSMKGIDAGKAAGLPAACGVNIPYKISPSTDCSKVQS.tuberosum AAM82607MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGRGPIGGCCGGIKGLLGAAKTPADRKTACTCLKSAASAIKGINVGKAAGIPRLCGVNIPYKISPSTDCSKVRS.tuberosum AAM82606MEMFGKIACFVLLCMVVVAPHAEALSCGQVTSGLAPCLPYLQGRGPIGGCCGGIKGLL

11、GAAKTPADRKTACTCLKSAASAIKGINVGKAAGIPRVCGVNIPYKISPSTDCSKVRN.tabacum BAA03044MEMVGKIACFVVLCMVVVAPHAEALSCGQVQSGLAPCLPYLQGRGPLGSCCGGVKGLLGAAKSLSDRKTACTCLKSAANAIKGIDMGKAAGLPGACGVNIPYKISPSTDCSKVQS.chacoense ABE11609MEIVSKIACFVLLCMVVVAPHAEAALTCGQVTSSLFSCLPYLRNTGPLGDCCSGVKKLKGQAQTTADRQTACNCLKSTAGSIKGLNFGKAAS

12、LPSTCSVNIPYEISPSTDCSKVQN.attenuata AAS13435MAKVALLVVVCMAAVAVMLTPHADAAISCGQVVASLSPCISYVRQGGAIPAPCCSGIKSLNNQATSTPDRQTACNCIKSAAAAINGINYSLAGSLPSKCGVNLPYKISPSIDCSTVHN.glauca AAT68265MAKVALLVVVCMVAVAVMLTPHADAAISCGQVVTSLTPCINYVRQGGDIPTACCSGIKTLNSQATSTPDRQTACNCIKSAAGSISGINFGLASSLPGKCGVNLPYKISPSIDC.annuum AA

13、X08122MEMVGKIACVVLLCMVVVAPHAEALTCGQVQSRMTPCLPYLTGSGPLGRCCGGVKGLLGAAKTPADRKTVCTCLKSAAGSIGGINVRKAAGLPNMCGVNIPYQISPSADCTKVQN.glauca AAT68264MAKVALFVVVCMAAVAVMLTPHADAAIFCGRVVSSLIPCINYVIKGGAIPAPCCNGIKSLNNQATSTPDRQTACNCIKSAAASIKGINFSHAGSLPGKCGVNLPYKISPSIDCSTVQN.glauca AAT68263MAKVALLVVVCMVAVAVMLTPHADAAISC

14、GQVVTSLTPCINYVRQGGAIPAACCSGIKTLNSQATSTPDRQTACNCIKSAARSISGINFGLASSLPGKCGVNLPYKISPSIDCSTVQN.glauca AAT68262MAKVALLVVVCMAAVSVMLTPHADAAISCGQVVSSLTPCISYVTKGGAIPAPCCNGIESLNNQATSTPDRQTACNCIKSAAASIKGINFSLAGSLPGKCGVNLPYKISPSIDCSTVQN.glauca AAF28385MAKVALLVVVCMAAVAVMLTPQADAAISCGQVVSSLTPCISYVTKGGAIPAPCCSGIKSLN

15、NQATSTPDRQTACNCIKSAVGSISGINFGLASSLPGKCGVNLPYKISPSIDCSTVQC.annuum AAD18029MKMFGKIACLLILCVVLIAPHAEAVTCGQIQVGVVNCLPYLQNRGPLGRCCGVIKDLLKLCKTPHERRKSCRCVKTAANTIKGIDFGKTAGLSGVCGVKIPSEISPSVDCSKVKS.pennellii AAB07487MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQTACTCLKSAASSFTGLDLGKAASLP

16、STCSVNIPYKISPSTDCSKVQS.pennellii AAB07486MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKGLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYKISPSTDCSTVQN.tabacum AAA21438MARFLVFLALALVIISKKGALGAPPSCPTVTTQLAPCLSYIQGGGDPSVPCCTGINNIYELAKTKEDRVAICNCLKTAFTHAGNVNPTLVAQLPKKCGISFNMPPIDKNYDCNTISMYN.tabacum

17、 AAA21437MARFLALALVVIALSNDALGAPPSCQTVTTQLAPCLSYIQNRVKGGGNPSVPCCTGINNIYELAKTKEDRVAICNCLKNAFIHAGNVNPTLVAELPKKCGISFNMPPIDKNYDCNTISMYS.chilense AAZ22829MEMVNKIACFVLLCMVVVAPHAEALTCGQVTSTLAPCLPYLMNRGPLGGCCGGVKGLLGQAQTTVDRQAACACLKSAASSFTDLDLGKAASLPSTCNVNIPYKISPSTDCSKVQN.tabacum AAT45202IKLAHSKMAKVALLVVVCMA

18、AVAVMLTPHADADISCGQVVASLSPCISYVRQGGAIPAPCCSGINSLNNQATSTPDRQTACNCIKSAAAGISGINFSLAGSLPSKCGVNLPYKISPSIDCSTVQC.annuum AAR83849MEMVSKIACLVVLCMVVAAPHAEALTCGQVAGDLAACLPYLQGSGPLGSCCGGVRALLGAAKTPADRKTACTCLKSAANAIKGINLSKAAGLPTACGVNIPYKISPSTDCSTVQS.tuberosum BAC23052MKTASKLAVLTVLVLLLVEAHISVAVTCSAIQLSPCLGAITSNSA

19、PSTLCCSRIREQKPCLCTYLKNPTLRNYVNSPGAKKVARTCGVPYPKCN.tabacum AAF65316MARFLALALVVIALSNDALGAPPSCQTVTTQLAPCLSYIQNRVKGGGNPSVPCCTGINNIYELAKTKEDRVAICNCLKNAFIHAGNVNPTLVAELPKKCGISFNMPPIDKNYDCNTS.lycopersicum CAA80273MTSRTLVMLILVITYNSIAVKGSNGHPCSSTFFSALIQLIPCRASVVPFSSVPPSEACCASIKALGQPCLCVLINGPPISGVDRNMAVQLPEKCT

20、ANFEQCEFGKMASVKSSSSSSSSSFISLLLLILLVIVLQSQVIECQPQQSCTASLTGLNVCAPFLVPGSPTASTECCNAVQSINHDCMCNTMRIAAQIPAQCNLPPLSCSANS.lycopersicum CAA78466MASVKSSSSSSSSSFISLLLLILLVIVLQSQVIECQPQQSCTASLTGLNVCAPFLVPGSPTASTECCNAVQSINHDCMCNTMRIAAQIPAQCNLPPLSCSANN.tabacum 1T12AITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACT

21、CLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQN.tabacum CAA44267MEIAGKIACFVVLCMVVAAPCAEAITCGQVTSNLAPCLAYLRNTGPLGRCCGGVKALVNSARTTEDRQIACTCLKSAAGAISGINLGKAAGLPSTCGVNIPYKISPSTDCSKVQS.lycopersicum CAA39512MEMVSKIACFVLLCMVVVAPHAEALTCGQVTAGLAPCLPYLQGRGPLGGCCGGVKNLLGSAKTTADRKTACTCLKSAANAIKGIDLNKAAGIPSVCKVNIPYK

22、ISPSTDCSTVQ,作业分解,1、现有10条基因,全班分成10组,每组做1条基因,每组4个人,每组16道题,每人完成4道不同的题2、要求:按照提供的gene accession number完成,1.核酸序列的基本分析:要求运用BioEdit 分析该核酸序列的分子质量、碱基组成、碱基分布、酶切、简要过程2.碱基同源性分析:网站如下:http:/www.ncbi.nlm.nih.gov/BLAST/,程序、参数、结果、简要过程3.开放性阅读框分析:利用NCBI的ORF Finder程序对man做开放性阅读框分析,网址如下:http:/www.ncbi.nlm.nih.gov/projects

23、/gorf/orfig.cgi要求:参数、结果、简要过程4.蛋白质序列的结构功能域分析:要求用简单模块构架搜索工具SMART对上述ORF蛋白质序列进行结构功能域分析。网址如下:http:/smart.embl-heidelberg.de/,要求结果、参数、简要过程5.氨基酸同源分析:要求运用NCBI的BLAST程序对此蛋白质序列进行分析:要求:参数、结果、过程6.同源物种分析:要求根据上述分析列出该蛋白质的同源物种至少5个,要求名称、学名7.蛋白质一级序列的基本分析:要求运用BioEdit对该基因编码的蛋白质基本信息如分子量、等电点、氨基酸组成等作出分析。,10.磷酸化位点分析:要求利用Net

24、Phos2.0 Server做磷酸化位点分析,网址:http:/www.cbs.dtu.dk/services/NetPhos/,要求参数、结果、过程简述11.跨膜区分析:要求用TMHMM Server 进行蛋白序列跨膜区分析,网址:http:/www.cbs.dtu.dk/services/TMHMM/,要求参数、结果,过程简述12.亚细胞定位:要求通过WoLF PSORT工具基于其氨基酸序列预测蛋白质亚细胞定位点,网址:http:/wolfpsort.seq.cbrc.jp/,要求参数,结果,过程简述13.二硫键分析:要求运用SCRATCH Protein Predictor 分析二硫键并

25、简述过程、结果。网址http:/www.ics.uci.edu/baldig/scratch/index.html 15.蛋白质的3D结构预测:http:/www.cbs.dtu.dk/services/CPHmodels/,描述结果,用Cn3D等结果显示。16.选择与其同源的5条蛋白质(最好是不同的物种)构建其进化树Molecular Evolutionary Genetics Analysis 软件MEGA,说明结果,nnpredictnnpredict 算法使用了一个双层、前馈神经网络去给每个氨基酸分配预测的类型(Kneller 等,1990)。在预测时,服务器使用 FASTA 格式的文

26、件,其中有单字符或三字符的序列以及蛋白质的折叠类(、或/)。残基被分为几类:螺旋(H)、叠片(E)或其它()。若无法对某残基给出预测,则会标上问号(?),这说明无法做出可信的分配。若没有关于折叠类的信息,预测也能在不定折叠类的情况下进行,而且这是缺省的工作方式。据报道,对于最佳实例的预测,nnpredict 的准确率超过了 65。序列通过向 发送电子邮件或是填写网上的表提交给nnpredict。PredictProtein PredictProtein(Rost 等,1994)在预测中应用了略为不同的方法。首先,蛋白质序列被作为查询序列在 SWISS-PROT 库中搜索相似的序列。当相似的序列

27、被找到后,一个名为 MaxHom 的算法被用来进行一次基于特征简图的多序列比对(Sander 和 Schneider,1991)。MaxHom 用迭代的方法来构造比对:当第一次搜索 SWISS-PROT 后,所有找到的序列与查询序列进行比对,并构造出一个比对后的特征简图。然后,这个简图又被用来在SWISS-PROT 中搜索新的相似序列。由 MaxHom 产生的多序列比对随后被置入一个神经网络,用一套称为 PHD(Rost,1996)的方法进行预测。PHD 这一套二级结构预测方法不仅仅给每个残基分配一个二级结构类型,它还对序列上每个位点的预测可信度给予统计分析。该方法的平均准确率超过 72,最佳

28、残基预测准确率达 90以上。向 PredictProtein 提交数据可以通过电子邮件,也可以在网上提交。上交序列的时候可以有几种选择,序列可以是单个字母的氨基酸代码,也可以带 SWISS-PORT 标识符。另外,FASTA 格式的多序列比对或 PIR 比对也可以被提交,以进行二级结构预测。输入的序列发送给。输出结果内容很多并包含大量有关信息。其中有 MaxHom 搜索结果,并包括多序列比对的结果,它可以用于例如基于特征简图的搜索或物种谱系分析等 进一步研究。如果提交的序列在 PDB 库中有已知同源蛋白,则其 PDB标识号也会输出返回。随后是方法本身信息,最后是实际预测结果。输出结果还可以被用

29、户自己来指定。与 nnpredict 不同,PredictProtein 还返回每个位点的“预测可信度索引”,范围从 0 到 9,9 具有最高的可信度,也就是说该位点所分配的二级结构类型是正确的PREDATORPREDATOR 算法通过对氨基酸序列中潜在的氢键残基的识别来预测二级结构。它使用源自数据库的统计数据,具体地说是对在不同种氢键结构中残基种类出现的统计。这种方法的新特征是,它依靠局部的双序列比对来预测每个相关序列。这个程序的输入可以是单个序列,也可以是一组没经过比对的相关序列。序列可以通过给 发电子邮件或是在网上直接提交。输入序列可以是 FASTA、MSF 或 CLUSTER 格式。P

30、REDATOR 对三种结构预测的平均准确率是,对单个序列为 68,对一组相关的序列为 75。PSIPRED PSIPRED 方法是由英国 Warwick 大学开发的,使用 PSIBLAST先在数据库中搜索序列的相似蛋白,构建多序列比对,然后进行预测。PSIPRED 用两个前向神经网络对来自 PSIBLAST 的特征图进行分析。序列可以通过互连网用简单的单字母格式或是 FASTA 格式提交,PSIPRED 的预测结果通过电子邮件以文本文件形式发送回来。另外,在电子邮件中会给出一个网址,到那里可以看到被预测蛋白质的图象表示,可视化是用 JAVA 应用程序 PSIPREDview 实现的。PSIPR

31、ED 的平均预测准确率为 76.5,比这里介绍的其它方法都要高。SOPMA位于法国里昂的 CNRS(Centre National de la RechercheScientifique)使用独特的方法进行蛋白质二级结构预测。它不是用一种,而是5种相互独立的方法进行预测,并将结果汇集整理成一个“一致预测结果”。这5种方法包括:Garnier-Gibrat-Robson(GOR)方法(Garnier等,1996)、Levin同源预测方法(Levin等,1986)、双重预测方法(Delage和Roux,1987)、作为前面PredictProtein一部分的PHD方法和CNRS自己的SOPMA方法(Geourjon和Dleage,1995)。SOPMA这种自优化的预测方法简要的建立了已知二级结构序列的次级数据库,库中的每个蛋白质都经过基于相似性的二级结构预测。然后用次级库中得到的信息去对查询序列进行二级结构预测。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号