《核酸序列相似性分析.ppt》由会员分享,可在线阅读,更多相关《核酸序列相似性分析.ppt(53页珍藏版)》请在三一办公上搜索。
1、第2章 核酸序列分析,2.1 GenBank数据格式2.2 序列数据库检索2.3 核酸序列相似性分析2.4 核酸的多序列比对2.5 构建进化树2.6 核酸序列的预测与鉴定2.7 核酸序列的酶切位点分析,2.1 GenBank数据格式,24,3)Click“Search”,1)Select“nucleotide”,2)Enter“U49845”,GenBank数据格式,长度,分子类型,来源,更新日期,登录号,24,作者,标题,生物,杂志,表2.1 GenBank分类码,26,PRI RODMAM VRT INV PLNBCT VRL PHGSYN UNA EST PATSTSGSSHTGHTC,
2、primate sequences-rodent sequences-other mammalian sequences-other vertebrate sequences-invertebrate sequences-plant,fungal,and algal sequences-bacterial sequences-viral sequences-bacteriophage sequences-synthetic sequences-unannotated sequences-EST sequences(expressed sequence tags)-patent sequence
3、s-STS sequences(sequence tagged sites)-GSS sequences(genome survey sequences)-High-throughput genomic sequences-High-throughput cDNA sequencing-,灵长类序列啮齿类序列其他哺乳动物序列其他脊椎动物序列无脊椎动物序列植物/真菌/藻类序列细菌序列病毒序列噬菌体序列合成序列未注释序列表达序列标签序列专利序列序列标签位点序列基因组探查序列高通量基因组序列高通量cDNA序列,Features(特性表),coding sequences(编码序列),翻译产物,Gen
4、Bank data format(4/4),核苷酸序列,2.2 序列数据库检索,33,All Databases下拉菜单提供了分类提取数据的功能。,用“序列号”提取核苷酸数据,1)选择Nucleotide,2)输入“AF310622”,3)Click,提取结果(1/2),提取结果(2/2),用“序列号”提取蛋白质数据,1)选择Protein,2)输入“P15172”,3)Click,提取结果(1/2),提取结果(2/2),Practice,请大家回去把刚才讲过的内容练习一遍。,2.3 核酸序列相似性分析,38,对一个新测定的核酸序列的序列数据,可以通过使用不同的关键词从数据库中检索有用的信息,
5、还可以做以下的工作:单条序列的序列特征分析;序列的双重比对和数据库检索;多序列比对;通过多序列比对分析序列的模块;构建进化树。,2.3.1 相似性搜索,39,同源性(homology):指两条序列在进化上相关(来自于共同祖先),是一种已经发生的进化事件。取值:Yes or No,需要通过相关分析才能得出结论。例如:对bHLH转录因子序列的系统发生分析时,如果用不同建树方法得到的树形一致并且自举检验值高于50%时,认为序列之间有同源性。相似性(similarity):只是指两条序列之间的简单相似。取值:0 100%,只需通过BLAST(或类似的程序)进行估算。,“同源”不一定“相似”,39,人、
6、猫、鲸和蝙蝠的前肢骨骼具有同源性。,1)BLAST,40,BLAST:basic local alignment search tool 基本局部比对搜索工具,Basic BLAST(5种),Specialized BLAST(8种),Click here,Basic BLAST,40,blastn,blastp,Basic BLAST,核酸序列Nucleotidesequence,蛋白质序列Proteinsequence,核酸序列Nucleotidesequences,蛋白质序列Proteinsequences,blastn,blastp,tblastn,blastx,tblastx,查询序
7、列Query sequence,数据库序列Database sequences,Basic BLAST,blastn:用核酸序列检索核酸序列数据库blastp:用蛋白质序列检索蛋白质序列数据库blastx:把核酸序列翻译成蛋白质序列后检索蛋白质序列数据库(查询序列以所有6种读码框翻译后再进行比较)tblastn:用蛋白质序列检索核酸序列数据库(数据库中的核酸序列以所有6种读码框翻译后与查询序列比较)tblastx:把核酸序列翻译成蛋白质序列后检索核酸序列数据库(查询序列和数据库序列都以所有6种读码框翻译后再进行比较),6种读码框,5-TCT TCC TCA AAA TAA AGA AGT AT
8、G GTA ATC-3Frame+1 TCT TCC TCA AAA TAA AGA AGT ATG GTA ATCFrame+2 T CTT CCT CAA AAT AAA GAA GTA TGG TAA TCFrame+3 TC TTC CTC AAA ATA AAG AAG TAT GGT AAT CFrame-1 GAT TAC CAT ACT TCT TTA TTT TGA GGA AGA Frame-2 G ATT ACC ATA CTT CTT TAT TTT GAG GAA GA Frame-3 GA TTA CCA TAC TTC TTT ATT TTG AGG AAG A,
9、3-AGA AGG AGT TTT ATT TCT TCA TAC CAT TAG 5,Specialized BLAST,(1)blastn,41,Click here.,blastn的界面与相关数据库,41,2)Select database.,3)Click“BLAST”.,Paste your sequence here(Word,Text or FASTA format),Blastn databases,41,请参考表2.5的说明,Example 2-1,44,使用blastn对下面的序列进行相似性检索。,AAAAGAAAAGGTTAGAAAGATGAGAGATGATAAAGGGT
10、CCATTTGAGGTTAGGTAATATGGTTTGGTATC CCTGTAGTTAAAAGTTTTTGTCTTATTTTAGAATACTGTGATCTATTTCTTTAGTATTAATTTTTCCTTC TGTTTTCCTCATCTAGGGAACCCCAAGAGCATCCAATAGAAGCTGTGCAATTATGTAAAATTTTCAACTG TCTTCCTCAAAATAAAGAAGTATGGTAATCTTTACCTGTATACAGTGCAGAGCCTTCTCAGAAGCACAGA ATATTTTTATATTTCCTTTATGTGAATTTTTAAGCTGCAAATCTGATGGCCTTA
11、ATTTCCTTTTTGACAC TGAAAGTTTTGTAAAAGAAATCATGTCCATACACTTTGTTGCAAGATGTGAATTATTGACACTGAACTTA ATAACTGTGTACTGTTCGGAAGGGGTTCCTCAAATTTTTTGACTTTTTTTGTATGTGTGTTTTTTCTTTT TTTTTAAGTTCTTATGAGGAGGGGAGGGTAAATAAACCACTGTGCGTCTTGGTGTAATTTGAAGATTGCC CCATCTAGACTAGCAATCTCTTCATTATTCTCTGCTATATATAAAACGGTGCTGTGAGGGAGGGGAAAAG
12、 CATTTTTCAATATATTGAACTTTTGTACTGAATTTTTTTGTAATAAGCAATCAAGGTTATAATTTTTTTT AAAATAGAAATTTTGTAAGAAGGCAATATTAACCTAATCACCATGTAAGCACTCTGGATGATGGATTCCA CAAAACTTGGTTTTATGGTTACTTCTTCTCTTAGATTCTTAATTCATGAGGAGGGTGGGGGAGGGAGGTG GAGGGAGGGAAGGGTTTCTCTATTAAAATGCATTCGTTGTGTTTTTTAAGATAGTGTAACTTGCTTAAAT TTCTTATGTGACATT
13、AACAAATAAAAAAGCTCTTTTAATATTAGATAA,使用blastn的步骤,2)Select“nr/nt”.,3)Click“BLAST”.,Paste your sequence here(Word,Text or FASTA format),搜索参数设定,搜索参数设定,可以在此输入生物名称,搜索参数设定,可以在此设定E值,可以选择不使用过滤器,可以选择不同打分矩阵,搜索参数设定,初学者一般不更改设定而选用默认设置,直接点击BLAST,Wait for a while,Blastn result(1/4),44,Blastn result(2/4),45,比对分值颜色代码,B
14、lastn result(3/4),E值越小,相似性越大。(E值:找出比本序列与查询序列更相似的概率),Click here.,45,Blastn result(4/4),低复杂度区域用小写字母表示,查询序列(核酸),数据库序列(核酸),Practice 2-1,试对以下DNA序列做blastn分析。gtacgtccgg cctggtggtg ggttcgagcc caacttcatg ctcttcgaga agtgcgaggt gaacggtgcg ggggcgcacc ctctcttcgc cttcctgcgg gaggccctgc cagctcccag cgacgacgcc accgcg
15、ctta tgaccgaccc caagctcatc acctggtctc cggtgtgtcg caacgatgtt gcctggaact ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc cttacagtgc ttgttcgggg cgctccgctg,(2)blastx,Click here.,blastx:把核酸序列翻译成蛋白质序列后检索蛋白质序列数据库(查询序列以所有6种读码框翻译后再进行比较),blastx,Click here.,Paste your sequence here(Word,Text or FASTA format),Examp
16、le 2-2,使用blastx对下面的序列进行相似性检索。,gtacgtccgg cctggtggtg ggttcgagcc caacttcatg ctcttcgaga agtgcgaggt gaacggtgcg ggggcgcacc ctctcttcgc cttcctgcgg gaggccctgc cagctcccag cgacgacgcc accgcgctta tgaccgaccc caagctcatc acctggtctc cggtgtgtcg caacgatgtt gcctggaact ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc cttaca
17、gtgc ttgttcgggg cgctccgctg,Blastx result,数据库序列(蛋白质),查询序列(翻译成了蛋白质序列,读码框为+2),(3)tblastx,Click here,tblastx:把核酸序列翻译成蛋白质序列后检索核酸序列数据库(查询序列和数据库序列都以所有6种读码框翻译后再进行比较),tblastx,Click here.,Paste your sequence here(Word,Text or FASTA format),Example 2-3,使用tblastx对下面的序列进行相似性检索。,gtacgtccgg cctggtggtg ggttcgagcc c
18、aacttcatg ctcttcgaga agtgcgaggt gaacggtgcg ggggcgcacc ctctcttcgc cttcctgcgg gaggccctgc cagctcccag cgacgacgcc accgcgctta tgaccgaccc caagctcatc acctggtctc cggtgtgtcg caacgatgtt gcctggaact ttgagaagtt cagttaaaag gaggcgcctg ctggcctccc cttacagtgc ttgttcgggg cgctccgctg,tblastx result,数据库序列(原本是核酸序列,被翻译成了蛋白质
19、,读码框为+3),查询序列(翻译成了蛋白质序列,读码框为+1),Practice,请大家回去把刚才讲过的内容练习一遍。,Summary/小结,GenBank数据格式用“序列号”提取核苷酸数据用“序列号”提取蛋白质数据使用blastn的步骤blastxtblastx,GenBank数据格式,长度,分子类型,来源,更新日期,登录号,24,作者,标题,生物,杂志,用“序列号”提取核苷酸数据,1)选择Nucleotide,2)输入“AF310622”,3)Click,用“序列号”提取蛋白质数据,1)选择Protein,2)输入“P15172”,3)Click,使用blastn的步骤,2)Select“nr/nt”.,3)Click“BLAST”.,Paste your sequence here(Word,Text or FASTA format),搜索参数设定,blastx,Click here.,blastx:把核酸序列翻译成蛋白质序列后检索蛋白质序列数据库(查询序列以所有6种读码框翻译后再进行比较),tblastx,Click here,tblastx:把核酸序列翻译成蛋白质序列后检索核酸序列数据库(查询序列和数据库序列都以所有6种读码框翻译后再进行比较),