生物信息学上机实验2019更新ppt课件.ppt

上传人:小飞机 文档编号:2096003 上传时间:2023-01-09 格式:PPT 页数:45 大小:6.01MB
返回 下载 相关 举报
生物信息学上机实验2019更新ppt课件.ppt_第1页
第1页 / 共45页
生物信息学上机实验2019更新ppt课件.ppt_第2页
第2页 / 共45页
生物信息学上机实验2019更新ppt课件.ppt_第3页
第3页 / 共45页
生物信息学上机实验2019更新ppt课件.ppt_第4页
第4页 / 共45页
生物信息学上机实验2019更新ppt课件.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《生物信息学上机实验2019更新ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学上机实验2019更新ppt课件.ppt(45页珍藏版)》请在三一办公上搜索。

1、生物信息学上机练习,生物序列的信息检索多序列比对及进化树的构建(选做)Phylip使用,1,序列的数据库信息检索示例:,待查询序列:CCCCTGCCTGGCAGCCCTTTCTCAAGGACCACCGCATCTCTACATTCAAGAACTGGCCCTTCTTGGAGGGCTGCGCCTGCACCCCGGAGCGGATGGCCGAGGCTGGCTTCATCCACTGCCCCACTGAGAACGAGCCAGACTTGGCCCAGTGTTTCTTCTGCTTCAAGGAGCTGGAAGGCTGGGAGCCAGATGACGACCCCATAGAGGAACATAAAAAGCATTCGTCCGGTTGCG

2、CTTTCCTTTCTGTCAAGAAGCAGTTTGAAGAATTAACCCTTGGTGAATTTTTGAAACTGGACAGAGAAAGAGCCAAGAACAAAATTGCAAAGGAAACCAACAATAAGAAGAAAGAATTTGAGGAAACTGCGGAGAAAGTGCGCCGTGCCATCGAGCAGCTGGCTGCCATGGATTGAGGCCTCTGGC,问题,1,这是什么基因?基因的标识符是什么?在基因组上的定位是怎样的?2,编码的蛋白质多少个氨基酸?序列标识符为?序列是?3,该蛋白没有保守的功能结构域?4,该蛋白亚细胞定位是?它的功能是怎样的?5,该蛋白在真核生物中是否保守

3、?6,该蛋白有没有三级结构信息?,答案1.该基因为人的BIRC5基因;基因标识符:NM_001168.2;染色体定位:17号染色体,76210277.76221716;2.人的BIRC5蛋白质包含142个氨基酸,序列标识符为:NP_001159.2;序列为:MGAPTLPPAWQPFLKDHRISTFKNWPFLEGCACP3.BIRC5具有保守的功能结构域BIR;4.BIRC5的细胞亚定位:胞质,核;其功能有:(1)在瘤形成过程中可能起一定作用;(2)阻碍G2/M期的细胞编程性凋亡;(3)Chromosomal passenger complex(CPC)的成员之一。等等。5.该基因在真核生

4、物中最保守很可能是来自毛猩猩Pongo abelii的BIRC5蛋白:Q5RAH9;6.该蛋白的三级结构已知,在PDB中的标识符为1E31等。,2,多序列比对及进化树构建,构建Cytochrome C1家族进化树在Uniprot数据库中搜索Cytochrome C1在不同物种中的氨基酸序列,下载fasta文件使用MEGA软件对结果进行分析:1)多序列比对(MSA multiple sequence alignment)2)构建进化树,Cytochrome C1家族序列获取,工具网站 uniprot.org/advanced searchcustomize,调整结果显示格式,选择想要显示的内容,

5、例如显示列为Entry nameOrganismSequenceProtein names save以蛋白名称:Cytochrome C1为关键词搜索,搜索结果,编辑Fasta序列文件,选择搜索结果中Entry name 以“CY1_”开头的序列(选十几个物种序列,每一个种属只选一个序列,即entry name一样的只选择一个即可)点retrieve,编辑Fasta序列文件,Download FASTA格式的文件直接下载下来的序列名称会很累赘,可以将该文件以文本形式打开,对序列名称进行编辑,让其看起来更加简洁明了,Fasta文件格式,以为开头,后接序列名称,重启一行,输入序列CY1_BOVIN

6、MAAAAATLRGAMVGPRGCY1_YEASTMFSNLSKRWAQRTLSKSCY1_HUMANMAAAAASLRGVVLGPRG,Fasta文件要求,序列名称中不含有=字符氨基酸序列可以分成多行,但内部不要有空格每个序列的title仅保留蛋白/基因名称+种属来源,如:CY1_YEAST,MEGA 5软件使用,打开MEGA 5,拉开Align菜单,选择Edit/Build Alignment,MEGA 5软件使用,Creat a new Alignment选择Protein,MEGA 5软件使用,在新弹出的窗口中,选择Data-Open-Retrieve Sequences from

7、File,然后导入刚才保存的fasta文件,多序列比对,Ctrl+A选择全部序列,Aligment-Align by ClustalW,多序列比对,可以修改各补偿值等参数,点OK,多序列比对,多序列比对完成Dateexport alignment,导出MEGE format和Fasta format两份结果,得到一个*.meg文件和一个*.fas文件,进化树构建,关闭Alignment窗口,回到MEGA软件主窗口,File-Open A File/Session,打开之前保存的*.meg文件,进化树构建,选择Phylogeny-Construct/Test Neighbor-Joining T

8、ree点yes,进化树构建&bootstrap 验证,点compute,Bootstrap method 验证进化树,点开选择bootstrap,调整树的形状及树枝长度,去掉不可信的分支,从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列;重复上面的过程,得到多组新的序列;对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性。一般Bootstrap的值70,则认为构建的进化树较为可靠。,3,(选做)Phylip使用自展法-进化树的可靠性分析Bootstrap Method,随机有放回的抽取原始数据的一列,直到列数和原始数据一样,有放回意味着有些列被采到多

9、次,有的列没有采到,比较一致性,两种做法,Phylib采用,Phylip软件包介绍,由华盛顿大学遗传学系开发,免费的系统发育分析软件包。几乎最广泛使用的系统发生分析程序,主要包括以下几个程序组:分子序列组,距离矩阵组,基因频率组,离散字符组,进化树绘制组。访问及免费下载地址:evolution.genetics.washington.edu/phylip.html,Phylip软件包介绍,Phylip包含了35个独立的程序,这些独立的程序都实现特定的功能,这些程序基本上包括了系统发生分析的所有方面。多种不同平台的版本(包括windows,Macintosh,DOS,Linux,Unix和Ope

10、nVMX)。Phylip软件包的文档是非常详细的,对于每个独立的程序,都有一个独立的文档,详细的介绍了该程序的使用及其说明。,outfile是一个记录文件,记录了分析的过程和结果,可以直接用文本编辑器(如写字板)打开。outtree是分析结果的树文件,可以用phylip提供的绘树程序打开查看,也可以用其他的程序来打开,如treeview等。,Phylip软件包的应用,由于默认输出的名字是一样的,为了防止被覆盖,要把默认的输出名字改一下,Windows 版本的phylip软件包,现有8段protein序列:P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTL

11、QIQKQLEP2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLEP3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLEP4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLEP5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLEP6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLEP7MPRFEANLSMEFTEVPFIERFADARKAGFDA

12、VEFLFPYCYSTLQIQKQLEP8WPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE,示例:Phylip软件包构建进化树,新建文本文件 testSeq.fasta复制以下序列,注意最后是fasta格式,第一步:使用CLUSTALX多序列比对,File/Load Sequenes读入testSeq.fasta,输出格式File/Save Sequenes as 为*.PHY,这步的目的是完成格式转换,准备构建进化树的序列,PHY的格式,输出的*.PHY文件:8和50分别表示8个序列和每个序列有50个氨基酸,第二步:双击打开SEQBOOT,

13、按路径输入刚才生成的*.PHY文件;设定适当参数;输出outfile文件。,注意输入正确的文件地址,可以把文件拷到当前目录,随机数,可以使用默认值,输入Y,这步的目的是用Bootstrap的方法产生多个复本,重命名Outfile文本文件为Outfile1,打开如下:(包括了100个replicates),第三步:打开PROTPARS(最大简约法),输入Outfile1文件后如下显示:设定适当参数;运行输出outfile和treefile文件。,目的是构建各个副本的进化树,多组数据,重命名Outfile文本文件为Outfile2,重命名OutTree为OutTree2;打Outfile2开如右:

14、(包括了100个replicates的结果),第四步:打开CONSENSE程序,输入outtree2,运行输出outfile和treefile文件。分别重命名为outfile3和treefile3.tre,该步骤目的是综合100个复本,构建一致的进化树,获得的结果文件中,文本文件outfile3显示如下:,outfile,树文件outtree3.tre用TREEVIEW软件打开显示:,outtree,作业:,自主选择你所感兴趣的问题,利用生物信息学信息检索途径,回答你的问题。格式:已知:待查询问题:解答途径:方法、数据库 结果:鼓励使用新途径解决新问题!本科已修生物信息课的同学可以不用上机,但需要完成此项作业。,作业要求,发信至 snttustc.edu邮件名称:学号+姓名答题内容使用文本文件(TXT),如无截图内容不要使用Word文件或其他格式。文件名:学号+姓名.TXT,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号