《蛋白质序列分析》PPT课件.ppt

上传人:牧羊曲112 文档编号:5601284 上传时间:2023-08-01 格式:PPT 页数:95 大小:3.77MB
返回 下载 相关 举报
《蛋白质序列分析》PPT课件.ppt_第1页
第1页 / 共95页
《蛋白质序列分析》PPT课件.ppt_第2页
第2页 / 共95页
《蛋白质序列分析》PPT课件.ppt_第3页
第3页 / 共95页
《蛋白质序列分析》PPT课件.ppt_第4页
第4页 / 共95页
《蛋白质序列分析》PPT课件.ppt_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《《蛋白质序列分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《蛋白质序列分析》PPT课件.ppt(95页珍藏版)》请在三一办公上搜索。

1、第六章 蛋白质序列分析,西北农林科技大学农学院遗传组,主讲人:胡银岗,第一节 蛋白质数据库,1.数据库的分类蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级,依据这种结构层次,将蛋白质数据库分为:蛋白质序列数据库以蛋白质的序列为主,并赋予相应的注释;如PIRPSD、SWISS-PROT/TrEMBL,NCBI等蛋白质模体及结构域数据库收集了蛋白质的保守结构域和功能域的特征序列;如PROSITE,Pfam,PRINTS,BLOCKS等蛋白质结构数据库以蛋白质的结构测量数据为主;如PDB等蛋白质分类数据库分为以序列比较为基础的序列分类数据库和以结构比较为基础的结构分类数据库,如SCO

2、P,CAHT,FSSP等,2.蛋白质序列数据库,http:/,http:/,3.蛋白质模体及结构域数据库,PROSITE蛋白质家族和结构域数据库(/)PROSITE数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况下,可以通过搜索隐含的功能结构模体(motif)来鉴定因此,是一个有效的序列分析数据库。PROSITE中涉及的序列模式酶的催化位点配体结合位点金属离子结合位点二硫键、小分子或者蛋白质结合区域等PROSITE还包括由多序列比对构建的序列特征谱(pro

3、file),能更敏感地发现序列中的信息。,http:/,Pfam(蛋白质家族序列比对以及HMM模式数据库)http:/,4.蛋白质结构数据库PDB(http:/)PDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,5.蛋白质分类数据库,SCOP蛋白质结构分类数据库(Structural Classification of Protein database)()CATH蛋白质结构数据库(CATH Protein Structure Classification)(http:/)FSSP 基于蛋白质结构结构比对的折叠分类(Fold classificati

4、on based on Structure-Structure alignment of Proteins)(http:/),http:/,http:/,6.数据库的利用,蛋白质数据库都具备三种功能 数据的注释(annotation)所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布;数据的检索(search)数据经注释之后,访问者可以通过数据库网页上提供的搜索引擎进行搜索,找到自己所需的蛋白质信息;数据的生物信息分析(analysis)访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测,如预测蛋白质的理化性质,预测蛋白质的二级结构

5、,多重序列比对等等。,PROSITE 内容,PROSITE 主要保存两类信息:模式(pattern)和谱(profile,权重矩阵)。模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列。例如酪氨酸激酶磷酸化位点模式RK-x(2)-DE-x(3)-Y 或 RK-x(3)-DE-x(2)-Y其中扩号表示扩号中的各种氨基酸均可,X表示任意氨基酸,小扩号中的数字表示氨基酸个数。AC-x-V-x(4)-EDThis pattern is translated as:Ala or Cys-any-Val-any-any-any-any-any but Glu or Asp,PROSITE-pr

6、ofile 示例,Profile 为对保守区域每一位置氨基酸保守情况进行打分构建的权重矩阵。第一行为该区域出现的氨基酸,每一行为蛋白序列中一个位置,在该位置对各种氨基酸的保守情况都给出一个分值,分值越高表示出现概率越大,PROSITE 使用注意事项,Pattern主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。profile预测可靠性高,可以用来对新蛋白进行分类和提供功能提示。蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种pattern不能保证一定会具有对应的性质,要根据实际情况,谨慎对待pattern 预测结果。,PROSITE 工具,ScanProsite搜索蛋白序列

7、是否含PROSITE数据库中存有的模式或是功能位点;搜索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库PDB中含有该模式的蛋白,可察看其三维结构。MotifScan 使用PROSITE 以及pfam 中的profile 对蛋白进行搜索。PRATT 用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序列,生成共有的pattern。PROSITE还提供一些可以下载到本地运行的程序如ps_scan,但需要安装perl 运行环境。Pftools 同样是可以本地运行的工具,可以搜索PROSITE中的profile,也可以构建用户自己的profile.,第二节 蛋白质序列分析及结构

8、预测策略,蛋白质的结构预测必须基于一定的序列基础和实验证据,因此必须尽可能搜集一切有关这个蛋白质可能的理化性质和其它特性。,1.基本流程实验数据蛋白质序列理化特性分析跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等数据库检索多序列比对、结构域搜索二级结构预测如有PDB中同源体蛋白质折叠识别折叠家族分析序列与结构比对比较建模三级结构预测三维蛋白模型,蛋白质序列分析及结构预测的基本流程,1.序列特征的初步分析,理化特性的预测修饰位点的预测是否为跨膜蛋白或片段是否包含螺旋卷曲结构是否还有低复杂度序列等等,2.同源搜索,新序列最常用的分析,就是与已知的序列等数据库进行比对,找到同源的蛋白质序列或相似性

9、较高的序列。常用的工具:BLASTp、FASTA、BLITZ、PSIBLAST等等注意的问题选择矩阵:常见的矩阵有PAM和BLOSUM。一般先用默认的BLOSUM62分析,如果相似性序列过多,选用更严谨的BLOSUM80,如果相似性序列很少,可选用BLOSUM42,进一步分析。PAM30和PAM70适于分析近源短序列效果较好空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸罚分。空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列。,3.模体搜索,模体是通过对一个蛋白质家族进行多序列比对检测出的高度保守元件,常对应于一些

10、结构域和功能域,模体搜索是找到序列中一些关键的保守氨基酸。常用工具:SCANPROSITE、SMART、Pfam、COGS、PRINTS、BLOCKS、SBASE注意问题如果不同源,搜索出的相似性很小要将序列在三级结构数据库的序列进行比对很可能是一些短序列,应与相似性搜索结果等配合使用,4.结构域定位,通过数据库搜索得到的信息,进行结构域定位,对结构预测提供基础结构域定位分析探测序列与其它全序列之间的同源性关系分析低复杂度区域(如重复序列等,时常间隔结构域)跨膜区域卷曲螺旋结构二级结构的不同折叠子对分解成的结构域重复进行数据库搜索和独立比对,5.多重序列比对,对搜索得到的数据进行多重序列比对多

11、重序列比对可提供结构域相应信息功能位点的残基蛋白质的亲水面和疏水核的氨基酸残基为同源建模、二级结构预测提供模板注意问题不要把所有搜索结果用在比对中对搜索结果进行手工校正,将显著性不高的序列,非蛋白质家族的序列剔除掉。,6.同源建模,如果蛋白质序列有显著的同源序列(相似性50,尤其是与已知结构的蛋白质之间有显著同源性时,即可进行同源建模以已知结构的蛋白质为模板进行精确的结构模型构建如果相似性序列不是完整的,而是一段一段的结构域,也可通过二级结构预测和折叠识别,找到合适的折叠子,在以这些已知结构的折叠子为模板构建模型,7.二级结构预测,如果没有搜索到具有已知结构的蛋白质同源序列,也可采用相应的方法

12、进行二级结构预测二级结构预测的方法GOR法(Chou等人)和Lim法依据单一序列分析精确度约56-60核心结构预测法通过同源蛋白质家族的多重比对,发现二级结构存在二级结构核心,将序列与核心结构相结合,精确度月70注意问题适当的人为干预着重于二级结构保守模式的预测尽可能采用多个预测方法,构建共同序列的结构图谱,8.折叠子分析和二级结构组分比对,对推测出的折叠子,进一步确定其折叠模式,通过多次比对,确定蛋白质可能属于哪一类蛋白质分析的几个方面存在极多相似序列时,看其是否具有相似功能弱相似时,只有结构相似,而无序列同源,预测可能的功能域,及与已知折叠子内部的核心二级结构的相似区域。如果不存在以上情况

13、,只能考虑其中是否含有与已知折叠子中核心结构元件以外的其它区域相似的区域核心二级结构元件与二级结构的核心区域折叠子中起关键作用的二级结构二级结构中起关键作用的氨基酸残基利用多重序列比对同时结合多个预测方法,是确定二级结构核心序列常用的方法,9.三级结构与序列间的比对,折叠识别获得的结果并不一定准确,进行折叠识别前,最好进行独立比对,确定可能组成折叠子的二级结构元件分析的方法确认预测的残基中的包埋面和外露面的序列是否与已知蛋白质的模板结构相似确认重要的氢键结合模式在预测折叠结构没有被打乱通过对已知结构的研究,在预测的结构中尽可能保留与已知结构中残基性质相似(大小、极性、疏水性等)的保守氨基酸,第

14、三节 蛋白质的结构预测,1.蛋白质序列的来源直接测序获得的翻译编码的DNA或cDNA序列数据库中搜索到的蛋白质序列的格式FASTA格式SWISS-PROT格式PDB格式,2.理化特性分析基于一级结构的预测,理化特性分析相对分子量、氨基酸组成、等电点、酶切特性、疏水性等、亲水性,及消光系数等常用工具软件Bioedit网络工具ProtParam(http:/)Compute PI(http:/),3.蛋白质的鉴定,蛋白质的鉴定确定蛋白质的基本性质常用工具网络工具多个(http:/tools/),4.数据库搜索,数据库序列模体与结构域结构分类使用的程序BlastPSI-BlastFastaScanP

15、rosite等,5.二级结构预测,预测蛋白质二级结构的算法大多以已知三维结构和二级结构的蛋白质为依据,用人工神经网络、遗传算法等技术构建预测方法。还有将多种预测方法结合起来,获得“一致序列”。总的来说,二级结构预测仍是未能完全解决的问题,一般对于螺旋预测精度较好,对折叠差些,而对除螺旋和折叠等之外的无规则二级结构则效果很差。,Jpred(http:/pbio.dundee.ac.uk/www-jpred/index.html)HNN(=npsa_nn.html)SOPMA=/NPSA/npsa_sopma.html带比对的自优化预测方法,将几种独立二级结构预测方法汇集成“一致预测结果”,采用的

16、二级结构预测方法包括GOR方法、Levin同源预测方法、双重预测方法、PHD方法和SOPMA方法。多种方法的综合应用平均效果比单个方法更好。,6.几种重要结构分析,6.1 疏水性分析为二级结构预测提供参考为结构域及功能域的划分提供依据常用工具Protscale(http:/)ProtScale能计算超过50种蛋白质的特性。仅一项需要额外设定的参数是输入框的宽度,该参数将指示系统每次运行计算和显示的残基数,其缺省值为9。如果想考虑跨膜螺旋特性,该参数设置应为20,因为一个跨膜螺旋通常有20个氨基酸长度,6.2 信号肽的识别,信号肽的识别地址标签信号肽将蛋白质导向细胞的正确位置,并使其越过细胞器膜

17、是新合成的蛋白质的一部分,位于蛋白质的一端信号肽分析有助于蛋白质功能域的划分及蛋白质的细胞定位常用工具SignaIP(http:/)通过神经网络方法的组合预测信号肽的位置及相应切点,6.3 跨膜结构分析,跨膜结构分析跨膜结构在蛋白质结构中一般序列相似性不大,但结构极其相似。跨膜结构可分为6种类型跨膜结构预测对认识蛋白质结构及功能具有重要意义预测工具依赖于一系列已知跨膜螺旋特性的研究结果。最简单的方法是通过查找包含有20个疏水残基的区段,复杂的算法不仅可以预测跨膜螺旋的位置,还能确定其在膜上的方向,预测准确率在8095%左右。Tmpred(TMpred-Prediction of Transme

18、mbrane Regions and Orientation)(http:/),6.4 卷曲螺旋预测,卷曲螺旋控制蛋白质寡聚化的元件,存在于转录因子、蛋白融合多肽等一种很简单的三级结构,容易预测常用工具COILS-Prediction of Coiled Coil Regions in Proteins(http:/),6.5 糖基化、磷酸化位点预测,糖基化和磷酸化位点糖基化位点磷酸化位点常用工具CBS Prediction Servers(/services/),7.三级结构预测,三级结构预测蛋白质的高级结构决定蛋白质的功能。要了解功能,结构是基础,三级结构预测有助于研究蛋白质的生物活性中心

19、三级结构预测的方法同源建模先在蛋白质结构数据库中寻找未知结构蛋白的同源伙伴,再利用一定计算方法把同源蛋白的结构优化构建出预测的结果。基本过程:目标序列与模板序列的匹配,确定蛋白质结构保守区及其结构,目标结构建模,目标结构变异区建模,侧链安装与优化,模型优化与评估,c1teha,C1hlda,D1teha1(GRoES),D1teha2(GRoES),第四节 蛋白质功能预测,1.根据序列预测功能的一般过程,尽管蛋白质的许多特性可直接从序列上分析获得,如疏水性,跨膜螺旋(transmenbrane helix)或前导序列(leader sequence)等。总的来说,根据序列预测蛋白质功能的唯一方

20、法是通过数据库搜寻,比较该蛋白是否与已知功能的蛋白质相似。比较未知蛋白序列与已知蛋白质序列的相似性;查找未知蛋白中是否包含与特定蛋白质家族或功能域有关的亚序列或保守区段。,根据序列预测蛋白质功能的技术路线,2.通过比对数据库相似序列确定功能,具有相似序列的蛋白质具有相似的功能。最可靠的确定蛋白质功能的方法是进行数据库的相似性搜索。一个显著的匹配应至少超过80个氨基酸的区段有25%的相同序列。一般策略是先进行BLAST检索,如不能提供相关结果,再运行FASTA;如FASTA也不能得到有关蛋白质功能的线索,可选用完全根据Smith-Waterman算法设计的搜索程序,例如BLITZ()。BLITZ

21、不做近似估计(BLAST和FASTA根据Smith-Waterman算法做近似估计),所以很花时,但非常灵敏。通常BLITZ程序能够发现超过几百个残基但序列相同比率低于2025%的匹配,这些匹配可能达到显著,但会被那些应用近似估计的程序错过。,选用计分矩阵(scoring matrix)十分关键选用的矩阵必须与匹配水平相一致,例如,PAM250应用于远距离匹配(25%相同比率),PAM40应用于不很相近的蛋白质序列,而BLOSUM62是一个通用矩阵;使用不同矩阵,可以发现始终出现的匹配序列,这是一条减少误差的有效办法。选用不同的数据库通常可以使用的数据库是无冗余蛋白序列数据库SWISS-PRO

22、T和PDB。其它一些数据库也可以试试,如可用BLASTP搜索复合蛋白质序列库OWL(),第五节 蛋白质家族分析,蛋白质家族分类方式功能相似分类、进化相似分类、折叠相似分类蛋白质家族分类原则典型的蛋白质家族是以实验获得的功能分类功能相似的家族成员可以通过序列相似分类序列相似性大于25,部分结构可能同源要检测结构相似性,而不是序列相似性结构同源,并不一定功能相似 序列分类依赖序列比对结构分类依赖结构比对同源与相似同源:具相同的折叠,或功能相似,来源于同一祖先相似:具相同的折叠,但功能不同,二者起源关系不明确,1.CATH分类,构件(Architecture)蛋白质结构域中,在不考虑二级结构相互作用

23、的前提下,由二级结构方向决定的所有结构域形态,这些形态通常用比较简单的词语来命名,例如,桶形(barrel)、三明治形(3layer sandwich)、beta螺旋桨形(betapropellor)、四螺旋束(alpha four helix bundle)等。拓扑结构(Topology)或者折叠子(folds)根据二级结构的形状以及相互作用,将构件分成不同的折叠子家族。分类时使用了基于结构比较算法SSAP,并根据经验值来设定相同折叠子家族结构域的聚类参数。同源超家族(Homologous superfamily)在将蛋白质按结构分类后,再将那些结构域可能是来源于同一祖先的蛋白质归为一类 序

24、列家族(sequence families)在同源超家族的水平上进行更进一步的聚类,就可以将序列直接分类到序列家族中,这个家族中序列之间的相似性35%,并且具有很高的结构和功能相似性。,2.SCOP蛋白质结构分类,折叠子(fold)主要是结构相似如果蛋白质在相同的条件和相同的拓扑关系下有相同的二级结构,就认为是相同的折叠子,有相同折叠的不同蛋白质可能具有不同大小甚至不同构象的周边二级结构和结构转接区域,有时这些不同转接区域占据蛋白质一半的区域。具有相同折叠子的的蛋白质不一定具有共同的进化祖先,因为结构相似不仅可以由序列相似产生,而且可以由蛋白质的物化性质产生,这些性质可以决定蛋白质内部特定的折

25、叠偏好性以及链拓扑性。超家族(superfamily)可能具有相同的进化起源蛋白质之间有较低的序列相似性,但其结构和功能显示出具有相同的进化起源,可以置于同一超家族中,例如Actin,HSP的ATPase结构域以及hexakinase构成了一个超家族。家族(Family)进化关系清楚的蛋白质类群 每个家族内的蛋白质有明确的进化关系,一般来讲,这意味着蛋白质两两比对的残基一致性大于30,但有时在缺乏较高序列相似性的情况下,相似结构和功能也可以作为分类依据,如有些物种的球蛋白序列相似性只有15。,3.家族分析,相似序列搜索 BLAST,FASTA多序列比对 clustal保守结构域分析 InterPro,CDD,PROSITE模式位点分析 PROSITE,思 考 题,1.什么是蛋白质模体?什么是蛋白质的结构域?它们与蛋白质结构与功能有什么关系?2.基于一级结构的蛋白质预测主要有哪些?3.蛋白质二级结构预测的主要策略有哪些?各有何特点?4.蛋白质的跨膜结构、信号肽、卷曲螺旋、糖基化位点等预测有什么意义?5.蛋白质三级结构预测的主要方法有哪些?你认为可以从哪些方面改进,提高蛋白质三级结构预测的可靠性?6.什么是蛋白质家族?如何进行蛋白质家族分析?,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号