《蛋白质序列分析》PPT课件.ppt
《《蛋白质序列分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《蛋白质序列分析》PPT课件.ppt(95页珍藏版)》请在三一办公上搜索。
1、第六章 蛋白质序列分析,西北农林科技大学农学院遗传组,主讲人:胡银岗,第一节 蛋白质数据库,1.数据库的分类蛋白质的功能主要是由它的结构所决定的,蛋白质的结构主要分为四级,依据这种结构层次,将蛋白质数据库分为:蛋白质序列数据库以蛋白质的序列为主,并赋予相应的注释;如PIRPSD、SWISS-PROT/TrEMBL,NCBI等蛋白质模体及结构域数据库收集了蛋白质的保守结构域和功能域的特征序列;如PROSITE,Pfam,PRINTS,BLOCKS等蛋白质结构数据库以蛋白质的结构测量数据为主;如PDB等蛋白质分类数据库分为以序列比较为基础的序列分类数据库和以结构比较为基础的结构分类数据库,如SCO
2、P,CAHT,FSSP等,2.蛋白质序列数据库,http:/,http:/,3.蛋白质模体及结构域数据库,PROSITE蛋白质家族和结构域数据库(/)PROSITE数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型,能依据这些特征、属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋白质家族,即使在蛋白质序列相似性很低的情况下,可以通过搜索隐含的功能结构模体(motif)来鉴定因此,是一个有效的序列分析数据库。PROSITE中涉及的序列模式酶的催化位点配体结合位点金属离子结合位点二硫键、小分子或者蛋白质结合区域等PROSITE还包括由多序列比对构建的序列特征谱(pro
3、file),能更敏感地发现序列中的信息。,http:/,Pfam(蛋白质家族序列比对以及HMM模式数据库)http:/,4.蛋白质结构数据库PDB(http:/)PDB包括蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据,主要是蛋白质结构数据,5.蛋白质分类数据库,SCOP蛋白质结构分类数据库(Structural Classification of Protein database)()CATH蛋白质结构数据库(CATH Protein Structure Classification)(http:/)FSSP 基于蛋白质结构结构比对的折叠分类(Fold classificati
4、on based on Structure-Structure alignment of Proteins)(http:/),http:/,http:/,6.数据库的利用,蛋白质数据库都具备三种功能 数据的注释(annotation)所有提交到数据库的数据都要由作者或数据库管理人员进行注释方能发布;数据的检索(search)数据经注释之后,访问者可以通过数据库网页上提供的搜索引擎进行搜索,找到自己所需的蛋白质信息;数据的生物信息分析(analysis)访问者一旦找到感兴趣的蛋白质,就可以运用数据库提供的生物信息分析工具对蛋白质序列的未知数据进行预测,如预测蛋白质的理化性质,预测蛋白质的二级结构
5、,多重序列比对等等。,PROSITE 内容,PROSITE 主要保存两类信息:模式(pattern)和谱(profile,权重矩阵)。模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列。例如酪氨酸激酶磷酸化位点模式RK-x(2)-DE-x(3)-Y 或 RK-x(3)-DE-x(2)-Y其中扩号表示扩号中的各种氨基酸均可,X表示任意氨基酸,小扩号中的数字表示氨基酸个数。AC-x-V-x(4)-EDThis pattern is translated as:Ala or Cys-any-Val-any-any-any-any-any but Glu or Asp,PROSITE-pr
6、ofile 示例,Profile 为对保守区域每一位置氨基酸保守情况进行打分构建的权重矩阵。第一行为该区域出现的氨基酸,每一行为蛋白序列中一个位置,在该位置对各种氨基酸的保守情况都给出一个分值,分值越高表示出现概率越大,PROSITE 使用注意事项,Pattern主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。profile预测可靠性高,可以用来对新蛋白进行分类和提供功能提示。蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种pattern不能保证一定会具有对应的性质,要根据实际情况,谨慎对待pattern 预测结果。,PROSITE 工具,ScanProsite搜索蛋白序列
7、是否含PROSITE数据库中存有的模式或是功能位点;搜索Swiss-Prot中符合某种模式的蛋白以及蛋白三维结构数据库PDB中含有该模式的蛋白,可察看其三维结构。MotifScan 使用PROSITE 以及pfam 中的profile 对蛋白进行搜索。PRATT 用于找出一系列序列中保守模式的程序,用户可以提交自己的一组序列,生成共有的pattern。PROSITE还提供一些可以下载到本地运行的程序如ps_scan,但需要安装perl 运行环境。Pftools 同样是可以本地运行的工具,可以搜索PROSITE中的profile,也可以构建用户自己的profile.,第二节 蛋白质序列分析及结构
8、预测策略,蛋白质的结构预测必须基于一定的序列基础和实验证据,因此必须尽可能搜集一切有关这个蛋白质可能的理化性质和其它特性。,1.基本流程实验数据蛋白质序列理化特性分析跨膜区、等电点、亲水性、疏水性、酶切特性、电荷等数据库检索多序列比对、结构域搜索二级结构预测如有PDB中同源体蛋白质折叠识别折叠家族分析序列与结构比对比较建模三级结构预测三维蛋白模型,蛋白质序列分析及结构预测的基本流程,1.序列特征的初步分析,理化特性的预测修饰位点的预测是否为跨膜蛋白或片段是否包含螺旋卷曲结构是否还有低复杂度序列等等,2.同源搜索,新序列最常用的分析,就是与已知的序列等数据库进行比对,找到同源的蛋白质序列或相似性
9、较高的序列。常用的工具:BLASTp、FASTA、BLITZ、PSIBLAST等等注意的问题选择矩阵:常见的矩阵有PAM和BLOSUM。一般先用默认的BLOSUM62分析,如果相似性序列过多,选用更严谨的BLOSUM80,如果相似性序列很少,可选用BLOSUM42,进一步分析。PAM30和PAM70适于分析近源短序列效果较好空位罚分:一般有两个参数,对空位存在的扣除和对于连续空位的延伸罚分。空位罚分大但延伸罚分少,适于空位少但长的序列;空位罚分小但延伸罚分重,适于在进化上点突变或者突变短小的较近同源序列。,3.模体搜索,模体是通过对一个蛋白质家族进行多序列比对检测出的高度保守元件,常对应于一些
10、结构域和功能域,模体搜索是找到序列中一些关键的保守氨基酸。常用工具:SCANPROSITE、SMART、Pfam、COGS、PRINTS、BLOCKS、SBASE注意问题如果不同源,搜索出的相似性很小要将序列在三级结构数据库的序列进行比对很可能是一些短序列,应与相似性搜索结果等配合使用,4.结构域定位,通过数据库搜索得到的信息,进行结构域定位,对结构预测提供基础结构域定位分析探测序列与其它全序列之间的同源性关系分析低复杂度区域(如重复序列等,时常间隔结构域)跨膜区域卷曲螺旋结构二级结构的不同折叠子对分解成的结构域重复进行数据库搜索和独立比对,5.多重序列比对,对搜索得到的数据进行多重序列比对多
11、重序列比对可提供结构域相应信息功能位点的残基蛋白质的亲水面和疏水核的氨基酸残基为同源建模、二级结构预测提供模板注意问题不要把所有搜索结果用在比对中对搜索结果进行手工校正,将显著性不高的序列,非蛋白质家族的序列剔除掉。,6.同源建模,如果蛋白质序列有显著的同源序列(相似性50,尤其是与已知结构的蛋白质之间有显著同源性时,即可进行同源建模以已知结构的蛋白质为模板进行精确的结构模型构建如果相似性序列不是完整的,而是一段一段的结构域,也可通过二级结构预测和折叠识别,找到合适的折叠子,在以这些已知结构的折叠子为模板构建模型,7.二级结构预测,如果没有搜索到具有已知结构的蛋白质同源序列,也可采用相应的方法
12、进行二级结构预测二级结构预测的方法GOR法(Chou等人)和Lim法依据单一序列分析精确度约56-60核心结构预测法通过同源蛋白质家族的多重比对,发现二级结构存在二级结构核心,将序列与核心结构相结合,精确度月70注意问题适当的人为干预着重于二级结构保守模式的预测尽可能采用多个预测方法,构建共同序列的结构图谱,8.折叠子分析和二级结构组分比对,对推测出的折叠子,进一步确定其折叠模式,通过多次比对,确定蛋白质可能属于哪一类蛋白质分析的几个方面存在极多相似序列时,看其是否具有相似功能弱相似时,只有结构相似,而无序列同源,预测可能的功能域,及与已知折叠子内部的核心二级结构的相似区域。如果不存在以上情况



- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 蛋白质序列分析 蛋白质 序列 分析 PPT 课件

链接地址:https://www.31ppt.com/p-5601284.html