《蛋白质家族ppt课件.ppt》由会员分享,可在线阅读,更多相关《蛋白质家族ppt课件.ppt(15页珍藏版)》请在三一办公上搜索。
1、bioinformatics,蛋白质家族,张力,同一蛋白家族的多序列联配可以用来推断结构、功能和家族关键氨基酸的信息。多序列联配信息的表示的表示方法有很多种,包括联配本身、一致序列、保守序列和残基模式、序列轮廓以及其他的序列家族的概率模型(隐马可夫模型)。,一致序列:在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。,PROSITE:PROSITE数据库是与蛋白质家族成员关系有关的序列模式数据库。例如序列模式:LIVM-ST-A-STAG-H-C代表有6个氨基酸残基组成的序列,LIVM表示L、I、V、M中的一个残基,ST表示S或T,然后是A,然后是S、T、A或G,然后是H,
2、然后是C还有一些其他表示方法,比如x(2),表示任意的两个氨基酸,x(2,4),表示任意的2到4个氨基酸,ST,表示除S和T之外的任意一个氨基酸http:/prosite.expasy.org/,例子:在prosite搜索酵母的Hexokinase(己糖激酶),己糖激酶信号的序列模式为:LIVM-G-F-TN-F-S-FY-P-x(5)-LIVM-DNST-x(3)-LIVM-x(2)-W-T-K-x-LF酵母的153-178位氨基酸的序列为:LGFTFSYPASQNKINEGILQRWTKGF酵母的序列与己糖激酶信号的序列模式完全匹配:LIVM-G-F-TN-F-S-FY-P-x(5)-LI
3、VM-DNST-x(3)-LIVM-x(2)-W-T-K-x-LF | | | | | | | | | | | | | | | L G F T F S Y P ASQNK I N EGI L QR W T K G F,PROSITE模式也有很多缺点首先,他们长度较短,不相关序列中有假阳性出现。其次,他们允许描述特定位置的变化,但无法计算该变化的概率。例如LIVM指某位点可能是L、I、V或M,但他没有说明L在家族中90%的序列中出现,I、V、M进出现在10%的序列中。所以又出现了很多其他的序列模式数据库,PRINTS和BLOCKS:PRINTS和BLOCKS分别通过来自一组蛋白或蛋白家族中最高度
4、保守区域的多序列联配无空位片段的形式来表示蛋白质家族。这种多序列联配无空位片段分别定义为blocks(在BLOCKS中)或motifs(在PRINTS中)。例如:SH3家族,SH3家族在PRINTS中用4个motif 表示,每个motif表示一个保守区域,因此PRINTS模式可以覆盖更大的序列区域,克服了PROSITE的部分缺点。与PROSITE不同,序列中motif的匹配通常要考虑氨基酸替换矩阵,不要求严格匹配。,PRINTS搜索到的序列不一定与motif中的完全匹配,比如motif2。这里用p值来量化搜到结果的显著意义,p值通常可以被解释为匹配分支至少与随机序列偶然发生的匹配一样高的概率。
5、,例如,在PRINTS中搜索下面序列:YEDEEAAVVQYNDPYADGDPAWAPKNYIEKVVAIYDYTKDKDDELSFMEGAIIYVIKKNDDGWYEGVCNRVTGLFPGNYVESIMHYTD可以搜索到SH3 DOMAIN,PRINTS:http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/index.php,例子:在PRINTS搜索酵母的Hexokinase(己糖激酶),PRINTS搜索显示提交的序列为HEXOKINASE家族。,在PRINTS中,HEXOKINASE家族用7个motif表示,提交的序列都匹配上,有较低的p值。,Pfam
6、:Pfam数据库手机了蛋白质机构与家族多序列联配和隐马尔科夫模型。,Pfam:http:/pfam.sanger.ac.uk/,例子:在prosite搜索酵母的Hexokinase(己糖激酶),Pfam搜索显示此序列包含Hexokinase_1和Hexokinase_2两个Pfam matches。,课堂练习,分别使用PROSITE、PRINTS、Pfam搜索一下几个序列包含哪些一致序列,包含哪些结构域,属于哪个家族:a MVKQIESKTAFQEALDAAGDKLVVVDFSATWCGPCKMIKPFFHSLSEKYSNVIFLEVDVDDCQDVASECEVKCMPTFQFFKKGQKVG
7、EFSGANKEKLEATINELVbMNPLLILTFVAAALAAPFDDDDKIVGGYNCEENSVPYQVSLNSGYHFCGGSLINEQWVVSAGHCYKSRIQVRLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTAPPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPGKITSNMFCVGFLEGGKDSCQGDSGGPVVCNGQLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANScMEEPQSDPSVEPPLSQETFSDLWKLLPENNVLS
8、PLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD,