《蛋白质分析和蛋白质组学课件.ppt》由会员分享,可在线阅读,更多相关《蛋白质分析和蛋白质组学课件.ppt(113页珍藏版)》请在三一办公上搜索。
1、蛋白质分析和蛋白质组学,protein,RNA,DNA,1,protein,4 Protein function,3 Protein localization,Gene ontology (GO):-cellular component-biological process-molecular function,1 Molecular biology,2 Protein families,2,视角3和4的介绍: Gene Ontology (GO) Consortium,3,Gene Ontology 成立的背景,GenBankEMBLDDBJ,PubMed: over 15 million
2、citations,4,Whats in a name?,Glucose synthesisGlucose biosynthesisGlucose formationGlucose anabolismGluconeogenesisAll refer to the process of making glucose from simpler components,5,Whats in a name?,The same name can be used to describe different concepts,A concept can be described using different
3、 names, Comparison is difficult in particular across species or across databases,6,本体(ontology),计算机科学对自然世界认知的形式化的表示,既是可被计算机表示,解释和利用的知识的形式化的研究即本体 。本体是结构化的领域知识,并可以被计算机解释和利用 。实现对生命世界中这些概念理解上的共享,包括从不同的视角,不同的术语分类, 不同的主体( 人和机器)共享概念 -概念化的规范Gene Ontology(GO)协会致力于这样一项工程:编辑一组动态的而又可控的词汇来描述基因和基因产物(主要是蛋白质)不同方面的性
4、质。,7,Ontologies can be represented as graphs, where the nodes are connected by edges Nodes = concepts in the ontology Edges = relationships between the concepts,Ontology Structure,8,所有这些蛋白质能做什么?,“功能”太有局限性。生物学家想知道:每个蛋白质能做什么,属于哪条细胞回路或者为什么细胞需要这个功能,以及在什么地方发生了这样的过程。,9,Gene Ontology的发起,芽殖酵母基因组数据库(SGD) 果蝇基
5、因组数据库(drosophila genome database,简称FlyBase) 小鼠基因组信息数据库;(mouse genome information database,简称MGDGXD),GO数据库不是以其自身为中心而是依靠外部数据库,这些外部数据库中收录的基因及其产物都将用GO定义的词汇进行注释。因此GO是与时俱进与相互合作的代表,它致力于统一基因及其产物注释的方式。,You can visit GO at http:/www.geneontology.org.,10,GO(Gene Ontology) structure,GO isnt just a flat list of
6、biological termsterms are related within a hierarchy,11,Hierarchical structure,层次性: is a:上一个概念包括下一个概念 , 下一个概念是上一个概念的实例 。part of:下一个概念是上一个概念的一部分,12,True Path Rule,True Path Rule:如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。,13,DAG,有向无环(DAG),Simple hierarchies (Trees),Directed Acyclic Graphs,One or more parents,Si
7、ngle parent,14,How does GO work?,What does the gene product do?Where and when does it act?Why does it perform these activities?,What information might we want to capture about a gene product?,15,GO: Three ontologies,Where does it act?,What processes is it involved in?,What does it do?,Molecular Func
8、tion,Cellular Component,Biological Process,gene product,16,Molecular Function,分子功能描述在分子生物学上的活性,如催化活性或结合活性。Sets of functions make up a biological process.,insulin bindinginsulin receptor activity,17,Cellular Component,where a gene product acts(细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等) ),18,Biolog
9、ical Process,生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。(细胞生长和维持、信号传导 、嘧啶代谢或配糖基的运输 )。,cell division,gluconeogenesis,19,Biological Process,20,lipocalin,21,以树状图形式显示的GO词汇之间的关系,22,Perspective 3: Protein localization,23,protein,Perspective 3: Protein localization,24,Protein localization,Proteins may be localized to i
10、ntracellular compartments,cytosol, the plasma membrane, or they may be secreted. Many proteins shuttle between multiple compartments. A variety of algorithms predict localization, but thisis essentially a cell biological question.,很多蛋白质不能被单一地确定存在于细胞一个固定位置上。例如膜联蛋白和小G蛋白家族就转移于胞质和膜之间(有时在胞质内,有时在膜上)。这种转移运
11、动取决于是否有特定的细胞信号存在,例如钙离子。,25,http:/psort.nibb.ac.jp,26,http:/www.ch.embnet.org/software/TMPRED.form.html,27,28,Localization of 2,900 yeast proteins,Michael Snyder and colleagues incorporated epitopetags into thousands of S. cerevisiae cDNAs,and systematically localized proteins (Kumar et al., 2002).Se
12、e http:/ygac.med.yale.edu for a database including2,900 fluorescence micrographs.,29,Perspective 4: Protein function,Function refers to the role of a protein in the cell.,We can consider protein function from a varietyof perspectives.,30,1. Biochemical function(molecular function),RBP binds retinol,
13、could be a carrier,例子: 酶 结构蛋白 转运蛋白细胞中不存在没有任何功能的蛋白。,31,2. Functional assignmentbased on homology,RBPcould bea carriertoo,Othercarrier proteins,增味剂结合蛋白是lipocalins的一个成员,也被认为是一个载体蛋白,32,3. Functionbased on structure,RBP forms a calyx,X射线晶体衍射显示RBP形成一个类似茶杯的结构,有一圈疏水氨基酸组成,充当一个配体结合位点,33,4. Function based onli
14、gand binding specificity,RBP binds vitamin A,34,5. Function based oncellular process,DNA,RNA,RBP is abundant,soluble, secreted,35,6. Function basedon biological process,RBP is essential for vision,36,7. Function based on “proteomics”or high throughput “functional genomics”,High throughput analyses s
15、how.RBP levels elevated in renal failureRBP levels decreased in liver disease,37,Functional assignment of enzymes:the EC (Enzyme Commission) system,38,Functional assignment of proteins:Clusters of Orthologous Groups (COGs),39,Proteomics: High throughput protein analysis,Proteomics is the study of th
16、e entire collection of proteins encoded by a genome“Proteomics” refers to all the proteins in a celland/or all the proteins in an organismLarge-scale protein analysis2D protein gelsYeast two-hybridRosetta Stone approach ,40,Classical biochemical approach,Identify an activityDevelop a bioassayPerform
17、 a biochemical purificationStrategies: size, charge, hydrophobicityPurify protein to homogeneityClone cDNA, express recombinant proteinGrow crystals, solve structure,41,42,Two-dimensional protein gels,First dimension: isoelectric focusingSecond dimension: SDS-PAGE,43,44,45,46,47,48,Evaluation of 2D
18、gels (IEF/SDS-PAGE),Advantages:Visualize hundreds to thousands of proteinsImproved identification of protein spotsDisadvantages:Limited number of samples can be processedMostly abundant proteins visualizedTechnically difficult,49,Affinity chromatography/mass spec,Bait protein,GST,50,Affinity chromat
19、ography/mass spec,Bait protein,GST,Add yeast extractProtein complexes bindMost proteins do not bind,51,Affinity chromatography/mass spec,Bait protein,GST,EluteRun gelMALDI-TOFIdentify complexes,52,Affinity chromatography/mass spec,Data on complexes deposited in databaseshttp:/http:/www.bind.ca,53,54
20、,55,The yeast two-hybrid system,Reporter gene,Bait proteinDNA Binding,Prey proteinDNA activation,Isolate and sequence the cDNAof the binding partner you have found,We will learn about it later when we study protein interaction networks,56,red = cellular role green = cellular roles are identical,57,T
21、he Rosetta Stone approach,Marcotte et al. (1999) and other groups hypothesized that some pairs of interacting proteins are encoded by two genes in many genomes, but occasionally theyare fused into a single gene.By scanning many genomes for examples of “fusedgenes,” several thousand protein-protein p
22、redictionshave been made.,58,Yeast topoisomerase II,E. coligyrase B,E. coligyrase A,The Rosetta Stone approach,59,罗赛塔石碑,60,Gene Fusion (Rosetta stone method),Tryptophan synthase subunits A and B, fused in yeast.,It is based on the observation that some interacting proteins/domains have homologs in o
23、ther genomes that are fused into one protein chain, a so-called Rosetta Stone protein.,61,How many “gene fusions”?,3 genomes 88 gene fusions179genomes ? fusions,62,protein,1 Molecular biology,4 Protein function,2 Protein families,3 Protein localization,Gene ontology (GO):-cellular component-biologic
24、al process-molecular function,63,Perspective 2: Protein family,domains and motifs,为什么关注蛋白质家族?,64,基因重复,65,蛋白质同源序列和家族,在目前所有已知的数据库中均没有发现同源序列的蛋白质。 它的其他性质(如跨膜区结构域、磷酸化位点、预测出的二级结构等)也会给我们了解该蛋白质的结构或功能提供一些线索。 有直系同源序列或旁系同源序列的蛋白质。 这种蛋白质至少能找到一条同源序列,且两条序列存在具有显著相似性或显著特征的区域。这些有显著序列相似性或显著结构特征的区域有很多名称,如签名(signature)、
25、结构域(domain)、模块(module)、模块元件(modular element)、折叠子(fold)、模体(motif)、模式(pattern)或重复(repeat)。,66,Definitions,Signature: a protein category such as a domain or motifDomain: a region of a protein that can adopt a 3D structure a fold a family is a group of proteins that share a domain examples: zinc finger
26、domain immunoglobulin domainMotif (or fingerprint): a short, conserved region of a protein typically 10 to 20 contiguous amino acid residues,67,签名(signature),签名(signatures)的概念很宽广,它确定一个蛋白质分类,可能指结构域(domain)、家族(family)或模体(motif)。仅考虑单独的一个蛋白质时,我们仅能得到很少一部分关于其结构和功能的信息;但是将它与相关序列比对找到保守部分后,从保守序列中可以推测出很多信息。签名主
27、要可以分为两类,每一类签名都可以用各自的方法确定。结构域(domain)是蛋白质中能折叠成特定三维结构的一段区域。结构域也能被称为模块。一组拥有相同结构域的蛋白被称为一个蛋白质家族。模体(motif,或称指纹,fingerprint)是蛋白质序列中较短的保守区域。模体的长度一般是1020个氨基酸残基,尽管实际中的模体有可能更长或更短。一些简单而常见的模体在一组蛋白质中发现并不意味着这组蛋白质是同源的,例如形成跨膜区结构域或保守磷酸化位点的模体。而另一些情况中,小的模体则是一个蛋白质家族的标志(如prosite)。,68,InterPro对相关术语的定义,家族:InterPro定义一组进化上相关
28、的共享一个或多个结构域的蛋白质为一个家族结构域: InterPro数据库中的结构域是指一个独立的结构单元,他们可能单独存在也可能与其他结构域相连。结构域也是进化上相关的序列。,69,SMART对相关术语的定义,结构域:保守的结构单元,包含独特的二级结构组合和疏水内核。具有相同功能的同源结构域往往具有序列上的相似性。模体:序列模体是指短的保守的多肽段。含有相同模体的蛋白质并不一定是同源的。,70,结构域和motif,血清蛋白(581氨基酸):3个类似结构域,每个约180个氨基酸胶原蛋白中存在着几十个有GXY三肽组成的重复片段RNA聚合酶最大亚基C端结构域中有52个重复的六肽片段:T/SPTSPN
29、/T.PrP(疯牛病):有四个连续对八肽:PHGGG/SWGQ许多细胞内信号转导的蛋白质含有SH2肽段(与磷酸化丝氨酸/苏氨酸结合的肽段),71,Definition of a motif,A motif (or fingerprint) is a short, conserved region of a protein. Its size is often 10 to 20 amino acids.Simple motifs include transmembrane domains andphosphorylation sites. These do not imply homologyw
30、hen found in a group of proteins.PROSITE (www.expasy.org/prosite) is a dictionary of motifs. In PROSITE,a pattern is a qualitative motif description (a proteineither matches a pattern, or not). In contrast, a profileis a quantitative motif description. We will encounterprofiles in Pfam, ProDom, SMAR
31、T, and other databases.,72,蛋白质motif,EIQDVSGTWYAMTVDREFPEMNLESVTPMTLTTL.GGNLEAKVTM lipocalin 1 LSFTLEEEDITGTWYAMVVDKDFPEDRRRKVSPVKVTALGGGNLEATFTF odorant-binding protein 2aTKQDLELPKLAGTWHSMAMATNNISLMATLKAPLRVHITSEDNLEIVLHR progestagen-assoc. endo.VQENFDVNKYLGRWYEIEKIPTTFENGRCIQANYSLMENGNQELRADGTV apo
32、lipoprotein DVKENFDKARFSGTWYAMAKDPEGLFLQDNIVAEFSVDETGNWDVCADGTF retinol-binding proteinLQQNFQDNQFQGKWYVVGLAGNAI.LREDKDPQKMYATIDKSYNVTSVLF neutrophil gelatinase-ass.VQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVDGGLNLTSTFL prostaglandin D2 synthaseVQENFNISRIYGKWYNLAIGSTCPWMDRMTVSTLVLGEGEAEISMTSTRW alpha-1-m
33、icroglobulinPKANFDAQQFAGTWLLVAVGSACRFLQRAEATTLHVAPQGSTFRKLD. complement component 8,73,例子,在HIV-1 pol蛋白的天冬氨酸蛋白酶(aspartyl proteases)结构域中,天冬氨酸残基(asp)对酶的催化活性至关重要。天冬氨酸蛋白酶模体由12个氨基酸残基构成: LIVMFGAC-LIVMTADN-LIVFSA-D-ST -G-STAV-STAPDENQ-x-LIVMFSTNC-x-LIVMFGTA。 几乎所有的lipocalins中都可以找到一个短的模体GxW。PROSITE数据库定义的lipoc
34、alins的保守氨基酸模体是: DENG-x- DENQGSTARK-x(0,2)-DENQARK-LIVFY-CP-G-C-W-FYWLRH-x-LIVMTA。,74,模体,氨基酸残基修饰的模体蛋白质细胞定位的模体与活性有关的模体其他模体,75,氨基酸残基修饰的模体,糖蛋白中被N糖基化的天冬酰胺(N)一定是处于NPS/T中的。在一些与凝血过程相关的蛋白质中,被羟化的天冬氨酸或天冬酰胺处于CXD/NX4XCXC的模体中。为芳香性氨基酸,X4为任意氨基酸构成的四肽。被磷酸化的丝氨酸和苏氨酸在不同蛋白质中处于不同的模体中。组蛋白中为SP#(#为带正电的氨基酸)。蛋白激酶PKA或PKG中的模体是#X
35、S/T。,76,当C端的4个氨基酸序列为KDEL或HDEL时,蛋白质就被局限在细胞的内质网中能进入细胞核的肽链都有特定的序列模体。1. PKKKRKV or KRX10KKKK;2. 蛋白激酶中,KRX21RXKXKXK; 3. #RX10#XX。,蛋白质细胞定位的模体,77,Motif与细胞定位,78,与活性有关的模体,在许多蛋白水解酶中,与催化有关的活性中心由D/E-H-S组成。在ATP和GTP结合蛋白质中存在着一种序列为GXXXXGKT/S的模体: Rho家族 G DGAX GKT ATP合成酶 G GAGV GKTV 肌球蛋白重链 G ESGS GKT 胸苷激酶 G XXGX GKTT
36、 胸苷酸激酶 G XPGX GKGT这个模体可以形成一个特定的结构,与核苷酸结合。,79,其他模体,含有半胱氨酸的模体。在一些蛋白质中存在着特定的序列模体,其中半胱氨酸的位置是相对固定的(锌指)。未知功能的模体。如一些细胞因子受体的膜外侧接近膜处有WKS和WSKWS序列模体,但其功能还不清楚。,80,模体的意义,总结:模体( motif or fingerprint) 是蛋白质序列中较短的保守区域,是按照一定的模式排列的氨基酸残基,长度一般在1020残基之间。一些简单而常见的模体在一组蛋白质中发现并不意味着这组蛋白质是同源的(跨膜区结构域或磷酸化位点)。在另一些情况下,模体可以成为一个蛋白质家
37、族的标志,反映了这个家族的亲缘关系。可以利用这个族徽寻找宗亲。(载脂蛋白超家族)1986年至今,国际生物化学学会主编的Trends in Biochemical Science一直有专栏刊登不同类型的的序列模体(也同时刊登结构域、模块等)。,81,结构域和模体:蛋白质的模块性质,82,结构域的由来,从球状蛋白到晶体衍射实验。(溶菌酶)免疫球蛋白的例子蛋白质的折叠过程20世纪6070年代,提出结构域(domain)的概念。从水解实验,可以看出结构域能组成一个结构单元。结构域常由不同的外显子编码。,83,Definition of a domain,According to InterPro at
38、 EBI (http:/www.ebi.ac.uk/interpro/):A domain is an independent structural unit, found aloneor in conjunction with other domains or repeats.Domains are evolutionarily related. According to SMART (http:/smart.embl-heidelberg.de):A domain is a conserved structural entity with distinctivesecondary stru
39、cture content and a hydrophobic core.Homologous domains with common functions usuallyshow sequence similarities.,84,总结,结构域的概念:从最初的一级结构中较长的重复片段,上升为有特征的立体结构,而且他们有一定生物功能,并且对应着基因中的某些外显子,为它们编码、形成肽链后,还能自行折叠成稳定的结构。总之,结构域可看作是一个“entity”。一般来说,如果两个蛋白质拥有一个相同的结构域,那么这两个蛋白质有相关的功能。序列模体是一个序列上经概括后“求同存异”的“框架”,是在一段肽段中关
40、键位置上氨基酸残基的组合模式。二者的区别在于结构域有“结构”的含义。,85,人类中15个最常见的结构域,86,蛋白质共享一个结构域,Extending along the length of a protein,Occupying a subset of a protein sequence,Occurring one or more times,lipocalin,免疫球蛋白结构域纤连蛋白重复区,与甲基化的DNA结合的转录因子家族,87,Example of a protein with domains: Methyl CpG binding protein 2 (MeCP2),MBD,TR
41、D,The protein includes a methylated DNA binding domain(MBD) and a transcriptional repression domain (TRD).MeCP2 is a transcriptional repressor.Mutations in the gene encoding MeCP2 cause RettSyndrome, a neurological disorder affecting girlsprimarily.,88,Result of an MeCP2 blastp search:A methyl-bindi
42、ng domain shared by several proteins,89,这些蛋白质的大小差别很大,并且结合甲基化DNA的结构域也出现在蛋白质的不同位置上。从BLAST的匹配结果看,这些蛋白质除了甲基化DNA结构域以外没有其他序列上有显著相似性的区域了,90,多个拷贝的结构域,很多结构域在蛋白质中有多个拷贝,两个最常见的例子就是免疫球蛋白结构域和纤连蛋白重复区。这些结构域在蛋白质的胞外区极其常见,91,Are proteins that share only a domain homologous?,蛋白质家族是怎么定义的呢?是否一组仅共有一个结构域的同源蛋白质就可以被称为一个蛋白质家族
43、呢?上面的例子中,5个蛋白中的MBD结构域显然是同源的(来自于同一祖先);虽然它们除了MBD结构域外没有显著相似的区域,但是这组蛋白仍旧构成一个蛋白质家族。,92,蛋白质家族,蛋白质家族是根据蛋白质的同源性来定义的;同一个家族内的蛋白质就是一组进化上相关的蛋白质,这些蛋白质共享一个或多个结构域。什么逻辑?1.在一级结构比较的基础上,发现很多蛋白质存在同源性;2.(相似性往往是区域性的)一些同源性可以简单的用结构域加以表征;3. 为了(计算机分类)方便,由结构域将相关的蛋白质归属为一个蛋白质家族。在蛋白质家族分类的过程中,有时向下细分为亚家族(subfamily),有时又向上归并为超家族(sup
44、erfamily),93,Challenges for “家族分类”,并系同源蛋白: 类视紫红质受体超家族:视觉、听觉、嗅觉、激素、神经传导的受体 脊椎动物进化过程早期分化而得到的不同视觉受体对不同的波长敏感 人类视觉系统受体包括对红光和绿光等长波敏感的各种蛋白质分子,它们之间区别不大,其序列相似性程度为95%左右。这些视觉系统长波受体分子与蓝光等短波受体分子以及视紫红质等非色彩受体分子却相差很远,序列平均相似性为43%。可见,由种类繁多的并系同源蛋白和直系同源蛋白所产生的序列复杂性,对蛋白质家族分类研究是一个巨大的挑战。,94,两个“家族”,牛胰核糖核酸酶家族。丝氨酸蛋白抑制剂家族。,95,
45、Example of a multidomain protein: HIV-1 pol,1003 amino acids long cleaved into three proteins with distinct activities:- aspartyl protease(天冬氨酸蛋白酶 )- reverse transcriptase(反转录酶 )- integrase(整合酶 )We will explore HIV-1 pol and other proteins at theExpert Protein Analysis System (ExPASy) server.Visit w
46、ww.expasy.org/,HIV-1的pol(polymerase,聚合酶),96,97,98,SwissProt entry for HIV-1 pol links to many databases,99,ProDom entry for HIV-1 pol shows many related proteins,100,Proteins can have both domains and patterns (motifs),蛋白质可能含有相对较大的结构域和通常仅由几个氨基酸残基构成的模式(模体)。尽管模式或模体不构成一个已知的三维构象,但它包含的氨基酸残基却可能是一个蛋白质家族的特征
47、序列,101,思考一,同一个结构域可能出现在一个蛋白质的氨基末端,也可能出现在另一个蛋白质的羧基末端,是吗?是不是,102,思考二,一般来说,蛋白质结构域(domain)和模体(motif,也称模式或指纹)的大小关系是:A、 它们一样长;B、 模体比结构域长;C、 结构域比模体长; D、 只能对于特定的蛋白质才能进行比较,103,蛋白质与结构域、模体,氨基酸折叠方式/模体结构域蛋白质,字母单词短语句子,104,氨基酸序列ST-X-RK是蛋白激酶C底物磷酸化的保守为点附近的序列,这段氨基酸序列是:A、 一个模体,可以确定一组同源蛋白;B、 一个模体,但不足以确定一组同源蛋白;C、 一个结构域,可
48、以确定一组同源蛋白;D、 一个结构域,但不足以确定一组同源蛋白,思考三,105,趋异进化和趋同进化,序列分析的基本出发点:通过数据库搜索,找出若干相同残基的功能位点(motif),由某个初看起来完全不同的蛋白质确定未知蛋白的功能。趋异进化和趋同进化溶菌酶和-乳清蛋白:趋异进化的例子-折叠桶:趋同进化的例子。蛋白激酶C(PKC)保守磷酸化位点的信息:ST-x-RK(S或T是磷酸化位点,x表示任意氨基酸残基)(PROSITE document的编号是PDOC00005)。这个简单的模体在蛋白质中出现过的次数达到千余次。,106,蛋白质多模块性-简单构件的整合和再利用,单个蛋白含有多个模块同一模块在
49、不同功能蛋白质中出现同一模块在不同蛋白质中,执行不同功能,107,补丁制作的百衲衣,通过积木的方式把不同的基本模块组合起来,形成蛋白质的不同功能,108,蛋白质模块性与进化,109,opossums are exploited in different Goldberg machines, where they perform different functions here, we could not predict a opossum sitting in that spot, even with total knowledge of the rest of the machineSimi
50、larity searches are just like this identifying the presence of a module tells little of the function of the complete system knowing most components of a mosaic, we cant predict a missing onemodules (opossums) in different proteins dont always perform exactly the same function,110,由构件推测整体的复杂性和不确定性,11