《UniProt类数据库简介.doc》由会员分享,可在线阅读,更多相关《UniProt类数据库简介.doc(4页珍藏版)》请在三一办公上搜索。
1、UniProt类数据库简介1 UniProt全球蛋白质资源(Universal Protein Resource,UniProt)是全球有关蛋白质方面信息最伞面的资源库。是蛋白质序列以及功能信息的集中资源,且其具有最小的冗余。UniProt是对PIR、TrEMBL以及SwissProt的信息进行组合而构成的。UniProt提供了完全分类的、有丰富且准确注释信息的基于知识的蛋白质序列信息,且有广泛的交叉引用以及多种查询界向。出于方便序列查询,UniProt同样提供了多个非冗余序列数据库。UniProt由三部分内容组成,分别是UniProtKB、UniRef和UniParc,每个部分偏向于不同的用
2、途。1、UniProtKB(the UniProt knowledgebase)是基于知识的UniProt,通常也简称为UniProt,它汇聚了蛋白质的主要信息,包括蛋白质功能、分类以及交叉引用。UniProtKB包含两个部分:一部分是人工注释的记录,这部分注释信息是来自于文献信息和在专家监督下进行计算机分析而得到的(记为UniProt,SwissProt);另外一部分是直接利用计算机程序获得的记录信息。此类信息尚未有手工注释(记为UniProtTrEMBL)。在SwissProt或TrEMBL中没有找到的PIRPSD记录也被存放到UniProtKB中,并且与SwissProt或TrEMBI有
3、一个双向交叉引用。UniProtKB还提供与其他数据广泛的交叉引用, 比如说DDBJEMBLGenBank核酸数据库、蛋白质结构数据库、蛋白质结构域和蛋白质家族数据库、翻译后加工数据库、种属特异性数据库,以及疾病数据库等的交叉引用。事实上,这样一个广泛的文叉引用,使得这样一个数据库成了蛋白质分子生物学信息的情报中心。2、UniRef即UniProt非冗余参考数据库,它把紧密相关的序列信息进行组合并记录到一个记录条目中去,这样一来便于加速序列搜索。前面提到的UniProtKB中的数据是严格根据某一物种的可靠而又稳定的序列信息资料而得到的,而UniRef100则是将UniProtKB中不同物种的序
4、列信息进行交叉合并处理后的条目,它包含了UniProtKB中的所有记录信息。UniRefl00还包含了UniParc的记录,UniParc中的序列被认为是过度表达的以及不包含在一些已知数据库中的序列信息,比如说DDBJEMBI,GenBank中的全基因组短枪法数据(WGS)编码蛋白的翻译产物,Ensembl中从不同生物体内翻译得到的蛋白质以及国际蛋白质索引(International Protein index,IPI)数据。UniRef100中的数据首先将同一序列的所有记录进行聚类,相同序列以及子片段被记录为一条UniRef100条目。包含所有合并条目的接收号、蛋白质序列,以及与已知数据库和
5、它们档案记录相关的链接。UniRef90和UniRef50是由UniRefioo数据开发得到的,旨在提供非冗余序列信息,以便于科研组织进行更快的同源搜索。所有同源性大于90或大于50的记录合并到一起。分别形成了UniRef90或UniRe50条目。3、UniParc即UniProt档案库(UniProt Archive),它广泛存储所有公开发表过的蛋白质序列。 只包含唯一的标识符和序列。大多数蛋白质序列数据是从DDBJEMBLGeni3ank中的核酸序列翻译过来的,而大量由蛋白质测序实验直接得到的初级蛋白质序列数据又直接上传到其他资源库中去。 比如说SwissProt、TrEMBL以及PIRP
6、SD:另外,PDB中的有一部分蛋白质序列记录是专利产品。考虑到蛋白质初级资源的种类繁多以及注释信息的注释程度与质量的参差不齐,于是建立了UniParc,它是用来从其他的资源库收集所有可获得的蛋白质序列数据, 如DDBJEMBIGenBank、 UniProtSwissProt、 UniProtTrEMBL、PIRPSD、Ensemble、IPI,以及欧洲专利局、美国专利局、日本专利局等。对资源进行如此的整合。使得UniParc成为一个广泛的、可公开获得的、非冗余蛋白质序列库。UniParc中每条蛋白质序列出现一次,而且也只出现一次,并用唯一的UniParc标识符进行标注。UniParc交叉引用
7、了其他资源数据库的接收号,并以常用的风格提供序列的版本信息。一些统计标识用来显示该记录在原来资源数据库中的状态,用“active”表示该记录在原来的数据库中仍旧存在,而用“obsolete”表示该记录已经不存在了。UniParc的用途就是记录所有蛋白质序列的当前状态以及历史信息。UniParc记录中不含有注释信息。但此类的注释信息可以在UniProtKB中找到。2 SwissProtSWISSPROT数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss institute of Bioinformatics,SIB)和EM共同维护和管理。1994年,SIB创建了蛋白质
8、专家分析系统(ExpenProtein Analysis System,ExPASy)(http:/www.Expasy.ch),除了开发、维护和管理SwISSPROT数据库外,还提供蛋白质序列、结构、功能和蛋白质2DPAGE图谱等蛋白质信息资源,是国际上蛋白质组和蛋白质分子模型研究的主要网站。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,
9、其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB和 EBI共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数
10、据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。ExPAsy专门聘请了由200多位国际知名生物学家组成的网上专家评审团,并将SwissProt数据库中的蛋白质分成200多个类别,每个类别由1位或2位评审专家负责,通过计算机网络进行审核。ExPASy网站上列出了这些评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义,可以直接和相应的评审专家取得联系。 SwissProt采用了和EMBL核算序列数据库相同的格式和双字母标识字。这种双字母的标识字对于数据库的管理维护比较方便,但用户在使
11、用时却不很方便,特别对数据库格式不很熟悉的用户。ExPASy开发了面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表,使用户对序列特性一目了然,如二硫键、跨膜螺旋、二级结构片段、活性位点等。截止1998年6月,SWISS-PROT数据库包含约7万条序列,这些序列涵盖了5千多个不同种属,其中大部分来自于几种主要模式生物,如人、小鼠等。 SWISS-PROT数据库的结构与其它蛋白质序列数据库不同。给出SWISS-PROT数据库中一个序列条目的实例。图中每一行由两个字母起始,用来说明每一行所代表的信息。起其中第一行以ID开始,最后一行以双斜杠/结束。ID行表示该序列的名称是OP
12、SD_SHEEP,共有348个氨基酸残基。SWISS-PROT数据库的ID包含一定信息,如本例中OPSD表示蛋白质名称缩写,而SHEEP表示该蛋白质分子来自于哪个物种,中间用下划线分隔。即这一蛋白序列是来源于绵羊的视紫红质(rhodopsin)。序列条目的标识符ID随着版本的更新有可能改变,因此有必要采用能够唯一识别该序列条目的其它标识符。SWISS-PROT采用AC(accession number)作为表示某个特定序列的代码,具有唯一性和永久性。在文献中引用某个序列时,应以AC为准,而不是以序列名称或ID为准。本例中,代码AC为P02700。采用AC代码的另一个好处是便于计算机处理。如果在
13、AC行出现了几个代码值,那么应以第一个为准,它表示该序列在当前版本中的代码。下面的DT行提供了蛋白质序列提交到数据库的时间,及最近一次修改的时间等信息。描述行(DE)可以有一行或几行,提供了对该蛋白质的简单说明。此例中,说明该蛋白质为视紫红质。下面的几行中提供了有关该蛋白质的基因名(GN)、物种来源(OS)和分类学位置(OC)等信息。接下来是与该蛋白质相关的基本注释信息,包括文献信息、与测序有关的信息、以及对该蛋白质序列分析得到的与结构或突变相关的信息等。这些注释为用户提供了非常有价值的信息。基本注释信息后,是说明行(CC)。在CC行中按主题进行区分,其中,FUNCTION说明该蛋白质的功能,
14、PTM说明翻译后修饰,TISSUE SPECIFICITY说明组织专一性,SUBCELLULAR LOCATION说明亚细胞定位,SIMILARITY说明了与该蛋白质序列具有相似性或相关的某个蛋白质家族,等等。蛋白质序列具有与另一个蛋白质序列数据库PIR的链接、与GPCR专门数据库的链接,以及与蛋白质序列模体数据库PROSITE的链接和与蛋白质结构域数据库ProDom的链接。在DR行之后,是关键字行(KW)和特征表行(FT)。特征表包括对该序列特性的进一步注释,包括跨膜螺旋等超二级结构单元、配体结合位点、翻译后修饰位点等。特征表的每一行有一个关键字(如TRANSMEM)、特征序列的氨基酸残基位
15、置(如37-61),以及注释信息的性质(如POTENTIAL)等。SWISS-PROT数据库中的序列数据与蛋白质前体对应,如果想要获得成熟蛋白质的序列,可以参考特征表所提供的信息,即根据特征表所提供的信号(SIGNAL),转运区(TRANSIT)或前肽(PROPEP)等信息来推断成熟蛋白质或多肽序列。此外,CHAIN和PEPTIDE两个关键字用来表示成熟蛋白质的位置。SWISS-PROT数据库的格式便于通过计算机软件进行查询,即通过对每行起始的标识字建立索引文件,即可方便地找到某一字段。 NRL3D包首已知空间结构的序列,但数据量十分有限;SwissProt的序列经过严格的审核,注释完善,但数
16、据量较小。PIR数据量较大,但包含未经验证的序列,注释也不完善。TrEMBL和GenPePt的数据量最大,且随核酸序列数据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。因此,用户在使用蛋白质序列数据库时,必须根据实际情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。3 TrEMBLPIR和SwissProt是创建最早、使用最为广泛的两个蛋白质序列数据库。随着各种模式生物基因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建于199
17、6年,意为“transiation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL,数据库中所有编码序列的翻译。trEMBL数据库分两部分,SPTrEMBL和REMTrEMBL。SP-TrEMBI中的条目最终将归并到SwissProt数据库中。而REMTrEMBI则包括其他剩余序列。包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肤、合成序列、专利序列等。与TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。 由于TrEMBL和GenPept均是由核酸序列通过计算机程序翻译生成的,这两个数据库中的序列错误率较大,均有较大的冗余度。4. 举例说明下
18、面给出UniProt一个简单的应用, UniProt分别在EBI、SwissProt和PIR有主页链接在这里以UniProtEBI为例,进入首页,在首页左端有许多工具链接,包括文本搜索、高级搜索等。在这里如果选择高级搜索,则可以看到,不仅可以选择检索数据库(UniProtKBSwissProt和UniProtKBTrEMBL,仅UniProtKBSwissProt。或仅UniProtKBTrEMBL),还可以选择检索关键词的类型,具体种类可以看该网页下拉菜单,比较简单明了。在检索关键词中填入关键词后进行检索便可进入检索结果页面,选择一个检索结果,可得到所选蛋白质的记录信息。 5. 总结综上所述,蛋白质序列数据库种类繁多,各有特色。但在UniProt出现之后,由于该数据库是对各大蛋白质序列数据库的一种集成,并进行了数据库功能以及信息的进一步开发,旨在为用户提供一个既全面又综合,且高度集成的蛋白质序列数据库,相信UniProt将成为研究工作者首选的蛋白质序列数据库。