《生物学数库据及其检索.ppt》由会员分享,可在线阅读,更多相关《生物学数库据及其检索.ppt(62页珍藏版)》请在三一办公上搜索。
1、生物信息学 Bioinformatics,第二章 生物学数据库及其检索,王文栋,第一节 生物学数据库简介,一、什么是数据库?,数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其储存形式有利于数据信息的检索与调用。,二、生物学数据库,在生物信息学者们的努力下,人类基因组序列数据连同其它多种模式生物的序列数据及各自相应的基因结构与功能信息皆可供众多生物学家们免费接入与使用。,human,Arabidopsis,Thermotoga maritima,Escherichia coli,Buchnerasp.APS,Rickettsia prowazekii
2、,Ureaplasma urealyticum,Bacillus subtilis,Drosophila melanogaster,Thermoplasma acidophilum,Plasmodium falciparum,Helicobacter pylori,mouse,Caenorhabitis elegans,rat,Borrelia burgorferi,Borrelia burgorferi,Aquifex aeolicus,Neisseria meningitidis Z2491,Mycobacterium tuberculosis,模式生物,模式生物基因组计划,模式生物基因组
3、计划 酵母、线虫、果蝇、细菌、拟南芥等共约50多种已完成,70余种正在进行。目前总量已达60亿碱基对!,viruses,plasmids,bacteria,fungi,plants,algae,insects,mollusks,reptiles,birds,mammals,Genome sizes in nucleotide pairs(base-pairs),104,108,105,106,107,1011,1010,109,bony fish,amphibians,生物学数据库的分类,根据数据存放类型:,序列(三维)结构文献序列特征基因组图谱表达谱。,根据数据存储的具体内容:,一级数据库二
4、级数据库专用数据库,(一)一级数据库和二级数据库,一级数据库(Primary database):库中的主要内容来源于实验室操作所得到的原始数据(例如:测序得到的序列、X射线晶体衍射所得到的三维结构数据等),也包含一些基本的说明(序列所属的物种、类型、序列发表的文献出处等)。核酸序列数据库GenBank,EMBL,DDBJ及蛋白结构数据库PDB就是典型的一级数据库。,二级数据库(Secondary database):在一级数据库的信息基础上进行计算机加工处理并增加了许多的人为注释而构成的(例如:NCBI的RefSeq数据库等)。,(二)如何查找与研究相关的生物学资源,1 利用公共搜索引擎2
5、了解重要的生物信息学门户站点3 利用Nucleic Acid Research杂志每年的数据库专辑、网络服务器专辑。,第二节 常用数据库,常用数据库,一、核酸数据库,(一)核酸序列数据库 目前,国际上主要有Genbank、EMBL、DDBJ三大核酸序列数据库,三大核酸数据库之间每天相互交换数据,保持数据同步更新。,GenBank,PublicfreeAvailableviaInternet,EMBL Data Library,DDBJ(DNA Data Bank of Japan),三大基因数据库之间的关系,Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学
6、注释。它是由美国国立生物技术信息中心(National Center of Biotechnology Information,NCBI)建立和维护的。Genbank网址:,Genbank,Genbank数据直接来源 测序工作者提交的序列、测序中心提交的大量EST序列、其它测序数据以及与其它数据机构协作交换的数据。Genbank内容 所有已知的核酸序列和蛋白质序列,还包括对序列的简要描述、科学命名、物种分类名称、参考文献、序列特征表等辅助信息。Genbank对数据记录的处理 划分为 细菌类、病毒类、灵长类、啮齿类,EST数据、基因组测序数据、大规模基因组序列数据等16类。,Genbank由美国
7、国立生物技术信息中心(NCBI)建立维护,其主页如图所示。,NCBI全称National Center of Biotechnology Information(美国国家生物技术信息中心)NCBI是美国国立卫生研究院(NIH)的美国国立医学图书馆(NLM)的一个分支。1988年成立。网址:,NCBI 简介,当今世界最大的基于Internet的用于分子生物学研究的生物医学研究中心,2.EMBL核酸序列数据库,1982年创建,由欧洲生物信息学研究所(European Bioinformaties Institute,EBI)管理维护。使用序列提取系统(SRS)进行查询检索,利用基于网络的WEBIN
8、工具,或利用Sequin软件向EMBL核酸序列数据库提交序列。,1986年创建,由日本国家遗传学研究所(DNA Data Bank of Japan,DDBJ)负责维护和管理。使用SRS工具进行数据检索和序列分析,利用Sequin软件向该数据库提交序列。为方便检索DDBJ主页可进行日文和英文互换。DDBJ的日文版网址:DDBJ的英文版网址:,3.DDBJ数据库,国际上最权威的核酸序列数据库,(二)基因组数据库GDB,基因组数据库(GDB)创建于1990年,是一个专门汇集人类基因组数据的数据库,为人类基因组计划(HGP)保存和处理基因组图谱数据。,(一)蛋白质序列数据库 常用的蛋白质序列数据库有
9、SWISS-PROT、PIR、TrEMBL、UniProt、GenPept等,分述如下。1SWISS-PROT SWISS-PROT数据库提供蛋白质序列查询及相似蛋白质序列搜索等服务。,二、蛋白质数据库,Swiss-Prot数据库网站主页,SWISS-PROT数据库内容 核心数据:包括蛋白质序列、引用文献、分类信息等。注 释:包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、与其它蛋白质的相似性等。SWISS-PROT将广泛收集的相关数据进行合并,且与蛋白质三维结构数据库(PDB)等其他数据库交互索引。通过SWISS-PROT数据库可以得到某蛋白质的序列,再通过交互引用从PDB数据库得到
10、其结构。SWISS-PROT数据由数据行排列组成,数据格式与EMBL数据库数据格式基本相同。,2.PIR,PIR的子数据库:蛋白质序列数据库(PIR-PSD)蛋白质分类数据库(iProClass)非冗余的蛋白质参考资料数据库(PIR-NREF)PIR数据库按照数据性质和注释层次分四个部分:PIR1序列已经验证,注释最为详尽;PIR2为尚未确定的冗余序列;PIR3序列既未检验,也未注释;PIR4序列来自其它渠道,既未验证,也无注释。,美国国家生物医学研究基金会与国际蛋白质信息中心(PIR-International)共同维护。PIR是第一个蛋白质分类和功能注释数据库,PIR作用:提供基于文本的交
11、互式检索、序列相似性 搜索以及结合序列相似性、注释信息和蛋白质家族信息的高级检索。,3.TrEMBL,是一个经计算机注释的蛋白质数据库,采用SWISS-PROT数据库格式。主要包含从EMBL/Genbank/DDBJ三大核酸数据库中根据编码序列翻译的、尚未集成到SWISS-PROT数据库中的蛋白质序列。TrEMBL为SWISS-PROT数据库及时提供补充。,4.UniProt,UniProt将SWISS-PROT、PIR、TrEMBL三个数据库合并。通过文本检索、序列相似检索以及UniProt Ftp网站可获得蛋白质序列。,UniProt网站主页,UniProt包含UniProtKB、UniR
12、ef 和UniParc 3个部分:(1)UniProtKB数据库(UniProt Knowledgebase):蛋白质序列、功能、分类、交叉引用等信息存取中心;(2)UniRef数据库(UniProt Reference Clusters):为提高检索的速度,将紧密相关的蛋白质序列合并到同一条记录中。目前,根据序列相似程度可将UniRef数据库分为UniRef100、UniRef90和UniRef50 3个子库(3)UniParc(UniProt Archive):储存大量蛋白质研究的历史信息。,5.GenPept数据库,GenPept数据库特点 由Genebank数据库的核酸序列经翻译后产生
13、。GenPept数据量大,随核酸数据库的更新而更新,但未经实验证实,也未有详细注释。,(二)蛋白质序列二次数据库,1.PROSITE PROSITE是蛋白质家族保守区域和功能位点数据库,也是第一个蛋白质序列二次数据库,收录蛋白质家族中同源序列多重比对所确定的保守性区域:如酶活性位点、配体结合位点、金属离子结合位点、其它蛋白质结合位点等已知具有重要生物学功能蛋白质位点和序列模式。PROSITE数据库组成 包含Prosite(数据文件)和PrositeDoc(说明文件)两个文件数据库。,PROSITE数据库主页,PROSITE数据库作用:可确定一段新蛋白质序列中包含的功能位点以及其归属的蛋白质家族
14、。PROSITE的网址:PROSITE的中国镜像网址,2.PRINTS PRINTS蛋白质指纹图谱数据库将多个保守的序列模式作为识别蛋白质家族的特征,与PROSITE数据库的单个序列模式相比,PRINTS具有更好的识别率。,3.BLOCKS 序列模块(block):是通过序列比对得到的若干蛋白质序列中具有较高相似性的序列片段。BLOCKS由通过自动检测PROSITE数据库和PRINTS蛋白质指纹图谱数据库中蛋白质家族高度保守区域产生的序列模块组成。,(三)蛋白结构数据库,1.PDBPDB(Protein Data Bank)蛋白质结构数据库是国际上最完整的蛋白质、核酸、糖类、蛋白质-核酸复合物
15、及病毒等生物大分子三维结构数据库。,PDB数据库主页,PDB数据库作用 提供序列详细信息、原子坐标、三维结构、交叉检索等与结构相关的信息。,2.MMDB(Molecular Modeling Database)是Entrez的组成部分。只收录通过X射线晶体衍射和核磁共振实验测定的生物大分子结构数据。增加了附加信息如:大分子的生物学功能及产生机制、分子进化历史、生物大分子之间关系等。具有生物大分子三维结构模型展示、结构分析和结构比较等功能,(四)蛋白质结构二次数据库,1.DSSP(Database of Secondary Structure of Protein)是一个二级结构推导数据库,用于
16、研究蛋白质序列与蛋白质结构的关系。针对PDB数据库中蛋白质的原子坐标,计算其各个氨基酸残基中氢键、二面角、二级结构类型等二级结构构象参数,从而根据三维结构推导出其对应的二级结构。,2.HSSP(Homology-Derived Secondary Structure of Protein)是一个蛋白质同源序列比对数据库,将相似序列的蛋白质聚集成结构同源的家族,并隐含二级结构和空间结构信息。HSSP用于分析蛋白质保守区域、确定序列模式及蛋白的折叠、进化关系、分子设计等研究。,(五)蛋白质结构分类数据库,1.SCOP(Structural Classification of Proteins)性质
17、:是一个蛋白质结构分类数据库。功能:提供蛋白质之间的结构和进化关系的信息。提供PDB链接、蛋白质序列、空间结构图像展示、参考文献链接等服务。,2.CATH CATH数据库层次:类型层次:分为主类、主类、-类(/型和+型)、低二级结构类4类。构架层次:依据由螺旋和折叠形成的超二级结构排列方式进行分类,而不考虑它们之间的连接关系。拓扑层次:为二级结构的形状和二级结构间的联系。同源性层次:通过序列比较和结构比较确定。序列层次:根据序列同源性不同分为S、O、L、I、D五种。CATH的网址,3.PDBsum 通过对PDB数据库中所有蛋白质结构信息进行总结和分析,给出蛋白质的主链数目、配体、金属离子、二级结构、折叠图等相关信息。提供检索蛋白质各级结构信息的统一界面。,(六)蛋白质分类数据库,ProtoMap蛋白质分类数据库是利用计算机对SWISS-PROT、TrEMBL 和TrEMBL-new数据库中全部蛋白质进行层次分类,将相关的蛋白质聚类分组而成。ProtoMap数据库有助于对已知蛋白质家族进行精细划分,阐释家族间的相互关系。,第三节 Entrez检索实例,Entrez 是美国国家生物技术信息中心NCBI所提供的在线资源检索器。,