《生物信息学数据库ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学数据库ppt课件.ppt(100页珍藏版)》请在三一办公上搜索。
1、生物信息学数据库,生物信息学数据库,一:重要生物信息中心简介二:重要生物信息数据库 生物数据库 序列数据库flatfile格式三:数据库检索工具简介 Entrez,SRS,一、生物信息数据库引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,生物分子数据库应满足5个方面的主要需求,(1)时间性(2)注释(3)支撑数据(4)数据质量(5)集成性,生物分子数据库几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加(4)数据库网络化(5)面向应用(6)先进的软硬件配置,生物分子数
2、据库 一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的,二、重要生物信息中心Bioinformatics Centres,NCBI National Center for Biotechnology Information(US)http:/www.ncbi.nlm.nih.gov/EBI European Bioinformatics Institute(EU)http:/www.ebi.ac.uk/EMBnet European Molec
3、ular Biology Network http:/www.embnet.orgHGMP Human Genome Mapping Project Resource Centre(UK)http:/www.hgmp.mrc.ac.uk,重要生物信息中心Bioinformatics Centres,ExPASy Expert of Protein Analysis System(Switzerland)http:/www.expasy.ch/NIG National Institute of Genetics(Japan)http:/www.ncgr.org/EMBL European Mol
4、ecular Biology Laboratory(Germany)http:/www.embl-heidelberg.de/,NCBI,美国国家生物技术信息中心,http:/www.ncbi.nlm.nih.gov/,PubMed,PubMed(http:/www.ncbi.nlm.nih.gov/)是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE、Pre-MEDLINE等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。,EMBL,欧洲分子生物学实验室,欧洲分子生物学网络组织(EMBnet)European Mo
5、lecular Biology Network,EMBnet为国际著名生物信息学组织,为世界各国提供生物信息资源,并合作进行生物信息的研究、开发、应用和人才培训。,http:/www.embnet.org/,http:/www.embnet.org/,The National nodes,DDBJ,日本核酸数据库,http:/www.ddbj.nig.ac.jp/,ExPaSy,瑞士蛋白质分析专家系统,http:/www.expasy.ch/,http:/www.expasy.ch/,http:/www.expasy.ch/,http:/www.hgmp.mrc.ac.uk/,http:/ww
6、w.tigr.org/,http:/,http:/www.biosino.org/,三、重要生物信息数据库,序列数据库(EMBL,GENBANK,SWISSPROT,PIR)结构数据库(PDB)基因组数据库(GDB,ACeDB)其它(EPD、TRANSTAC),生物数据库的种类,DBCat,DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型,,(http:/www.infobiogen.fr/services/dbcat/),http:/www.infobiogen.fr/se
7、rvices/dbcat/ftp:/ftp.infobiogen.fr/pub/db/dbcat,数据库目录(一)Dbcat统计的生物信息数据库的数目,http:/nar.oupjournals.org/content/vo133/issue1/,序列数据库 核酸序列数据库(EMBL、GenBank)常用蛋白质序列数据库(Swissprot,PIR)结构数据库 蛋白质结构数据库(PDB)蛋白质分类数据库(SCOP,CATH)基因组数据库 GDB ACeDB二次数据库,序列数据库,主要核酸序列数据库:EMBL、GenBank,DDBJ主要蛋白质序列数据库:Swissprot,PIR,核酸序列数据
8、库,国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de(2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html(3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/,核酸序列数据库,三个数据库中的数据基本一致,仅在数据格式上有所差别。对于特定的查询,三个数据库的响应结果一样。这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。,美国的核酸数据库GenBankB
9、anson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务,Information Overload,从那个时候以来,DNA序列的数据已经从80年代初期的百余条序列,几十万碱基上升至现在的100 x109碱基!这就是说,在短短的约23年间,数据量增长了近百万倍。,蛋白质数据库,蛋白质数据库,蛋白质数据库种类和特点,目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一
10、个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,1、PIR(Protein Information Resource),除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;(4)序列中相关的位点、功能区域。,PIR提供三种类型的检索服务:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。三是结合序列相
11、似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索等。,三个子数据库,2、SWISS-PROT,SWISS-PROT(http:/www.expasy.ch/sprot/sprot-top.html)是目前国际上比较权威的蛋白质序列数据库,其中的蛋白质序列是经过注释的,SWISS-PROT中的数据来源于不同源地:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据,SWISS-PROT有三个明显的特点:,(1)注释在SWISS-PROT中,数据分为核心数据和注释两大类。核心数
12、据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述)注释包括:(A)蛋白质的功能描述;(B)翻译后修饰;(C)域和功能位点,如钙结合区域、ATP结合位点等;(D)蛋白质的二级结构;(E)蛋白质的四级结构,如同构二聚体、异构三聚体等;(F)与其它蛋白质的相似性;(G)由于缺乏该蛋白质而引起的疾病;(H)序列的矛盾、变化等。,(2)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的指针,这便于用户迅速得到相关的信息。,现有的交叉索引有:到EMBL核酸序
13、列数据库的索引,到PROSITE模式数据库的索引,到生物大分子结构数据库PDB的索引等。,TrEMBL(http:/www.ebi.ac.uk/trembl/index.html)是与SWISS-PROT相关的一个数据库。包含从EMBL核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT数据库中。TrEMBL有两个部分:(1)SP-TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到SWISS-PROT的数据,所有的SP-TrEMBL 序列都已被赋予SWISS-PROT的 登录号。(2)REM-TrEMBL(REMaining T
14、rEMBL)包括所有不准备放入SWISS-PROT的数据,因此这部分数据都没有登录号。,3、TrEMBL,4、PROSITE,PROSITE(http:/www.expasy.ch/prosite/)是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。,包括:Swiss-Prot TrEMBL PIR 用户可以通过文本查询数
15、据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP 下载数据。,5、蛋白质数据仓库UniProt,UniProt包含3个部分:(1)UniProt Knowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度;(3)UniProt Archive(UniParc)资源库,记录所有蛋白质序列的历史。,结构数据库,蛋白质结构数据库 PDB 蛋白质分类数据库 SCOP和CATH,PDB(Protein Data B
16、ank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸糖类其它复合物,http:/www.rcsb.org/pdb,PDB Content Growth,蛋白质结构数据库PDB中不同种类数据统计,引自http:/www.rcsb.org/pdb/holdings.html网页,RCSB(美国)结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics)http:/www.rcsb.org,PDB Holdings List:27-Sep-2005,显示分子结构(RasMol,C
17、hemView),MMDB(Molecular Modeling Database),分子模型MMDB 是(NCBI)所开发的生物信息数据库集成系统Entrez的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与PDB相比,对于数据库中的每一个生物大分子结构,MMDB具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等。还提供生物大分子三维结构模型显示、结构分析和结构比较工具。,MMDB 实用工具,蛋白质结构分类数据库,SCOP(Structural Classification of Proteins)CATH(Class,Architecture,Topolo
18、gy,Homology),分类层次,SCOP CATHROOT(根)CLASS(类)CLASS(类)ARCCHITECTURE(构架)FOLD(折叠)TOPOLOGY(拓扑结构)SUPERFAMILY(超家族)HOMOLOGY(同源性)FAMILY(家族)PROTEIN(蛋白)SPECIES(种),蛋白质结构分类数据库SCOP,SCOP数据库(http:/scop.mrc-lmb.cam.ac.uk/scop/)的目标是提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白质结构数据库PDB中的所有条目。SCOP数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:
19、到PDB的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次是家族、超家族和折叠:(1)家族:具有明显的进化关系(2)超家族:具有远源进化关系,具有共同的进化源(3)折叠类:主要结构相似,http:/scop.mrc-lmb.cam.ac.uk/scop/,http:/scop.mrc-lmb.cam.ac.uk/scop/,http:/www.biochem.ucl.ac.uk/bsm/cath_new/index.html,http:/www.biochem.ucl.ac.uk/bsm/cath_new/index.html,
20、基因组数据库(GDB),人类基因组计划所得到的图谱数据,目前GDB包含对下述三种对象的描述:,(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;,(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;,(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。,与染色体相关的信息,基因组数据库,GDB 人类基因组数据库AceDB 线虫(Caenorhabditis elegans)基因组数据库,http:/www.acedb.
21、org/,其它模式生物基因组数据库如:鼠基因组数据库 MGD(http:/www.informatics.jax.org/)酵母基因组数据库 SGD(http:/genome-www.stanford.edu/Saccharomyces/),Ensembl(http:/www.ensembl.org/),3、人类基因组数据库Ensembl,Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征:单核苷酸多态性(SNP)、重复序列等,Ensembl 数据库
22、结构图,Ensembl提供多种查询方式 通过关键字查询用BLAST进行相似序列的搜索 另一种更直观的方式是显示各染色体用户可以在染色体水平上选择感兴趣的位点,逐层放大浏览整个基因组,人的第9号染色体及大鼠对应的染色体片段,其它生物分子数据库,核酸序列变化单碱基多态性SNPs(Single nucleotide polymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究SNPs。,单碱基多态性数据库dbSNP,(http:/www3.ncbi.nlm.nih.gov/SNP/),,表达序列标记数据库d
23、bEST,EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法,EST序列大约覆盖了人类基因的90%。,DbEST(http:/www.ncbi.nlm.nih.gov/dbEST/)是GenBank的一个部分,该数据库包括不同生物的EST序列数据及其它相关信息,主要是从大量不同组织和器官得到的短mRNA片段。,WEB页面或email,FTP,有关EST的数据,dbEST数据库,序列标记位点数据库dbSTS,STS(Sequence Tagged Sites)是序列标记位点dbSTS(http:/www.ncbi.nlm.nih.gov/dbSTS/)
24、是NCBI的一个数据源,包含基因组短标记序列(STS)的组成和定位信息。可以通过BLAST搜索STS序列。,面向基因聚类数据库UniGene,UniGene(http:/www.ncbi.nlm.nih.gov/UniGene/)数据库将GenBank中的序列进行自动分类,形成面向基因群的非冗余集合。,每个UniGene群包含:代表一个唯一基因的多个序列,附有该基因相关的信息,如基因表达的组织类型、定位图谱除了基因的序列之外,还包括大量的EST序列。,目前,UniGene中包括人类、大鼠、小鼠、牛的相关数据,因为这些生物有大量的EST数据。,蛋白质二级结构数据库DSSP,DSSP(http:/
25、www.sander.embl-heidelberg.de/dssp/)是一个二级结构推导数据库。对生物大分子数据库PDB中的任何一个蛋白质,根据其三维结构推导出对应的二级结构。对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用除了二级结构以外,DSSP还包括蛋白质的几何特征及溶剂可及表面。,蛋白质同源序列比对数据库HSSP,HSSP(http:/www.sander.embl-heidelberg.de/hssp/)二级数据库。数据来源于PDB,或来源于SWISS-PROT 对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列对比排列起来,从而将相似序列的蛋白质聚集成结构同源
26、的家族。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。,From PDB,From Swiss-prot,多重序列比对,已知结构 未知结构,OMIM,OMIM(Online Mendelian Inheritance in Man),是关于人类基因和遗传疾病的分类数据库。该数据库收集了已知的人类基因及由于这些基因突变或者缺失而导致的遗传疾病。OMIM的使用非常方便查询程序根据输入到检索窗口的一个或几个词执行简单的查询,返回含有该词的文档的列表,用户可以在列表中选择一个或更多的异常查看其OMIM记录的全文,http:/www.ncbi.nlm.nih.gov:
27、80/entrez/query.fcgi?db=OMIM,EPD,EPD(http:/www.epd.isb-sib.ch/)是真核基因启动子数据库提供从EMBL中得到的真核基因的启动子序列,目标是帮助实验研究人员、生物信息学研究人员分析真核基因的转录信号。,TRRD,TRRD是一个关于基因调控信息的集成数据库,该数据库搜集真核生物基因转录调控区域结构和功能的信息。每一个TRRD的条目对应于一个基因,包含特定基因各种结构功能特性 TRRD6.0包括七个相关的数据表:(1)基因描述表TRRDGENES(2)控制区域表TRRDLCR(3)调控区域表TRRDUNITS(4)转录因子结合位点表TRRD
28、SITES(5)转录因子表TRRDFACTORS(6)表达模式表TRRDEXP(7)实验来源表TRRDBIB,TRANSFAC,TRANSFAC(http:/transfac.gbf.de/)是真核基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类 TRANSFAC包括6类数据:(1)SITE类数据(2)GENE类数据(3)FACTOR类数据(4)CELL类数据(5)CLASS类数据(6)MATRIX数据,BODYMAP,BODYMAP(http:/bodymap.ims.u-tokyo.ac.jp/)是关于人和老鼠基因表达信息的数据库,基因表达数据来自于不同组织、不同细胞以及不
29、同时刻。这里的基因表达数据实际上是3端的EST。通过分析这些数据,用户可以初步掌握基因活性,了解组织中mRNA的组成,研究基因表达规律,发现新的基因。,农业类数据库,Gramene(http:/www.gramene.org/)禾谷类作物的比较图谱资源数据库包括基因组、EST序列、蛋白质结构和功能分析、遗传学和物理图谱、生物化学通路的阐述、表型特征和突变的QTL定位及描述。便于研究者用水稻基因组序列来鉴定和阐述禾谷类作物的相应基因、通路和表型。,农业类数据库,Soybase(http:/soybase.agron.iastate.edu)包括大豆的遗传、表型及其他信息。可以查到大豆的各种遗传图谱和物理图谱,以及某些功能基因的信息。GrainGenes(http:/www.graingenes.org)美国农业部和国家农业图书馆的植物基因组计划支持的麦、燕麦和甘蔗遗传数据库。ArkDB(http:/www.thearkdb.org)农业相关动物的基因组数据库。包含常见家畜,如:猪、牛、羊等物种的遗传图谱和物理图谱。,重要数据库网址,