《分子生物信息数据库N.ppt》由会员分享,可在线阅读,更多相关《分子生物信息数据库N.ppt(65页珍藏版)》请在三一办公上搜索。
1、1,第二章 分子生物信息数据库,2,一、分子生物信息数据库简介,(一)诞生背景,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立分子生物数据库,3,分子生物数据库应满足几个方面的主要需求:(1)时间性(2)注释(3)数据质量(4)集成性,4,分子生物数据库具有几个明显的特征:,(1)数据库的更新速度不断加快 数据量呈指数增长趋势(2)数据库使用频率增长更快(3)数据库的复杂程度不断增加 SWISS-PROT(4)数据库网络化(5)面向应用(6)先进的软硬件配置,5,生物信息 学数据库 工具,染色体,核酸,蛋白质,基因组图谱,DNA序列,蛋白质序列,蛋白质结构,基因组
2、数据库,核酸序列数据库,蛋白质序列数据库,蛋白质结构数据库,二级数据库 复合数据库,基因组作图,序列测定,结构测定,(二)、分子生物信息数据库种类,6,生物信息数据库 一级数据库数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。,7,二、一级数据库简介,8,(一)、基因组数据库,来源于人类基因组计划及各种模式生物基因组计划1977年,最早获得的生物基因组全序列是噬菌体(53kb),9,10,11,12,GDB(美国、加拿大)1990年,John Hopk
3、ins大学建立,后由加拿大儿童医院生物信息中心管理.数据内容:(1)包括细胞遗传学标记、易碎位点、EST、contigs、重复片段等;(2)包含细胞遗传学图谱、连锁图谱、转录图谱,所有这些图谱都可以被直观地显示出来;(3)包括基因突变和基因多态性等数据;(4)与其它分子生物信息网络资源(EMBL、GenBank)的链接。,http:/www.gdb.org,13,14,AceDB 线虫基因组数据库。既是一个数据库,又是一个数据库管理系统。提供很好的图形界面,用户能够从大到整个基因组、小到单个序列 的各个层次观察和分析基因组数据。http:/数据内容:限制性图谱,基因结构信息,质粒图谱,序列数据
4、,参考文献,15,16,(二)、序列数据库,1.原始序列数据(sequence data)2.描述这些数据生物学信息的注释(annotation),17,1、核酸序列数据库(1)欧洲分子生物学实验室的EMBL(European Molecular Biology Laboratory)(2)美国生物技术信息中心(National Center for Biotechnology Information)的GenBank http:/(3)日本遗传研究所的DDBJ(DNA Data Base of Japan)http:/,18,三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询
5、,三个数据库的响应结果一样。,GenBank,DDBJ,EMBL,19,20,2、EMBL和GenBank数据库格式,序列条目由两部分组成:1.核苷酸碱基排列顺序(sequence data)2.注释(annotation),21,“ID”为序列的标识符行,包括登录号、类型,分子的长度,“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行,“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”
6、描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;,文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。,EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分,文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation),22,EMBL和GenBank数据库的行识别标志比较,头部,特性,序列,23,3、蛋白质序列数据库,PIR(美国)SWISSPROT(欧洲),24,PIR(protein information resource)1.1984年“蛋白质信息资源”(pro
7、tein information resource,PIR)计划启动;2.1988年,美国生物医学基金会NBRF、日本的国际蛋白质信息数据库和德国的慕尼黑蛋白质序列信息中心合作成立了国际蛋白质信息中心(PIR-International),共同收集和维护蛋白质序列数据库PIR;网址:http:/www-/,25,26,目的:帮助研究者鉴别和解释蛋白质序列信息,研究分子进化、功能基因组。它是一个全面的、经过注释的、非冗余的蛋白质序列数据库。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。,PIR(Protein Information Resour
8、ce),27,除了蛋白质序列数据之外,PIR还包含以下信息:(1)蛋白质名称、蛋白质的分类、蛋白质的来源;(2)关于原始数据的参考文献;(3)蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等;,28,PIR提供检索服务的类型:一是基于文本的交互式查询,用户通过关键字进行数据查询。二是标准的序列相似性搜索,包括BLAST、FastA等。,29,2、SWISS-PROT,1986年,瑞士日内瓦大学建立;2.瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息学研究所(EBI)维护和管理;3.目前国际上比较权威的蛋白质序列数据
9、库,其中的蛋白质序列是经过注释的。,SWISS-PROT的网址:http:/,30,31,SWISS-PROT中的数据来源于:(1)从核酸数据库经过翻译推导而来;(2)从蛋白质数据库PIR挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提交的蛋白质序列数据。,SWISS-PROT有三个明显的特点:,32,在SWISS-PROT中,数据分为核心数据和注释两大类。核心数据包括:序列数据、参考文献、分类信息(蛋白质生物来源的描述),(1)注释,33,Identification,序列的标识符行;,Accession number,登录号行;,Description,序列描述行;,Orga
10、nism species,描述生物体种属;,Organnism classification,描述生物体分类信息;,Reference number,描述参考文献的编号;,Reference authors,描述参考文献的作者;,Reference title,描述 参考文献的题目;,Reference location,描述参考文献的出处;,Gene name,基因名称;,Date,创建和更新日期行;,Reference position,参考文献涉及内容;,Cross-references,参考文献的MEDLINE号;,34,35,注释包括:(A)蛋白质的功能描述;(B)特殊位点和区域,如
11、钙结合区域、ATP结合位点等;(C)与其它蛋白质序列的相似性;(D)序列残缺与疾病的关系;,36,(2)最小冗余,尽量将相关的数据归并,降低数据库的冗余程度。如果不同来源的原始数据有矛盾,则在相应序列特征表中加以注释。,(3)与其它数据库的连接,对于每一个登录项,有许多指向其它数据库相关数据的 指针,这便于用户迅速得到相关的信息。,现有的交叉索引有:到EMBL核酸序列数据库的索引,到生物大分子结构数据库PDB的索引等。,37,38,(三)、结构数据库,39,1、PDB(Protein Data Bank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构蛋白质核酸
12、糖类蛋白质和核酸复合物,http:/,对于每一个结构,包含名称、参考文献、序列、一级结构、二级结构和原子坐标等信息。,40,41,一种是显式序列信息(explicit sequence)在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。,42,一种是隐式序列信息(implicit sequence)PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。,43,显示分子结构(RasMol,ChemView),44,2、蛋白质结构分类数据库,SCOP(Structural Classification of Proteins),45,S
13、COP(Structural Classification of Protein)英国医学研究委员会分子生物学实验室和蛋白质工程中心开发的基于web的蛋白质结构数据库分类、检索和分析系统;SCOP的网址:/,46,/,47,48,二级数据库简介,49,二级数据库的形式:大多以web界面为基础,具有文字信息、表格、图形、图表等方式显示数据库内容;一级数据库与二级数据库之间并无明确的界限。(例如:GDB、AceDB、SCOP、CATH等都已经具有二级数据库的特色),50,1、基因组信息二级数据库,TransFac(真核生物基因调控转录因子数据库)德国生物工程研究所开发维护,始建于1988年。是真核
14、基因顺式调控元件和反式作用因子数据库,数据搜集的对象从酵母到人类。TransFac的网址:http:/,51,52,2、蛋白质序列二级数据库,Prosite(蛋白质序列功能位点数据库)始建于1990年代初,由瑞典生物信息学研究所SIB负责维护。构建依据:通过多序列比对方法,得到的保守性区域,如酶的催化位点、配体结合位点、与金属离子结合的残基。蛋白质序列功能位点数据库。,(http:/),53,54,DSSP(/)对生物大分子数据库PDB中的任何一个蛋白质,根据其PDB中的原子坐标,计算氨基酸残基的二级结构构象参数。,3、蛋白质结构二级数据库,55,The DSSP codeH=alpha he
15、lix B=residue in isolated beta-bridge E=extended strand,participates in beta ladder G=3-helix(3/10 helix)I=5 helix(pi helix)T=hydrogen bonded turn S=bend,对研究蛋白质序列与蛋白质二级结构及空间结构的关系非常有用。,DSSP 二级结构实例,56,同源蛋白质数据库HSSP,HSSP(/)数据来源于PDB,或来源于SWISS-PROT 对于PDB中的每一个蛋白质,HSSP将与其同源的所有蛋白质序列进行对比,从而将相似序列的蛋白质聚集成结构同源的家族
16、。HSSP有助于分析蛋白质的保守区域,研究蛋白质的进化关系,有助于蛋白质的分子设计。,57,三 其它生物分子数据库,58,基因组水平上由单个核苷酸的变异引起的DNA序列的多态性单核苷酸多态性SNPs(Single nucleotide polymorphisms)SNPs对人类遗传学研究和医学应用具有重要的意义无论对于人类种群遗传学的研究,还是对疾病易感性状分析或个体化医疗,都需要深入地研究SNPs。,1、单核苷酸多态性数据库dbSNP,http:/SNP/,NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,它是关于单碱基
17、替换以及短插入、删除多态性的资源库。,59,60,实例:GTTTGTGATT ACTTTGTAAA AACAGTGTAA TAAGTACTCA CTAAAGGAAA TTTAGAAAAT GATAAGCTTA Aggccgggca tggtgcctca tgcctgtaat cctagcactt tgggaggctg aggtgggtgg atcacctgag ctcaggagtt ccagatcatc ctggacaata tggtgaaacc ctgtctacgc ttaaaatacg R aaattagccg ggcgtggtgg ggcatgcctg tggtctcagc tacttt
18、ggag actaaggtag aaggatcact tgaatcctgg aggtggaggt tgcagagtga gccaatatcg tgccactgca ctccagccta ggtgacagag gaagactctg tctcaaaaaa aagaaaaTAA GGCCAGACAC GGGGGCTCAT GCTTGTAATC R=A/G,61,2、生物、医学文献数据库PubMed,PubMed是NCBI维护的生物学、医学文献引用数据库,提供对MEDLINE(生物医学文献数据库)等文献数据库的引用查询和对大量网络科学类电子期刊的链接。利用Entrez系统可以对PubMed进行方便的查询检索。,(),62,63,3、目录数据库DBCat,DBCat是生物信息数据库的目录数据库,它收集了500多个生物信息学数据库的信息,并根据它们的应用领域进行了分类:DNARNA蛋白质基因组图谱蛋白质结构文献著作等基本类型,,(),64,DBCat中各类数据库个数,65,The end,