生物分子数据库.ppt

上传人:小飞机 文档编号:5291663 上传时间:2023-06-22 格式:PPT 页数:54 大小:2.43MB
返回 下载 相关 举报
生物分子数据库.ppt_第1页
第1页 / 共54页
生物分子数据库.ppt_第2页
第2页 / 共54页
生物分子数据库.ppt_第3页
第3页 / 共54页
生物分子数据库.ppt_第4页
第4页 / 共54页
生物分子数据库.ppt_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《生物分子数据库.ppt》由会员分享,可在线阅读,更多相关《生物分子数据库.ppt(54页珍藏版)》请在三一办公上搜索。

1、第二章 生物分子数据库,第一节 引言,生物分子数据高速增长,分子生物学及相关领域研究人员迅速获得最新实验数据,建立生物分子数据库,数据库记录(entry,item)通常包括两部分,原始数据(序列组成等)对这些数据进行的生物学意义的注释,一个数据库通常链接了多个相关数据库,核苷酸数据库水稻抗病相关基因OsDR8,Taxonomy 数据库,Pubmed 数据库,NCBI-Protein 数据库,其他数据库,Cross-Reference,生物分子数据库分类 一级数据库(有冗余)数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库(专业数据库)对原始生物分子数据进行整理

2、、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的,常用的生物分子数据库 三大核酸序列数据库:Genbank、EMBL、DDBJ 特殊类型的核酸序列数据库:非编码RNA数据库(ncRNA)、表达序列标签数据库(dbEST)、miRNA、tRNAdb蛋白质序列数据库:PIR、SWIS-PROT、MIPS核酸和蛋白质三维结构数据库:核苷酸三维结构数据库(NDB)、普纳大学核酸结构数据库(BNASDB)、蛋白质结构数据库(PDB,MMDB)基因组相关数据库:人类基因组数据库(HGD)、基因组序列数据库(GSDB)、基因组在线数据库(GOLD)基因表达数据库:基因表达库

3、(GEO)、斯坦福微阵列数据库(SMD)、ArrayExpress,第二节 核酸序列数据库,国际上权威的核酸序列数据库(1)欧洲分子生物学实验室的EMBL(2)美国生物技术信息中心的GenBank(3)日本遗传研究所的DDBJ,信息资源共享,以天为基础进行数据库之间的序列数据交换,三个数据库中的数据基本一致,仅在数据格式上有所差别属于国际合作项目,这三个几乎一致的数据库称为国际核酸序列数据库(INSD)这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段,GenBank由美国国家医学图书馆的国家生物技术信息中心(NCBI)构建、维护和管理,N

4、CBI位于美国马里兰国家健康研究所(NIH)。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签(expressed sequence tag,EST)基因组测序序列(genome survey sequence,GSS)和其他测序中心提供的高通量数据,还包括美国专利商标局提供的已发表专利的序列数据。,一、NCBI简介/GenBank数据库,GenBank()数据库包含30万余种不同物种生物的核酸序列,这些数据主要来源于全世界不同实验室和大规模测序计划项目 大约12来源于Homo sapiens排列前6的物种:Homo sapiens、Mus musculus、R

5、attus norvegicus、Bos taurus、Zea mays、Danio rerio(zebrafish),GenBank核酸序列格式,Locus name(位点名,座位名,同Accession),每条序列有三种专有标识符(identifier)和一个版本号,GenInfo identifier(GI)/Nucleotide ID(NID),Accession number(登陆号,流水号,编号,注册号),10位字符属名第一字母种名第一字母6位字符的注册号2个字母6个阿拉伯数字(present form),Version(与登录号相同,后面有数字1,2,3),Note:序列发生变化

6、时,GI号改变,登录号不改变,但是版本号会发生改变,GenBank核酸序列检索,NCBI检索首页检索窗口的数据库选项下拉菜单,Entrez集成检索系统,检索栏(for)输入“IL-2 human”,Entrez Gene检索结果摘要格式显示页面,Entrez Gene全文报告页面(前部分),Entrez Gene全文报告页面(后部分),GenBank核酸序列提交,欧洲生物信息学研究所(EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBIEMBL-EBI的许多数据库是生物学家们熟知的,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因组)、ArrayExpr

7、ess(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。,二、EBI简介/EBML数据库,SRS集成检索系统,SRS快速文本检索窗口,SRS检索结果页面显示的检索结果,SRS蛋白质记录详细内容页面,三、DDBJ数据库,日本DNA数据库DDBJ(DNA Data Bank of Japan),于1984年建立,与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库。他们开发了SQmateh工具

8、,用来搜索基因或蛋白质中短的碱基或氨基酸序列区域,并建立了简便且易操作的SOAP(simple object aeeess protoco1)服务器。DDBJ主要收集来自日本研究者获得的序列数据,但也收集数据和发放编号给任何其他国家的研究者。,第三节 蛋白质数据库,随着分子生物学的发展,人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库(二维凝胶电泳数据库)、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。,常用的蛋白质序列数据库:,PIRM

9、IPSSwiss-Prot(trEMBL)Present:UniProt数据库仓库,蛋白质功能、结构域和蛋白质家族有关的数据库:,PROSITEInterProPfamProDomSMART 等,蛋白质三维结构相关数据库:,PDBBioMagResBankSWISS-MODEL RepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioImage等,蛋白质二维凝胶电泳数据库:,WORLD-2DPAGEPhoretix links,信号传导及蛋白质-蛋白质相互作用相关数据库:,DIPINTERACTProNetKEGGCANSITESPADCSND

10、B等,Frequently-used protein sequence database,UniProt:,由 EBI(European Bioinformatics Institute)管理的数据库由两部分组成,有详细注释的序列,数据来源于实验与40个数据库相互参照(cross-reference),Swiss-Prot/trEBMB,UniProt包含3个部分:(1)UniProt Knowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取中心(2)UniProt Non-redundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到

11、一条记录中 以便提高搜索速度;(3)UniProt Archive(UniParc)资源库,记录所有蛋白质序列的历史。,第四节 常用的数据库,1、基因组数据库(GDB),人类基因组计划所得到的图谱数据,目前GDB包含对下述三种对象的描述:,(1)人类基因组区域 包括基因、克隆、PCR标记物、断点、细胞遗传学标记、易碎位点、EST、综合区域、contigs、重复等;,(2)人类基因组图谱,包含细胞遗传学图谱、连接图谱、辐射混合图谱、contig 图谱、集成图谱,所有这些图谱都可以被直观地显示出来;,(3)人类基因组中的变化,包括基因突变和基因多态性,加上等位基因频率数据。,其它模式生物基因组数据

12、库如:鼠基因组数据库 MGD()酵母基因组数据库 SGD(),Ensembl(),人类基因组数据库Ensembl,Ensembl包括所有公开的人类基因组DNA序列,通过注释形成的关于序列的特征。现在包括其他基因组,如大鼠、小鼠、线虫、果蝇等。例如:基因通过实验发现的或者是通过GenScan程序预测的其他的特征:单核苷酸多态性(SNP)、重复序列等,Ensembl 数据库结构图,2、表达序列标签数据库dbEST,dbEST()是GenBank的一个部分,为GenBank的二级数据库EST(Expressed Sequence Tags)方法已被证明是识别转录序列的最有效方法,主要是从大量不同组织

13、和器官得到的短mRNA片段,反转录成稳定的cRNA5端或3端的cDNA 序列单轮测序获得EST,300400 bp GenBank 中大约56的序列(65,255,769条序列,2010年)是 EST,这些序列来源于 1370个物种,3、蛋白质三维结构数据库,显示分子结构(RasMol,ChemView),Science 309:1522(2005),microRNA(miRNA)的形成,4、miRNA数据库,收集了10883条 hairpin precursor miRNA 序列(2009.9)表达10581条mature miRNA来源于115个物种可以通过miRNA名、关键词、染色体位置等检索数据库分析一条DNA序列中是否可能包含miRNA,The end,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号