生物数据库ppt课件.ppt_三一办公31ppt.com

资源描述

《生物数据库ppt课件.ppt》由会员分享，可在线阅读，更多相关《生物数据库ppt课件.ppt（131页珍藏版）》请在三一办公上搜索。

1、生物信息学数据库,数据库介绍与数据检索,1,生物信息学与功能基因组学,http:/www.bioinfbook.org,2/131,面对堆积如山的生物学数据,3/131,主要内容,一、分子生物学数据库简介二、NCBI（Entrez）简介子数据库，数据格式，数据检索，工具软件,4/131,思考题：根据自己的知识和经验，你认为网上应该会有哪些分子生物学的数据库？数据库中应该存放哪些数据？应该提供什么类型的数据处理服务。以下是一些关键词：DNA，RNA，Protein，Genome，物种，文献，疾病，结构，蛋白质家族，Gene，染色体。,5/131,一、分子生物学数据库,分子生物学数据库各自按照一定

2、的目标收集和整理实验数据，并提供相关的数据查询、数据处理的服务，并大多提供网络服务。,建立生物分子数据库,生物分子数据高速增长（HGP）,分子生物学及其相关领域研究人员需要迅速获得最新实验数据,6/131,生物数据分类,生物信息数据库种类繁多，就目前来看，大体可以分为四个大类：1.基因组数据库；2.核酸和蛋白质一级结构序列数据库；3.生物大分子（主要是蛋白质）三维空间结构数据库；4.根据以上三类数据库和文献资料为基础构建的二次数据库。也称专门数据库、专业数据库或专用数据库。,一次数据库,7/131,生物分子信息,生物分子结构数据,生物分子功能数据,最基本,直观,复杂,核酸序列数据,生物分子数

3、据类型,蛋白质序列数据,8/131,生物学数据库统计,Nucleic Acids Research杂志每年的第一期中详细介绍最新版本的各种数据库。http:/nar.oxfordjournals.org/http:/www.oxfordjournals.org/nar/database/c/,9/131,1 核酸序列数据库2.RNA 序列数据库3.蛋白质序列数据库4.结构数据库5.基因组数据库（非脊椎动物）6.代谢酶相关产物7.人类和其他脊椎动物基因组8.人类基因和疾病9.其他数据和其他基因表达数据库10.蛋白组资源11.其他分子生物学数据库12.细胞器官数据库13.植物数据库14.免疫学数据

4、库,10/131,核酸序列数据库,国际上著名的一级核酸数据库（1）美国生物技术信息中心的GenBankhttp:/www.ncbi.nlm.nih.gov/（2）欧洲分子生物学实验室的EMBL http:/www.embl.org/（3）日本遗传研究所的DDBJhttp:/www.ddbj.nig.ac.jp/,11/131,数据相同,GenBank数据库每天与欧洲分子生物学实验室的核酸序列数据库（European Molecular Biology Laboratory Nucleotide Sequence Database，EMBL）和日本的DNA数据库（DNA Data Bank of

5、 Japan DDBJ）进行数据交换，以保证数据库内容在全世界范围的同步性。,12/131,特殊类型核酸序列数据库：,非编码RNA数据库（ncRNA）；表达序列标签数据库（dbEST）；序列标签位点数据库（dbSTS）；miRBase；tRNAdb等。,13/131,基因组相关数据库：,人类基因组数据库（HGD）；基因组序列数据库（GSDB）；基因组在线数据库（GOLD）等。,14/131,核酸三维结构数据库：,核苷酸三维结构数据库（NDB）；普纳大学核酸结构数据库（BNASDB）等。,15/131,基因表达数据库：,基因表达库（GEO）；斯坦福微阵列数据库（SMD）；ArrayExpress

6、；CGED；GXD；BodyMap 等。,16/131,人类基因突变及疾病相关数据库：,人类基因变异数据库（HMGD）、人类遗传双等位基因序列数据库（HGBASE）、人类孟德尔遗传在线（OMIM）、国际单体型计划（HapMap）、人类单核苷酸多态性数据库（dbSNP）、肿瘤基因数据库（TGDB）、疾病关联数据库（GAD）、癌症基因数据库（CGAP）、人类表观遗传数据库（HEP）、人类DNA甲基化与癌症数据库（MethylCancer）等。,17/131,蛋白质序列数据库,随着分子生物学的发展，人们获得了越来越多关于蛋白质序列、结构和功能的信息。世界各国的生物学家和计算机科学家合作利用这些信息构

7、建了蛋白质序列数据库、蛋白质三维结构数据库、蛋白质组数据库（二维凝胶电泳数据库）、信号传导及蛋白质-蛋白质相互作用相关数据库、DNA和蛋白质相互作用数据库等蛋白质相关数据库。,18/131,常用的蛋白质序列数据库：,PIRMIPSSwiss-Prot UniProt,19/131,蛋白质功能、结构域和蛋白质家族有关的数据库：,PROSITEInterProPfamProDomSMART 等,20/131,蛋白质三维结构相关数据库：,PDBBioMagResBankSWISS-MODEL RepositoryModBaseCATHSCOPReLiBaseTOPSSWISS-3DIMAGEBioI

8、mage等,21/131,蛋白质二维凝胶电泳数据库：,WORLD-2DPAGEPhoretix links,22/131,信号传导及蛋白质-蛋白质相互作用相关数据库：,DIPINTERACTProNetKEGGCANSITESPADCSNDB等,23/131,DNA和蛋白质相互作用数据库：DPInteract蛋白质翻译后修饰相关数据库：O-GlycBase、PhosphoBase、RES蛋白质等蛋白质,24/131,UniProt-通用蛋白质资源库,（http:/www.uniprot.org/）是存储和链接其他蛋白质数据库的资源库，并且是蛋白质序列和具有综合功能注释目录的中心资源库。使用Un

9、iprotKB可以检索准确、可靠的蛋白综合信息。使用UniRef可以减少冗余，加速序列相似性搜索。使用UniParc可以检索存档序列和它们来源的数据库。,25/131,http:/www.uniprot.org（蛋白数据库）,26/131,MIPS数据库,慕尼黑蛋白质序列信息中心（MIPS）（http:/www.helmholtz-muenchen.de/en/ibis），它的重点工作是基因组生物信息学，特别注重基因组信息系统分析，包括应用生物信息学方法注释基因组、表达分析和蛋白质组学方面研究。MIPS支持和维护一系列基因组数据库以及系统，可以提供细菌、真菌和植物基因组比较分析服务。在该站点提

10、供基因组分析工具、数据库检索系统、表达分析、蛋白相互作用等网络服务。,27/131,http:/www.helmholtz-muenchen.de/en/ibis,28/131,其他重要的蛋白质序列数据库：,PRINTSPfam,29/131,PRINTS,PRINTS（http:/www.bioinf.manchester.ac.uk/dbbrowser/PRINTS/index.php）是蛋白基序指纹图综合数据库，每个指纹图都是使用数据扫描程序ADSP或VISTAS序列分析软件包反复优化后定义的。数据库中有两种类型指纹图，根据指纹图的复杂性分为简单和复合指纹图：简单指纹图基本上是单一的基序

11、，而复合指纹图包含多个基序。,30/131,Pfam,蛋白质一般是由一个或多个功能区域组成，这些功能区域通常称作域（domain）。在不同的蛋白质中不同的域以不同的组合出现，导致在自然界发现多种多样组成成分的蛋白质。识别出现在蛋白质中的域可以了解蛋白质的功能。Pfam数据库（http:/pfam.sanger.ac.uk/）是一个大的蛋白质域家族集合，每个家族是用多序列比对和隐马模型（HMMs）分析结果的代表。,31/131,http:/www.pdb.org/（结构数据库）,32/131,http:/www.ensembl.org/index.html,33/131,ENSEMBL简介,EN

12、SEMBL旨在开发一种能够对真核生物基因组进行自动诠释(automatic annotation)并加以维护的软件。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室（EMBL）所属分部欧洲生物信息学研究所（EBI）共同协作运营。该计划开放所有源信息，所有由该计划所产生的数据及软件都可以免费及自由地从网络上获取并使用。该计划所开发并使用的大部分软件是用Perl语言编写的，并基于BiopPerl的基础框架。其他基因组计划亦可轻易使用Perl语言的应用程序接口(Application programming interface，API)。,34/131,http:/www.

13、geneontology.org/,biological process生物过程molecular function分子功能cellular component细胞组分。,35/131,National Center for BiotechnologyInformation(NCBI)www.ncbi.nlm.nih.gov,二、NCBI,子数据库，数据格式，数据检索，工具软件。,36/131,NCBI www.ncbi.nlm.nih.gov,美国国家生物技术信息中心（National Center for Biotechnology Information,NCBI）NCBI成立于1988

14、年，其主要工作是开发以GenBank为代表的数据库，进行计算生物学研究，开发用于分析基因组数据的软件工具，发布生物医学信息。Entrez是NCBI著名的用于提取序列信息的工具，它将科学文献、DNA和蛋白质序列数据库、蛋白质三维结构数据、种群研究数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI的SRS，是一个查询、提取和显示系统。,37/131,首页,38/131,学习利用NCBI,http:/www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook,39/131,sitemap【旧版本】,40/131,第一个子数据库GenBank介绍,htt

15、p:/www.ncbi.nlm.nih.gov/genbank,41/131,简介,GenBankis the NIH（美国国立卫生研究院）genetic sequence database,an annotated collection of all publicly available DNA sequences(Nucleic Acids Research,2011 Jan;39(Database issue):D32-7).There are approximately 126,551,501,141 bases in 135,440,924 sequence records in t

16、he traditional GenBank divisions and 191,401,393,188 bases in 62,715,288 sequence records in the WGS division as of April 2011.The completerelease notesfor the current version of GenBank are available on the NCBI ftp site.A new release is made every two months.GenBank is part of theInternational Nuc

17、leotide Sequence Database Collaboration,which comprises the DNA DataBank of Japan(DDBJ),the European Molecular Biology Laboratory(EMBL),and GenBank at NCBI.These three organizations exchange data on a daily basis.,42/131,GenBank简介,GenBank是一个综合数据库，该数据库中包含了已经公开的30万余种不同物种生物的核酸序列，这些数据主要来源于全世界不同实验室和大规模测序

18、计划项目。由美国国家医学图书馆的国家生物技术信息中心构建、维护和管理。该中心位于美国马里兰国家健康研究所（NIH）。GenBank数据库的序列数据来源于序列发现者提交的序列、批量提交的表达序列标签（expressed sequence tag,EST）、基因组测序序列（genome survey sequence,GSS）和其他测序中心提供的高通量数据，还包括美国专利商标局提供的已发表专利的序列数据。,43/131,统计（http:/www.ncbi.nlm.nih.gov/genbank/statistics）,44/131,45/131,ftp:/ftp.ncbi.nih.gov/genb

19、ank/gbrel.txt,46/131,数椐库访问示例,视黄醇结合蛋白RBP4（retinol-binding protein）一种大量分泌的、小体积的蛋白，能结合血液中的视黄醇（维生素A）。视黄醇可从胡罗卜中以维生素A的形式获得，疏水程度大。RBP4帮助转运这个配体到眼睛为视觉系统所用。,47/131,数据库检索工具,集成检索系统：Entrez,48/131,Entrez,1991年由美国生物信息技术中心（National Center for Biotechnology Information,NCBI）（http:/www.ncbi.nlm.nih.gov）开发。Eric W.Saye

20、rs.Database resources of the National Center for Biotechnology Information.Nucleic Acids Research,2010,Vol.38,Database issueD5-D16,49/131,50/131,http:/www.ebi.ac.uk/Tools/,51/131,SRSSRS is a powerful data integration platform,providing rapid,easy and user friendly access to the large volumes of dive

21、rse and heterogeneous Life Science data stored in more than 400 internal and public domain databases.more,52/131,From the NCBI home page,type“rbp4”and hit“Search”,53/131,54/131,55/131,56/131,图形显示,57/131,数据库格式,思考题：如果从数据库里面得到一个序列，你希望能得到些什么样的附加信息？以什么样的格式提供？所谓格式是对信息描述的统一规范，规范的格式为数据的收集、整理、交流和应用提供了方便。,58/

22、131,1，FASTA（pearson）式FASTA格式是记录序列最简单的一种格式，将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。http:/www.ncbi.nlm.nih.gov/blast/fasta.shtml,59/131,FASTA格式的一个例子,“”开始的单行：该序列的一些基本信息。后面是分行的序列数据,特点：具有极大的可读性，FASTA格式在许多分子生物学软件包中得到了广泛的应用。,60/131,2，GBFF（GenBank flatfile）格式,http:/www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

23、,头部：包含整个记录的信息,61/131,http:/www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?db=nuccore&id=158187534,62/131,locus,name,长度,分子类型,分类码,修改时间,63/131,GenBank 分类码,64/131,DEFINITION行,该行主要对GenBank记录所包含的生物学意义作出总结。,65/131,检索号,登录号或检索号,66/131,http:/www.ncbi.nlm.nih.gov/Sequin/acc.html,67/131,VERSION,在数据库中，如果某条序列数据发生了变化，即使是

24、单碱基的改变，它的版本号也将增加，同时得到一个新的GI号，而检索号保持不变。,68/131,GI,Sequence identification number,69/131,关键词,70/131,SOURCE,71/131,Reference,72/131,73/131,第二部分：FEATURES（特性表）,它描述基因和基因产物以及与序列相关的生物学特性。,74/131,FEATURES,这一部分描述基因和基因产物以及与序列相关的生物学特性。,特性表格式是按表单的方式设计的，包含3个主要部分。第一，特性关键词；第二，特性位置；第三，限定词，相关特性的辅助信息，限定词使用一组标准化的对照词汇表以

25、利于计算机从中提取信息。,75/131,FEATURES,The format design is based on a tabular approach and consists of the following items:Feature key a single word or abbreviation indicating functional group Location instructions for finding the feature Qualifiers auxiliary information about a feature,76/131,特性表,http:/www.

26、ncbi.nlm.nih.gov/projects/collab/FT/index.html,Key Location/QualifiersCDS join(544.589,688.1032)/product=T-cell receptor beta-chain”which might be read as:This feature,which is a partial coding sequence,is formed by joining elements indicated to form one contiguous sequence encoding a product called

27、 T-cell receptor beta-chain.,77/131,第三部分：序列,78/131,其他子数据库介绍,79/131,http:/www.ncbi.nlm.nih.gov/RefSeq/,80/131,参考序列数据库,NCBI Reference SequencesThe Reference Sequence(RefSeq)collection aims to provide a comprehensive,integrated,non-redundant,well-annotated set of sequences,including genomic DNA,transcr

28、ipts,and proteins.RefSeq is a foundation for medical,functional,and diversity studies;they provide a stable reference for genome annotation,gene identification and characterization,mutation and polymorphism analysis(especially RefSeqGene records),expression studies,and comparative analyses.more.,81/

29、131,参考序列,82/131,UniGene:unique genes via ESTs,Find UniGene at NCBI:www.ncbi.nlm.nih.gov/UniGeneUniGene（unique gene）项目的目标是为每一个基因创造一个唯一的条目，然后收集对应于这个基因的所有EST（表达序列标签）。EST 来源于一定环境下一个组织总mRNA 所构建的cDNA 文库，一个EST代表一个完整基因的一小部分。,83/131,Cluster sizes in UniGene,This is a gene with1 EST associated;the cluster siz

30、e is 1,84/131,Cluster sizes in UniGene,This is a gene with10 ESTs associated;the cluster size is 10,85/131,Cluster sizes in UniGene(human),Cluster size(ESTs)Number of clusters1 42,80026,5003-46,5005-85,4009-164,10017-323,300500-10002,1282000-40002338000-16,0002116,000-30,0008,86/131,http:/www.ncbi.n

31、lm.nih.gov/unigene/statistics/,87/131,http:/www.ncbi.nlm.nih.gov/unigene/statistics/,88/131,RBP4,UniGeneNucleotideProteinPubMed,视黄醇结合蛋白RBP4：retinol binding protein 4。,89/131,90/131,顶端部分,91/131,中间部分,92/131,底端部分,93/131,94/131,95/131,96/131,97/131,98/131,检索的一个例子（案例1）,许多细菌在与抗生素的对抗中发展出多种能力从而使抗生素失效，其中一个例子

32、就是结核杆菌（mycobacterium tuberculosis），很多结核杆菌株都进化出了青霉素抗性，那么具有青霉素抗性的结核杆菌编码青霉素结合蛋白的基因在其基因组中是否发生了改变呢？,99/131,选择数据库,Penicillin-binding,100/131,Entrez,101/131,20090601搜索结果,102/131,103/131,网页右边部分,104/131,限定物种中检索,Mycobacterium tuberculosis,105/131,结果,106/131,107/131,交集,108/131,旧数据,109/131,组合检索,“Mycobacterium t

33、uberculosis”ORGN AND“penicillin-binding”,110/131,20090601搜索结果,111/131,http:/www.ncbi.nlm.nih.gov/sites/batchentrez,112/131,http:/www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html,113/131,114/131,115/131,116/131,课后练习,通过流感病毒资源库了解H1N1病毒。,117/131,其他重要数据库,OMIM 孟德尔遗传信息数据库http:/www.ncbi.nlm.nih.gov/omimCGAP The Ca

34、ncer Genome Anatomy Project 肿瘤基因组图谱知识库 http:/www.ncbi.nlm.nih.gov/projects/CGAP/美国国立癌症研究所为解剖肿瘤细胞分子而建立。基因组数据库Genomes http:/www.ncbi.nlm.nih.gov 人类基因组资源整合体系http:/www.ncbi.nlm.nih.gov/genome/guide/human 流感病毒资源库http:/www.ncbi.nlm.nih.gov/genomes/FLU/FLU.html,118/131,序列提交,1、研究产生的新序列，需要递交到公共数据库保存。2、需要撰写论文

35、发表新序列时，需要数据库Accesion number。,119/131,WEB提交工具：1、NCBI Bankit2、EBI WEBIN3、DDBJ SAKURA离线提交：NCBI：Sequin,120/131,Bankit：使用简单，每个步骤有详细说明。但一次只能提交一个序列，长度不能太长。Sequin：安装在用户自己的计算机上，可同时递交若干序列和较长序列，而且整合了许多有用的序列注释工具。,121/131,BioMart的应用（案例2）,获取人类基因组所有基因的3端非翻译区序列。Mirna靶标预测的时候需要用到该数据。,122/131,选择数据库,123/131,选择数据库,124/1

36、31,125/131,过滤条件,126/131,输出内容,127/131,128/131,课堂练习,查找rectal cancer（直肠癌）相关的基因TP53（重要的肿瘤抑制基因之一）：mRNA和蛋白质数目,129/131,课后思考题：解读这一段数据,130/131,课后思考题,1，请列出至少三个国际知名生物信息中心网站、至少三个核酸数据库、至少三个蛋白数据库。2，NCBI和EBI的序列检索系统？3，名词解释：GBFF格式，accession number，RefSeq4，了解NCBI几个常见数据库。5，学习使用entrez检索数据。【http:/www.ncbi.nlm.nih.gov/books/NBK3836/】6，RefSeq 中mrna序列，蛋白序列，基因组序列的检索号前缀。,131/131,

展开阅读全文