生物学数据库及其检索ppt课件.ppt

上传人:小飞机 文档编号:2096112 上传时间:2023-01-09 格式:PPT 页数:81 大小:4.52MB
返回 下载 相关 举报
生物学数据库及其检索ppt课件.ppt_第1页
第1页 / 共81页
生物学数据库及其检索ppt课件.ppt_第2页
第2页 / 共81页
生物学数据库及其检索ppt课件.ppt_第3页
第3页 / 共81页
生物学数据库及其检索ppt课件.ppt_第4页
第4页 / 共81页
生物学数据库及其检索ppt课件.ppt_第5页
第5页 / 共81页
点击查看更多>>
资源描述

《生物学数据库及其检索ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物学数据库及其检索ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。

1、第二章 生物学数据库及其检索,Half day on the web,half month in the lab.,saves you,-Alan Bleasby,第一节 生物数据库简介,什么是数据库数据库类型生物学数据库重要的生物信息站点,一、什么是数据库?,数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合。其存储形式有利于数据信息的检索与调用。图书馆用数据库保存书目和借阅情况;核酸序列数据库用来保存核酸序列和功能注释信息。,二、数据库的类型,到目前为止,生物学数据库使用了4种不同的数据库结构类型:平面文件、关系型数据库、面向对象数据库和基于Inte

2、rnet平台的XML。,三、生物学数据库,生物分子数据库:能够进行自动查询和修改的生物分子数据集。建立生物分子数据库动机,生物信息数据库的5个主要需求,时间性注释支撑数据 实验数据数据质量集成性 数据库间的交连,生物信息数据库的特征,数据库更新速度不断加快数据库使用频率增长更快数据库的复杂程度不断增加数据库网络化面向应用,生物信息数据库分类,一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释。二级数据库:对原始生物分子数据进行整理、分类的结果,在一级数据库、实验数据和理论分析的基础上构建。,如何查找与研究相关的生物学资源,公共搜索引擎 重要的生物信息学门户站点(

3、NCBI、EBI等)核酸研究每年的数据库专辑/网络服务器专辑,NAR杂志,核酸研究(Nucleic Acids Research,NAR)(http:/nar.oxfordjournals.org/)杂志从1994年起,每年第一棋刊登生物学数据库专集;2000年起,出版核酸研究的牛津大学出版社设立了数据库目录网页,可以按字母或分类查找,并可链接到所需要的数据库。,NAR(Nucleic Acid Research)数据库分类:,核酸序列数据库(Nucleic Acid Sequence)基因表达数据库(Gene Expression)比较基因组学数据库(Comparative genomics

4、)基因识别与基因结构数据库(Gene Identification and Structure),遗传与物理图谱数据库(Genetic and physical maps)基因组数据库(Genomic Databases)分子相互作用数据库(Intermolecular interactions)代谢途径和细胞调节数据库(Metabolic Pathways and Cellular Regulation)突变数据库(Mutation Databases)病理数据库(Pathology),蛋白质数据库(Protein Databases)蛋白质模体数据库(Protein sequence Mo

5、tifs)蛋白质组数据库(Proteome Resources)RNA序列数据库(RNA Sequences)结构数据库(Structure),四、重要的生物信息站点,重庆邮电大学生物信息学专业网站上有各种链接(http:/,NCBI,NCBI(http:/www.ncbi.nlm.nih.gov),全称为National Center for Biotechnology Information,建立于1988年11月4日,下属于美国国立卫生研究院(National Institutes of Health,简称NIH)的国立医学图书馆(National Library of Medicine

6、,简称NLM)。中心的主要任务是创建公共可接入数据库,引导在计算生物学以及在基因组数据分析方面的软件开发,同时发布各类生物医学信息。NCBI的数据资源主要包括数据库、分析工具、数据提交及教育四个部分,每个部分的资源都有更为细致的分类,EBI,EBI(http:/www.ebi.ac.uk),全称是European Bioinformatics Institute,是隶属于欧洲分子生物学研究室(EMBL)的一个非盈利性的学术机构,专门从事生物信息学方面的研究与服务。EBI的主要任务包括为科研团体免费提供数据及生物信息学服务;从生物信息学的角度上为推动特定科研项目的发展做出努力,为各阶层的科研人员

7、提供高级生物信息学培训以及帮助向工业界发布最新技术等。EBI的网站在数据规模与承担的任务方面都与NCBI相当,其资源也分为数据库、工具、EBI研究小组、培训、帮助等几个部分,而全部资源及工具则显示在其Site Index页面(http:/www.ebi.ac.uk/Information/sitemap.html)中。,EMBnet,EMBnet(European Molecular Biology Network)建立于1988年,由多个位于欧洲及欧洲以外的成员国节点及专业节点组成。除了上面提到的欧洲生物信息学研究所EMBL-EBI,瑞士生物信息研究所SIB、澳大利亚国家基因组学信息服务(A

8、GRIS)以及中国北京大学的生物信息中心PKU-CBI都是EMBnet的成员。它们不仅为本国用户提供生物信息资源及生物计算服务,同时提供用户支持、培训以及进行相关的生物信息研究与开发。比如专业蛋白质分析系统ExPASy就是由SIB开发及维护,而通用蛋白质资源UniProt则由EMBL-EBI及SIB、PIR共同进行维护的。由于EMBnet的成员国节点及专业节点各自包含了大量的公共数据信息及自行开发的数据库及分析工具,因此可作为生物学数据资源的补充来源。相关信息可以从http:/www.embnet.org/en/members/National 和http:/www.embnet.org/en

9、/members/Specialist中查到。,2023/1/9,20,2014年启动的国际合作项目“蛋白组组计划”,由中国开发并维护的蛋白组组数据库iProX(http:/www.iprox.org or http:/),世界三大蛋白质组数据库之一。由重庆邮电大学生物信息学研究所开发,军事医学科学院、北京蛋白组研究中心、国家超级计算长沙中心和太仓生命信息研究所共同维护。,第二节 生物学数据库的内容与结构,数据数据存储基础平面文件格式序列格式XML格式关系型数据库,数据,中心法则,DNA双螺旋结构,James Watson,Francis Crick,Watson在开始研究DNA双螺旋时几乎完

10、全不懂有机化学与物理化学;Crick本来是个物理学家,对生物学也知之甚少。当他们发现DNA的结构时并不认为需要知道(更不用说记住)四个核苷酸碱基的化学结构。当Erwin Chargaff问他们在不知道DNA构成要素结构的情况下如何解决DNA结构问题时,他们问答说如果有需要的话总可以在书中查找到这个结构。N.C.Jones&P.A.Pevzner,An Introduction to Bioinformatics Algorithms,DNA结构:碱基/核苷,核糖核苷酸,A,ribonucleotide,脱氧核糖核苷酸,deoxyribonucleotide,双脱氧核糖核苷酸,dideoxyri

11、bonucleotide,DNA的结构,RNA的结构,氨基酸的结构,氨基酸的性质及分类,蛋白质,标准密码子,The DNA sequence of a gene encodes the amino acid sequence of a protein.,DNA代码的标识,氨基酸代码的标识符,数据存储基础,信息是存储在计算机临时或永久存储器中的一串字节。获取信息需要控制两个方面。第一是数据被编译为字节的方式,或者成为数据格式。第二是运用哪些程序能够编码(写)和解码(读)这些数据。目前最常用的格式类型:平面文件格式、XML和关系型数据库,平面文件格式Flat File,这种格式是将多个记录以特殊约

12、定的分隔符(比如“/”或“|”)进行区分,而每一个记录内的众多字段也是通过一些特定的分隔符(如“,”或“:”)加以区分。数据库文件就是由这些字段及内容所组成,并不包含什么隐藏的计算机指令。优点:通用性(跨平台);容易为perl程序进行解析和处理;专用的flat-file数据分析器可以用来将数据导入到数据管理系统。缺点:检索复杂,冗余字段较多,大容量数据库难以处理,Flatfile 格式(UniProt CYC_HUMAN 部分),Perl的正则表达式可用于解析Flatfile格式文件,my$newEntry=1;while()my($line)=$_;chomp($line);if($line

13、=/ID/)#matched ID line$newEntry=1;if($line=/ACs*(w+)/)#matched AC lineif($newEntry=1)#print only when at first lineprint Primary accession.$1;$newEntry=0;if($line=/SQs*w*s*(w*)/)#match SQ lineprint sequence length:.$1.n;#ignore other lines例程输出:perl example.pl uniprot.datPrimary accession Q4U9M9 sequ

14、ence length:893Primary accession P15711 sequence length:924Primary accession Q43495 sequence length:102Primary accession P18646 sequence length:75Primary accession P13813 sequence length:296,三、序列格式,序列格式主要在布局和序列码行的形成上不同,而一些格式同时提供描述或元数据或行集。对于许多软件工具来说,它们能很自然地自动区分和接受不同格式的序列常用格式:Fasta;GenBank;SwissProt等,

15、XML格式,XML(extensible markup language,可扩展标记语言)是一种在文本文件中组织数据的语言。一个XML文件代表一个嵌套的信息树。树中的每一个节点能包含像一串子节点或者一些属性这样的数据,并且一个XML文件始于根节点。一个XML文件有一个文本,在文本中每一个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似html。,XML文档的结构,XML文档的结构是根据一种文件类型定义(DTD)组织的。一个DTD定义了一类遵从一系列规则的XML文档。这些规则中包括例如一个节点中有多少个,怎样类型,怎样组织的子节点。一个DTD是通过一个文件类型声明与XML文档联系在一起的

16、,这个声明指出了这个XML文档是依附于结构由该DTD定义的文档类。一个DTD是通过XML确定其特殊性的,在这个XML文档里可能直接包含了关于类型的声明。为了更方便,DTD是以独立文件的形式进行存储和调用的。,10697468 0099-2399161975JunJournal of endodonticsMethodology and criteria in the evaluation of dental implants.,来自MEDLINE的XML例子(部分),.!ATTLIST ISSNIssnType(Electronic|Print|Undetermined)#REQUIRED,上

17、例中XML的文件类型定义(DTD)(部分),XML的优势,XML依照国际标准设计,所以事实上它具备作为计算机通用语言的主要优点。几乎现在每种编程环境中都包括了读取和存取XML格式数据的工具和库。文档对象模型(DOM)是XML文档的一种概念表征。它是一个数据以树状存储于XML文档的软件模型。从XML文档“翻译”成一个DOM的过程是标准化且容易理解的。许多复杂度,性能,标准支持不同的实现方式都已问世。一些最常见的软件工具,比如网络浏览器,提供了XML的无缝整合和DOM水平的编程支持。相似的,绝大部分的文档管理系统、搜索引擎都可以以DOM兼容的方式从XML文件中索引,搜索,回收信息。XML作为一种数

18、据格式被广泛的用于生物信息学中。,五、关系型数据库,关系型数据库是由根据特定的关系模型组织的一系列数据表格构成。每个表格都包括字段和相应的值(列和行)。至少一个共有的字段可以把每个表格链接起来,这个字段称为键(key)数据库的结构往往用链接不同表格的形式显示。,引物数据库relational schema,关系型数据库管理系统,目前常用的有Oracle,MySQL,Microsoft SQL Sever等 以SQL语句进行查询以MySQL为例构建数据库见课本第十一章第三节“SQL及数据库编程”,第三节 生物数据库检索,NCBI EntrezEBI SRS,(一)Entrez,Entrez系统是

19、由NCBI开发并提供维护的,它是目前应用最为广泛的生物学数据库检索系统之一。它充分利用了众多公共数据库各个记录之间本身就存在的逻辑关系,从而从多种类型数据的文本信息中找到所需的信息。NCBI数据库之间存在硬链接(hard link)各数据库内部数据间存在软连接(soft link),又称neighbor。是指预先运算好的与某记录相似的其他记录。,ENTREZ数据库模型(2004),Entrez检索,全局检索精确检索批量检索My NCBI,全局检索,Global Search(http:/www.ncbi.nlm.nih.gov/gquery/)该检索方法可对检索词进行多个数据库的宽泛检索,但检

20、索结果不精确。精确检索须针对特定数据库采用特殊方法进行查询。,ENTREZ的全局检索页面,精确查询,布尔逻辑表达式:AND OR NOT限制(limit):包括字段限制、数据库来源限制等;不同数据库限制类型不同高级检索:可利用搜索构造器进行多词多字段检索,并可利用检索历史进行配合。通配符使用:“*”如“hor*”范围符使用:“:”时间、序列长度、分子量等。如2005:2012date 5000:10000sequence length,字段限定,范围限定,PUBMED限制检索页面,蛋白质数据库高级检索页面,批量检索,Batch Entrez(http:/www.ncbi.nlm.nih.gov

21、/sites/batchentrez?)通过上传包含有核酸或蛋白质数据库的GI号或accession numbers的文本文件,一次显示所有查询条目,这对一些高通量数据的查询提供便利。,My NCBI,NCBI提供的人性化服务,其功能有:保存数据保存检索历史并定期返回检索的新数据(Email)对检索的数据可自定义过滤选项,(二)SRS,SRS 是一种通用的生物信息学数据集成软件系统 SRS使用专有的解析技术,对flat-flie格式数据的解析和索引并与DOM处理结合的另一种类似的系统用于分析和索引XML格式的数据。关系数据库连接器可用于集成关系数据库系统中存储的数据。SRS的提供了一个获取独特

22、的异构数据源的通用接口以及关联实际格式和数据存储机制的复杂性旁路。SRS可以不同数据库的参照的文本格式并将其整合成为统一的模式。,SRS检索方法,快速文本检索批量检索标准查询扩展查询搜索式查询字段索引查询,快速文本检索,该方法检索词将与检索的数据库中所有字段匹配,检索结果精确度较差。,SRS快速文本检索界面,批量检索,List Search 与Batch entrez检索类似;检索类型须符合DATABASE:ID模式,如:EMBL:AB046566或UNIPROT:104K_THEAN列举条目不超过500条。,SRS的list search界面,标准查询,检索前须确定一个或多个数据库。有四个检

23、索框并可由布尔逻辑(and,or,not)进行关联。检索框中可进行单个词或多个词检索 多词间的布尔逻辑符号为&,|,!分别对应and,or,not对于数字和日期 SRS使用数字化的条目对日期,条目的序列、分子量等长度进行具有针对性的搜索。,Uniprot/swissprot数据库标准查询表单模式,范围操作符,数字化条目可以使用不同的操作符结合到表达式中。这些操作符是:小于;小于或等于;大于以及大于或等于。以上这些可以通过结合冒号:和感叹号!来实现。冒号代表不等于,冒号在数字的前或后代表了是大于还是小于。感叹号表示的是在其右边的数字是否被包括在考虑范围内。也就是说感叹号可以被视为“非”或“不等于

24、”。下面是几个简单的例子:12:15 大于或等于12但是小于或等于15.12:大于或等于12,无明确上限。!12:大于但不等于12,无明确上限。:12 小于或等于12,无明确下限。:!12 小于但不等于12,无明确下限。,正则表达式和通配符应用,正则表达式可用于搜索不同拼写的单词,或者相同词根不同词缀的单词。如“/phos/”会找到所有以“phos”开头的词(如phosphate,phosphorylase),“/ase$/”会找到所有以“ase”结尾的词(如kinase,phosphatase)。使用“*”和“?”通配符。如,“cell*ase”会找到所有以“cell”开头并以“ase”结尾

25、的词(如cellobiase,cellobiohydrolase,cellulase)。,扩展查询,将查询数据库所有字段列举显示出来,并可应用标准查询中的检索框检索的所有功能。范围检索可直接用下拉菜单中选取操作符。,查询展开式显示使用下拉菜单完成数字类型数据的设置。,搜索式查询,在“查询结果”页面,在“运用搜索式查询”文本框中输入你要查询的内容。点击检索键。例如,搜索同时符合两项查询Q1和Q2的结果,可以输入Q1&Q2。这会产生一个新的列表Q3,它包含所有同时存在于Q1和Q2列表中的条目。如果你想在查询结果Q3中搜索与SWISS-RPOT数据库链接的条目,可以输入Q3SWISSPROT。典型的

26、操作符可以使标准的逻辑函数(&(AND),|(OR),!(BUT NOT)将不同的搜索结合起来,寻找结果集之间的联系。,搜索式查询界面,字段索引检索,通过对特定数据库的特定字段,进行文本匹配后,选择进行查询。例如,要寻找swiss-prot数据库所有ID号以il8开头的条目,则在databank或library page标签页面找到UniPortKB/swiss-prot,并进一步找到ID字段并打开。检索框“*”号前键入il8,点击List value,便可显示所有以il8开头的ID号,然后根据需要在选择框内钩取所需条目,点击make query便可得到所需结果。,字段索引检索界面(Swiss

27、-prot数据库的ID字段),SRS8.3新特点,全新界面增加提醒(alert)功能 增加了注释功能对工作流(workflow)的支持。新版本的SRS 可利用KDE通过强大的APIs进入几百个数据库和分析工具。用户可迅速建立工作流而不必像以往只能针对单个数据库和工具 SRS 现支持RedHat AS/ES 4.0(32 和64-bit 版本),Java 1.5 and 1.6。更方便的实现多个相关连数据库的同屏显示,SRS的8.3版本主页(http:/bips.u-strasbg.fr/srs83/),全新的SRS8.3检索向导。以概念(concept)数据库模式。,作业,查找2013年核酸研究第一期的数据库专辑和服务器专辑并下载综合评述。一级数据库和二级数据库的区别是什么?数据库的Flat file和XML格式各有何特点?SRS的检索途径有哪些?,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号