《医学生物信息学.doc》由会员分享,可在线阅读,更多相关《医学生物信息学.doc(10页珍藏版)》请在三一办公上搜索。
1、生物信息学生物信息学的概念生物信息学是综合运用计算机科学、数学和生物学的各种工具,对生物信息进行获取、处理、存储、分发、分析和解释等处理的科学。其研究内容包括了序列和结构比对、蛋白质结构预测、基因识别、分子进化分析、比较基因组学、序列重叠群、药物设计、基因表达谱等方方面面。可以把现阶段生物信息学的基本特征概括为“分子生物学与信息技术的有机结合体”。生物信息学特最大特点就是信息搜索和处理的自动化、网络化,任何一台可以与互联网对接的计算机都可以作为生物信息获取和处理的用户终端工具。重要的生物信息学数据库生物信息学数据库的结构广义的生物信息学数据库主要分为两大类:基本数据库和二级数据库。基本数据库主
2、要包括原始数据,例如DNA序列、蛋白质序列和蛋白质结构等信息。二级数据库则主要是对基本数据库进行分析、提炼加工后而形成,旨在使得基本数据库更便于全世界研究人员(用户)使用,例如,真核生物启动子数据库(eukaryoticPromoter database, EPD)和蛋白质序列中的共同结构和功能基序数据库(PROSIT databas)等。 一个典型的数据库记录通常包括两部分内容:原始(序列)数据和对这些数据进行的生物学意义的注释。这些注释和原始(序列)数据具有同等重要性。如何开发新的软件对现有的人基因组数据和模式生物基因组数据进行准确高效地注释已成为生物信息学研究的重点之一。数据库的基本序列
3、格式由于EMBL和GenBank是最主要的核酸序列数据库,所以EMBL数据格式GenBank数据格式被广为采用。欧洲国家的许多数据库如SWISS-PROT、 ENZYME、 TRANSFAC都采用与EMBL一致的格式,便于使用EBI所采用的序列检索系统(SRS)。众所周知,生物信息数据库的建立和应用软件的设计是为了处理各种序列数据,这就要求有一套标准的格式来输入核酸和蛋白质序列信息(数据)。EMBL和GenBank数据格式比较复杂,常用的序列格式有NBRF/PIR、FASTA和GDE 3种格式,尤其是FASTA格式的使用最广泛。基本的DNA数据库一、GenBank 数据库GenBank是由美国
4、国立卫生研究院(NIH)的 NCBI维护的 DNA和 RNA序列数据库(http:/www.ncbi.nlm.nib.gov/Genbank/),是当今世界上最权威最广泛的核酸序列数据库之一。GenBank数据库每天更新。其中所收录的序列包括基因组DNA序列、cDNA序列、EST序列、STS序列、载体序列、人工合成序列及HTG序列等。通过它不仅可以查询所需要的序列,而且还可找到与之同源的基因组DNA序列、cDNA序列、EST序列、STS序列以及专利序列等。与GenBank链接的重要数据库有PubMed、PDB以及种属分类库等。具体的查询方式可根据用户的研究目的,通过NCBI的Entrez搜索引
5、擎进行(http:/www.nbbi.nlm.nih.gov/Entrez),可查询的内容有系统分类、基因组、图谱、蛋白质结构等信息;序列同源性检索可用NCBI提供的BLAST工具(软件)进行;此外,Genbank中还有SNP、EST、STS、GSS、HTG和HTC等子库供用户检索。每种搜索方式又可以通过关键词、作者、GenBank接受号、种属分图13.1 NCBI主页类等进行查询。需要注意的是使用Entrez可获得比只在Genbank更多的数据(图13.1)。研究者获得的序列等数据也可通过NCBI的BankIt或Sequin软件按照提示向数据库提交。二、EMBL数据库EMBL数据库是欧洲分子
6、生物学实验室(英国)的DNA和RNA序列数据库,其显著特征是为申请者提供一个通过网络的个人基因组申请工具,使申请者与全世界重要相关网站和欧洲专利局数据进行对比,确定自己的发现是否为第一个。也可以提供科学文献、序列比对等方面的查询,该数据库每日更新。EMBL主页(http:/www.ebi.ac.uk/embl)界面主要包括acess、documentation、submission、Group Info、contact和News几个项目供用户选择使用。图13.2 Acess 界面三、DDBJ数据库DDBJ数据库是由日本国立遗传学研究所遗传信息中心维护的日本核酸数据库(http:/www.ddb
7、j. nig.ac.jp)。首先反映日本基因组测序所产生的DNA数据,同时与GenBank、EMBL合作(图13.3),交换数据,同步更新。该数据库采用与GenBank一致的记录格式。图13.3 DDBJ 主页四、BioSino数据库Biosino数据库是我国自主开发的核酸序列公共数据库(http:/www.biosino.org/),由中国科学院上海生命科学研究院生物信息中心维护。该数据库主要收集中国科研人员递交的核酸序列,为用户提供核酸序列数据存储、序列检索、序列格式转换、序列比较等服务,同时通过本数据库可以对中国国内各课题组递交的核酸序列统计和比较,为了解国内核酸序列情况提供依据,并可与
8、GenBank、EMBL、DDBJ数据间进行格式转换。基本蛋白质数据库一、SWISS-PROT/TrEMBL数据库SWISS-PROT(http:/www.expasy.ch/sprot/sprot-top.html)是含有详细注释内容的蛋白质序列数据库,1987年由日内瓦大学医学生物化学系(Department of Medical Biochemistry of the University of Geneva)与EMBL(欧洲分子生物学实验室)共同维护,现在由EMBL的分支机构EBI进行维护,为分子生物学研究人员提供有关蛋白质氨基酸序列的最新信息。SWISS-PROT数据库包含了EMBL
9、核酸序列数据库中被经过仔细检查和准确注释了的蛋白质序列。一般地说,任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。二、PIR数据库世界上最大最全的蛋白质信息公共数据库(图13.4)。该数据库包括的子库有:PIRSF(蛋白质家族分类系统)、PSD(蛋白序列的注解与分类)、ProClass(超家族和主题序列的非冗余数据)和PIR-NREF(非冗余的氨基酸序列)。其主要目的是为用户提供按同源性和分类学组织的综合性、非冗余数据库。为达到“全面、及时、非冗余性、高质量注释和全面的分类”的目标,该数据库每周更新,每年发行四版。图13.4 PIR主页PIR数据库按照数据的性质和注释的层次分为四
10、个不同的部分,即PIR1PIR4:PIR1包括的序列已经被分类和注释; PIR2包含序列初步的信息,这些信息还没有被完全检验,可能含有一些重复的信息,即冗余序列; PIR3包含一些未被验证的条目; PIR4中的信息又分成四类:(1)人工合成序列的概念上的翻译(conceptual translations);(2)没有转录或翻译的序列的概念上的翻译;(3)蛋白质序列或基因工程序列的概念翻译;(4)没有基因编码和没有生成核糖体的序列。PIR数据库网页上提供了数据搜索和序列查找的程序,用户通过PIR可以进行的研究包括:(1)快速查询、比较蛋白质序列并对其进行特征序列的模式匹配;(2)预测蛋白质的功
11、能位点,如磷酸化位点、糖基化位点、细胞吸附位点、与其他蛋白质的共有序列等;(3)可进行多种方式的序列比较,如对库比较、两两比较和多序列比较等。用户可通过关键词、特征序列或序列接受号等进行查询。蛋白质结构数据库蛋白质数据库(protein databank,PDB)是全球唯一的储存、处理和发布蛋白质和核酸大分子3-D结构的数据库(图13.5)。主要由X射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构所组成,用户可直接查询、调用和观察库中所收录的任何大分子三维结构,其网址为(http:/www.rcsb.org/pdb/)。该数据库同时提供蛋白质序列及其三维空间晶体学原子坐标,其中受体-配
12、体、抗原-抗体、底物-酶复合物等相互作用分子的共结晶图谱是基于同源比较的分子设计所需的最佳模型,因此PDB数据库为初步的蛋白质合理设计提供了重要的知识来源。优势在于蛋白质结构预测和结构同源性比较。它提供以下几种服务:(1)查找目的蛋白质的结构;(2)进行一级或高级结构的简单分析;(3)与其它的数据库链接,从而可查询蛋白质的其它信息等。图13.5 PDB数据库大分子结构统计搜索引擎-ExPASyExPASy是蛋白质分析专家系统(expert protein analysis system)的缩写,ExPASy (http:/www.expasy.ch/)是一个数据库的集合,专注于蛋白质分子和蛋白
13、质组学。图13.6 ExPASy 主页DNA序列分析应用举例开放阅读框(open reading frame,ORF)预测ORF预测的规范步骤是执行6个ORFs的翻译,即DNA序列可以按六种框架阅读和翻译 (每条链三种,对应三种不同的起始密码子),从而识别6种可能的蛋白质序列中最长的ORF。长的ORF往往不是偶然发生的,所以,任何ORF中存在300 bp或更长的未中断的编码序列是判断为一个基因的重要依据。以pUC19序列为例说明在NCBI/ORF finder中进行基因预测(图13.8)。结果发现了14个可能的ORFs,但满足“大于300 bp”条件的只有3个ORFs,经与质粒图谱比对,第1个
14、ORF是Ampr基因的编码框,第23个是LacZ的a-肽编码框,但方向正确的只有第三个ORF,其余ORFs小于300 bp,一般没有对应的蛋白质,BLAST检索证实第414个ORFs均无对应的已知蛋白质序列。图13.8 pUC19 序列的ORFs预测结果DNA相似性分析BLASTn将Ampr基因的编码区的核苷酸序列粘贴在BLASTn的文本框中,将比对范围限定在细菌( bacteriaORG),点击“BLAST!”按扭,再击“FORMAT!”按扭,便出现BLAST的结果报告(图13.9)。用户可以点击相应的链接,进一步了解对该序列的解释及其编码的蛋白质的功能等。图13.9 BLAST 结果报告D
15、NA相似性分析Alignment图13.11是用Clustal W对新分离的一株双歧杆菌质粒pBIF10的转移起始位点(oriT)的序列与已知的大肠杆菌质粒的oriT序列间的多序列比对结果。提示pBIF10的oriT与IncQ家族的oriT的结构不一样。图13.11 pBIF10可能的oriT与IncP、IncQ已知的oriT之间的比对结果蛋白质序列分析应用举例蛋白质相似性分析BLASTp和alignment与核酸序列对齐分析一样,蛋白质序列对齐分析的目的是通过将两个或多个蛋白质序列进行对齐,并将其中相似的结构区域突出显示出来。通过比较未知序列与功能和结构已知的序列之间的同源性来预测未知序列的
16、功能。图13.12是用CLUSTALW对pBIF10 Rep与其它5种细菌Rep蛋白121-180保守区氨基酸残基的多序列比对结果。123456图13.12 pBIF10 Rep与其它5种细菌Rep蛋白121-180保守区氨基酸残基的多序列比对结果3.pBIF10_rep;其余序列的Genbank编号为:1. CAA60390;2. CAA60389; 4. AAT09350;5. AAL73041; 6. CAC38003。蛋白质二级结构预测(包括螺旋、卷曲、疏水性、跨膜区、信号肽等基本元件的分析)二级结构预测的基本理论就是氨基酸对若级结构的偏好性。即氨基酸似乎对特定的二级结构状态有偏好,例
17、如,Glu对螺旋二级结构有强烈偏好,Val有位于链中的强烈偏好,Gly和 Pro偏好位于回环中,一些疏水氨基酸(如Phe)对两种二级结构都有强烈的偏好,体现了它们构造结构核心的倾向。然而,没有一种偏好是特别强烈的,所有的氨基酸都常常能在每种二级结构中被发现,这意味着二级结构预测不能建立在个别残基的基础上,而要综合考察任一残基两旁的几个残基的信息做出整体中的局部预测。图 13.13 pBIF10_Rep A二级结构预测结果(SOPMA)蛋白质高级结构预测(比较建模法)比较建模的精确性通常以预测结构和目标序列真实结构之间的a碳原子位置距离的均方差(RMSD)来衡量,低于1.0的RMSD值说明预测结
18、果非常好。如果模板序列与目标序列间的相似度超过70%,即使用全自动方法,预测模型精度RMSD低于2也是合理的。图13.14是用NIG(http:/spock.genes.nig.ac.jp/genome/gtop.html)提供的GTOP(genomes to protein structure and function)软件对pBIF10的Rep蛋白通过比较建模法预测的3D结构。 图13.14 pBIF10的Rep蛋白的3D结构预测(b)RepA与DNA分子相互作用的ribbons模型(d)RepA与DNA相互作用的facefilled模型蛋白质组学研究中的数据分析PMF的数据库检索一、数据
19、库的选择在蛋白质组学研究中,常用于检索的数据库有三种:OWL、NCBInr和DbEST。二、用于PMF的软件工具现行的PMF软件工具有三类:(1)根据谱图中m/z值与数据库中给定误差范围内m/z值相匹配的数目给出得分。这类软件有PepSea(),PeptIdent/MultIdent (http:/www.ch/tools/peptident.html)。(2)使用的得分算法考虑到蛋白质大小和肽片段长度对匹配几率的影响。这类软件有:MOWSE(http:/srs.hgmp.mrc.ac.uk/cgibn/mowse),MS-Fit(http:/prospector.ucsf.edu)。(3)更
20、多使用基于概率的得分,提供得分的统计基础,估计某些匹配可能反映随机事件而不是真实特性的概率。这类软件有:ProFound(http:/prowl.rockefeller.edu/cgi-bin/ProFound),Mascot()。图13.15 Mascot的PMF搜索界面三、分类四、结果的报告格式图13.16 搜索的结果:Mascot给出的柱状图从MS/MS数据鉴定蛋白质的算法和工具目前常用的是Sequest和Mascot。表13.2 从MS/MS数据鉴定蛋白质的常用软件工具软件名称搜索与评分方法网址SequestCross-correlationMascotMOWSE;probabilit
21、ySonar MS/MSvecyor algebra ; probabilityGuten Tagfragment ion tagshttp:/www.filds.scripps.edu/GutenTag/index.htmlMS-tagfragment ion tagshttp:/prospector.ucsf.eduPep-Fragfragment ion tagshttp:/prowl.rockefeller.edu/PROWL/pepfragch.htmlPep-Seapeptide sequence taghttp:/www.narrador.emblheidelberg.de/GroupPages/Homepage.html与花费成百上千小时进行从头计算、再用BLAST检索鉴定蛋白质的de novo策略相比,无疑是一个很大的进步。图13.17 Mascot的MS/MS搜索界面从肽序列标签(peptide sequence tags,PSTs)策略鉴定蛋白质的算法和工具图13.18 Mascot Sequence Query的搜索界面