《第十章 蛋白质组研究中的生物信息学课件.ppt》由会员分享,可在线阅读,更多相关《第十章 蛋白质组研究中的生物信息学课件.ppt(69页珍藏版)》请在三一办公上搜索。
1、第十章 蛋白质组研究中的 生物信息学,一、生物信息学概述 1、什么是生物信息学?,Bioinformatics: 一门新兴的交叉学科,包含信息的获取、处理、存储、分配 、分析和解释等在内的所有方面。它综合应用数学、计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。Bioinformatics encompasses all aspects of genome information acquisition, processing, storage, distribution, analysis, and interpretation.,研究范围: 确定DNA中的编码区; 阐明
2、非编码区的信息实质,破译遗传语言规律; 归纳整理相关数据,认识代谢、发育、分化、进化规律; 蛋白质空间结构模拟; 蛋白质功能预测; 蛋白质、核酸分子设计; 药物设计; 个体化医疗保健设计.,重点发展方向: 人类基因组序列信息分析; 基因组结构与遗传语言: 语法和词法分析; 大规模基因表达谱分析、相关算法、 软件研究、基因表达调控网络研究; 基因组信息相关的蛋白质功能分析; 新理论、新方法、新技术、新软件研究。,计算机运算速度:18个月增长一倍DNA序列数据:14个月增长一倍,研究状况: 近年来GenBank中的DNA碱基数目呈指数增加,大约每14个月增加一倍。到1999年12月其数目已达30亿
3、,它们来自47000种生物。2000年4月DNA碱基数目是60亿。2001年初这一数目已达110亿。 各种生物的EST序列已达600多万条,其中人类的EST序列已超过300 万条,估计覆盖人类基因90以上;UniGene的数目约达7万个;自1999年初单核苷酸多态性( SNPs,Single Nucleotide Polymorphisms )数据库出现以来,到2000年3月20日SNP的总数是26569,现在已超过350万;,自全长1.8Mb的嗜血流感杆菌(Haemophilus influenzae Rd)基因组序列于1995年发表(Fleischmann et al.,1995)以来,已
4、有54个模式生物的完整基因组被测序完成,它们中有9个古细菌、31个原核真细菌、14个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母和线虫。 还有另外的70余个微生物基因组正在测试当中。,相关文献: 分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http:/www.ncbi.nlm.nih.gov有关PubM
5、ed数据整理)。,美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,1982年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。,基因组学的研究内容,基因组组分动力学。基因组组分的变化与基因变异、基因功能、基因进化、基因组重复序列变迁等,以及它们
6、的相互关系。基因产物系统生物学。基因产物(RNA和蛋白质)的功能和相互作用,基因产物所构成的细胞分子机制,生命过程与生化途径的系统关系等。基因组多态性。基因和基因组在物种内的变化与物种的性状或基因表型的关系。由于物种内各亚种间的差别较小,在基因组水平上也属于多态性研究的范畴。基因组多态性在群体水平的研究,是超越传统遗传学的一个飞越。基因组的进化。物种间基因组在自然选择下变化的比较研究。,2、生物信息学的研究内容 生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。,生物信息学的研究目标是
7、揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是自然科学和技术科学领域中“基因组”、“信息结构”和“复杂性”这三个重大科学问题的有机结合。,生物信息学的研究内容: ( 1)序列比对(alignment)。 基本问题是比较两个或两个以上符号序列的相似性或不相似性。 对比软件包:BLAST、FASTA 局部对比:Smith-Waterman 算法。(2)发现新基因和新的单核苷酸多态性 发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。,(3)蛋白质结构对比与预测 包括2级和3级结构预测,是最重要的课题之一。 从方法上来看有演绎法和归纳法两种途径。前者主要是
8、从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。,(4)计算机辅助基因识别(仅指蛋白质编码基因) 基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子
9、的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。,(5)非编码区分析和DNA语言研究 在人类基因组中,编码部分进展总序列的3-5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。,(6)分子进化和比较基因组学 早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于
10、可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。,(7)从功能基因组到系统生物学 无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。,(8)序列重叠群(contigs)装配 (9)遗传密码的起源,(10)基于结构的药物设计 人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求
11、各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益。,(11)生物信息处理并行算法的研究 由于生物信息数据的规模极其巨大, 因此国内外都开展了生物信息处理算法并行化方向的研究。国外还开展了特殊生物信息处理中算法的研究以及在硬件基础上的并行化方向的研究,主要是研究生物信息学中的一些关键的算法,研究其中的可并行性,然后将其固化到硬件芯片中,从而提高整个计算系统的性能。,(12)其
12、他 如基因表达谱分析,代谢网络分析;基因芯片设计等,逐渐成为生物信息学中新兴的重要研究领域。随着蛋白质组学研究的迅猛发展,蛋白质组学数据分析、计算蛋白质组学等领域的地位将越发重要。,3、生物信息学的特点 它是一门基于数据积累,尤其是原始数据积累的科学。 数据的获取是学科发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的特点首要特点是生物学基本数据收集的规模化,数据处理的程序化,数据分析的专门化。谁生产数据,谁首先占有数据,谁有机会分析数据,谁就有主动权。谁开发出新的分析工具,谁就有能力分析数据,谁就有新发现可能性。,科学研究以数据导向为主 先获取数据,
13、后有分析,再建立假说来指导新一轮的数据获取和实验研究。研究的启动不完全取决于科学知识的前期积累。比如,河豚鱼基因组测序计划的启动就是为了配合和补足人类基因组计划的可能弱点。,超学科性 它是在学科的交叉和交流中生成和成长的。紧紧抓住这个特点,积极在组织上和机制上创造学科交叉的条件是科学成功的关键。极强的竞争性 不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。,4、生物信息学领域的重要科学问题,包括从单细胞到多细胞生物的真核生物是在生物进化上复杂性渐进的生命群。真核生物基因组在进化过程中发生了从DNA组分到基因结构的阶段性变化。这些变化为Ab
14、 inito基因识别提出不同的挑战。目前的基因识别步骤和软件都不能满足生物学研究日新月异的需要。以实验数据为基础,以相近(如亚种间)和同类(如温血动物间)基因组间的比较为手段,建立基因组(或物种)特异和多用途基因识别软件包和系统,揭示真核生物基因组进化的分子机制。,核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)DNA顺序上的差别为基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基础。,RNA水平基因表达研究的基本方法有EST、SAGE以及Micro-array,所产生的数据量也非常巨大。但是目前的分析
15、方法和手段都有很多潜力可以挖掘,尤其是数学模型的建立,与基因组数据的整合,对数据真实性的评估等。,研究物种全部蛋白质结构与功能以及它们相关性的学问称为蛋白质组学。蛋白质间的识别、相互作用、细胞学机制的形成、功能网络的相关性等都需要海量的数据积累、处理、显示、模拟和实验验证。建立一个系统的、有普遍性的信息体系是必不可少的。,生命存在、生长和繁衍的动态基础是新陈代谢。新陈代谢是由错综复杂的生化代谢途径所构成的动态网络组成。要揭示代谢的本质是一个长期的目标。但是,我们可以从现有数据出发建立主要或特定代谢途径的模型,如植物光合作用、家猪重要经济性状、影响人类健康的常见代谢疾病等。,基因功能研究的瓶颈是
16、实验的证明。运用信息学的方法来预测基因产物的功能为基因功能的规模化验证开辟了一条必要途径。这些方法包括,蛋白质功能域的识别,启动子识别、RNA协同表达模型,蛋白质三维结构预测等。整合这些体系,建立系统软件,发展新的算法等是重要的科学命题。,基因组学和信息学研究都有其特定的、不断创新的方法学。以系统优化、软件并行化和数据处理技术为主体的海量生物学数据处理体系的建立将基于新的思路和设想。,5、生命科学信息的算法和工具,基因识别与预测软件由于生物学基本数据形态各异,因此涉及的算法和数理知识面很广。以隐马为基础的ab inito的预测方法是大多数现有基因识别软件的主要方法。在此基础上,人们已开始注意到
17、统计效应不明显的基因和一些非编码基因,cDNA、比较基因组学信息的引入,使找基因的效率提高。由于基因是物种行使功能的基本单位,基因的识别与预测的完整性和准确性直接影响后续开发的速度。,基本信息采集的算法和软件包,这类软件的是得到大规模的生物信息的基本工具。它包括全基因组组装算法、SNP发现软件、芯片相关信息处理软件和蛋白质的质谱de novo 算法等。,数据挖掘算法和软件工具,海量数据的出现使得人们从单基因水平扩展到全局水平,因此许多规律的掌握和现象的阐述需要统计学和算法领域的介入。在此基础上的算法体系的建立也一直是科学家关注的焦点,许多新的观点、思路和科学发现也因此而生。,系统研究思路,三个
18、层面,整合以各种“-omics”为主体的分子、细胞、群/个体三个层面的信息,为绘制生命活动信息化、数字化的时空图像和生物信息的有效利用打下基础。,复杂生物信息在各层面的整合,四种数据,原始数据(Original data)。原始数据的拥有是与其开采有关,开采的能力决定了数据量。它的多寡直接有科研的创新和深入有关。 科学文献(Scientific literature)。这类数据是专家研读、理解和加工后分类的数据。生命科学的各个领域相互交叉,在百年的历史中产生了浩如烟海的知识和数据。这类数据的发掘已经引起关注。但由于它的开采过程是一个高级劳动力密集型的工作,只在某些局部有所展开。急需: 数据的管
19、理框架和工程的组织。,经典数据(Datasets)。经过生物学和信息学专家整理和验证过的数据,主要用于方法学的研究和信息理论研究。获取它的关键是对信息化数据和实验数据的理解。综合性数据(Organized data)。包括以生物体系为核心组织的相关性数据,如以细胞/受精卵/组织等为单位的基因表达谱;RNA表达与蛋白质表达的相关性,基因突变有表现型的关系等。,五个图谱,基于DNA序列的物种基因注释图谱。基因组多态性和遗传单倍体图。物种遗传和进化的忠实记录,对疾病基因的鉴定,遗传育种实践都有非常重要的知道意义。 基因产物(RNA和蛋白质)时空表达分布图细胞机制和组分相关图生理过程和代谢途径相关图,
20、6、我国生物信息学研究的目标,(1)生物信息的获取与开发:建立国家级的生物信息搜集、分析和服务基地,形成开放式和标准化的生物信息数据库应用、服务体系和技术平台,为我国生物技术的研究提供高效服务;重点建成一批有特色、可整合的一级和二级数据库。(2)生物信息加工和利用:建立用于基因组、功能基因组和高通量生物技术研究,可整合各种相关信息及分析计算方法、界面友好的数据分析技术平台,开发出若干具有自主知识产权、有商业化前景的计算机分析系统和生物信息学软件包。,(3)结构基因组和蛋白质组学研究: 建立有一定竞争力的结构基因组学研究和蛋白质组学研究的技术平台,完成一批新蛋白质或有重要价值的蛋白质及其复合物的
21、结构测定;初步完成蛋白质组信息处理、分析和解释的生物信息学方法与工具的研制,提供对重大疾病的预警、诊断和治疗有应用前景的候选靶标。 (4)高通量药物筛选及相关技术: 建立高通量药物筛选新模型;建立具有结构多样性的化合物样品库;完善高通量药物筛选和组合化学新技术平台;发现一批具有自主知识产权的创新药物先导化合物。,(5)小分子药物设计和分子设计: 发现具有新机理、新结构类型的原创性先导化合物,获得一批国际专利;针对药物设计及分子设计的关键环节,研发具有自主知识产权可供推广应用的软件并获得版权;获得应用前景明确的蛋白质及其它生物功能分子。 (6)生物芯片: 建立和完善生物芯片的技术平台,研制有重要
22、应用价值的基因组表达芯片及检测专用生物芯片,开发出实用的生物技术和基因组研究、医学诊断、农产品开发等生物芯片新技术、新方法、新产品。,(7)化学创新药物与新剂型: 创新药物研究需在三年内完成临床前阶段的综合评价,确证其是否具有临床应用前景;新剂型研究需针对重要疾病,研发出市场覆盖面广、需求量大、具有自主知识产权的新制剂或新辅料,在三年内可以获得临床批文或新药证书。,7、蛋白质组的生物信息学,蛋白质组研究的重要优势在于能够从整体水平上分析不同条件下蛋白质谱的变化,做为一种差异显示技术,人们可以构建高质量的基本的人的看家蛋白质双向电泳图谱,以此作为其他组织、细胞的参照图谱,研究新算法,进行蛋白质组
23、差异表达谱分析。蛋白质各种翻译后修饰的研究。运用图像分析软件,在双向电泳数据库的参考图上,分析蛋白质位置与该蛋白的理论预测位置的差异,构建双向电泳矢量图。针对不同翻译后修饰与蛋白质双向电泳迁移位置效应关系,建立一个矢量库,从而有利于蛋白质翻译后修饰种类和程度等预测,为实验研究提供信息。,建立蛋白质-蛋白质相互作用连锁群的理论分析模型,如:phylogenetic profile方法、Rosetta Stone方法和gene neighbour方法等,从蛋白质组的水平上阐述蛋白质-蛋白质相互作用网络。建立蛋白质组数据标准(ontology),建立可整合大量相关数据库的蛋白质组-基因组联合数据仓库
24、。研究开发大规模、高通量、自动化的基于web界面的蛋白质组数据自动化注释系统。,生物信息学课题组系统构成,PC Server,Quantaand GCG Software,PC,“我不能拿诺贝尔奖,但拿诺贝尔奖的生物学家都知道我的工作。”,二、数据库的构建 1、工程前期工作 (1)用户调研 (2)需求分析 (3)建立系统原型 (4)建立总体实施方案 (5)建立组织机构、制度 2、软件系统实现 (1)系统设计,(2)程序质量 (3)组织管理 (4)实现技术 (5)软件测试3、实施及维护 (1)管理者完成的工作 (2)维护阶段的投入 (3)加强与拥护的沟通,4、MySQL数据库 (1)MySQL简
25、介 Linux上使用:一种免费的类Unix操作系统。 MySQL是一个多用户、多线程SQL(结构话查询语言)数据库服务器。 (2)MySQL的一些重要特征,三、蛋白质组研究中常用的网站及数据库 1、蛋白质数据库SWISS-PROT/TrEMBL http:/www.expsy.ch/sport http:/www.ebi.ac.uk/swissport 内容:注释的蛋白数据库 特点:高度注释、冗余程度最低、与其它数据库整合程度最高。补充:TrEMBL,源于EMBL。,SWISS-PROT and TrEMBL,SWISS-PROT a high level of annotations (su
26、ch as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc), a minimal level of redundancy and high level of integration with other databasesTrEMBL supplement of SWISS-PROT , contains all the translations of EMBL nucleotide sequence ent
27、ries not yet integrated in SWISS-PROT.,蛋白质序列数据库,OWL is a non-redundant composite of four publicly-available primary sources: SWISS-PROT, PIR (1-3), GenBank (translation) and NRL-3D. NCBInr is a composite, non-redundant protein database compiled by NCBI for use with their search tools BLAST and Entre
28、z. The entries have been compiled from GenBank CDS translations, PIR, SWISS-PROT, PRF, and PDB. dbEST is the division of GenBank that contains single-pass cDNA sequences, or Expressed Sequence Tags, from a number of organisms. This is a nucleic acid database which is translated by Mascot in all six
29、reading frames.,Protein Information Resource(PIR) http:/pir.georgetown.edu/ http:/www.mips.biochem.mpg.de 内容:广泛的、注释的、非冗余的蛋白质序列数据库。与MIPS和JIPID合作。UniGene NCBI公用数据库。,2、蛋白质组数据库(1)Aaindex:氨基酸索引数据库 Amino Acid index database http:/www.genome.ad.jp/dbget/内容:肽的物理化学属性(2)GELBANK http:/gelbank.anl.gov内容:全基因组的2-
30、DE图谱(3)Predictome http:/predictome.bu.edu内容:预测蛋白质间功能关系的数据库,(4)Proteome Analysis Database 蛋白质组分析数据库 http:/www.ebi.ac.uk/proteome 内容:InterPro, CluSTr上进行,蛋白质组统计比较分析。(5)REBASE http:/ 内容:限制酶和相关的甲基酶(6)SWISS-2DPAGE http:/www.expasy.org/ch2d 内容:注释的2DEPAGE数据库。1993建立。,(7)YPL.db http:/ypl.tugraz.at 内容:酵母蛋白定位数据
31、库3、蛋白质序列基序(motif)(1)Blocks http:/blocks.fhcrc.org 内容:蛋白家族保守区的多重比较(2)CDD http:/www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml,(3)CluSTr http:/www.ebi.ac.uk/clustr/ 内容:对SWISS-PROT + TrEMBL蛋白质 的自动分类(4)InterPro http:/www.ebi.ac.uk/interpro 内容:蛋白质家族、结构域、位点的 整合资源(5)Pfam http:/www.sanger.ac.uk/Software/Pfam
32、内容:对序列比对和共同的蛋白质结构域的隐马尔可夫模型。,(6)PROSITE http:/www.expasy.org/prosite 内容:有生物学意义的蛋白patterns and profiles(7)其他数据库,4、蛋白质三维结构和相关数据库 (1)PDB http:/www.rcsb.org/pdb/ 内容:用x射线和NMR得到的数据库 (2)MMDB http:www.sander.ebi.ac.uk/hssp/ 内容:所有实验室测定的三维结构, 连接到NCBI的Entrez。 (3)其他,5、在线蛋白工具,思考题: 生物信息学的含义及其主要研究内容主要的蛋白质数据库和蛋白质组 数据库有哪些?,