生物信息学导论.ppt_三一办公31ppt.com

资源描述

《生物信息学导论.ppt》由会员分享，可在线阅读，更多相关《生物信息学导论.ppt（265页珍藏版）》请在三一办公上搜索。

1、2023/6/30,1,生物信息学导论Introduction to Bioinformatics,张举华Email:Tel:010-68944927,2023/6/302003年8月,2,张举华,北京理工大学生命科学与技术学院,生物信息学导论,2023/6/30,3,主要内容,生物信息学概述基因组信息学,2023/6/30,4,生物信息学概述,本节主要内容什么是生物信息学基因组、转录组、蛋白质组生物信息学有什么用生物信息学的起源生物信息学往哪里去,2023/6/30,5,概述,什么是生物信息学生物信息学是生物学和信息科学与技术的结合所派生出来的一门新兴学科，包括了用来管理、分析和

2、操作大规模生物数据集的任何计算方法和工具，也就是说生物信息学是一个为现代生物学的各个分支，如生物学、分子生物学、生物化学、生物物理学等，服务的数学和计算机科学与技术的整合平台。,2023/6/30,6,概述,基因组、转录组、蛋白质组现在，生物学研究的范式已经发生了变化，生物学家已经不像上世纪6080年代的同行那样满足于研究单个基因和蛋白质，而是对一类细胞或组织中的所有基因和蛋白质同时感兴趣，希望了解这些生物分子之间是通过什么样的途径实现生命过程的。,2023/6/30,7,概述,基因组、转录组、蛋白质组基因组是一个细胞或组织内全部基因的集合；转录组是一个细胞或组织内全部RNA（核糖核酸）的

3、集合；蛋白质组是一个细胞或组织内所有类型蛋白质的集合。以此类推，我们还可以定义其它的“组”，例如蛋白质相互作用组就是一个细胞或组织内蛋白质间所有相互作用的集合。,2023/6/30,8,概述,基因组、转录组、蛋白质组各种组学的发展与高通量检测与测量方法密切关联。“高通量”就是大量的信息或样本在同一时间内通过系统的任何过程。目前,这一概念被广泛应用于计算系统、药物发现、组合化学以及基因组和蛋白组学。,2023/6/30,9,概述,生物信息学有什么用自1990年以来，在生物医学科学领域，生物信息学已经成为生命科学研究和发展整体中的一个重要组成部分。无论是处理由高通量实验技术产生的基因组、转录组

4、和蛋白质组数据，还是组织、分析和管理由传统的生物技术收集到的数据，生物信息学都扮演着极其重要的角色。,2023/6/30,10,概述,生物信息学有什么用上世纪8090年代建立的，以核苷酸或氨基酸序列为基础的，分析单个基因和蛋白质的方法被用于分析大量的基因和蛋白质，例如用于关联基因簇的分析和蛋白质相互作用网络的鉴定。当我们手中完整的基因组序列越来越多时，生物信息学就能够为探索细胞和组织的系统功能与行为提供原理基础和常用方法。,2023/6/30,11,概述,生物信息学的起源分子序列数据的指数性增长始于20世纪80年代。当时，DNA测序技术已趋完善，并作为常规实验手段得到广泛的应用，测序得到的

5、数据被收集到数据库中。比如目前仍有广泛影响力的三个生物信息学一级数据库GenBank，EMBL（欧洲分子生物学实验室核苷酸序列数据库），和DDBJ（日本DNA数据银行）。另外PIR（蛋白信息资源）和SWISS-PROT是蛋白质方面非常重要的数据库。数据的提取与分析的计算方法的发展是并行的。计算方法包括序列相似性比较与搜寻算法、结构与功能预测方法等等。,2023/6/30,12,概述,生物信息学的起源现今的“生物信息学”始于上世纪80年代计算生物学。后者主要包括DNA和蛋白质的序列分析以及蛋白质的三维结构分析。上世纪最后十年的基因组计划所形成的冲击不仅是序列数据的增加，还包括了分子生物数据的多

6、样性。一个基因组序列所展示的不仅是一个完整的基因集合和它们在染色体中的精确定位，而且包括基因组和跨物种间的基因相似性关联。,2023/6/30,13,概述,生物信息学的起源 DNA自动测序构成过巨大的冲击，因为它曾经是各种生物学数据高通量产出的前沿阵地。像表达序列标签（ESTs），单核苷多态性（SNPs）都和基因序列密切相关。随后发展的研究基因表达模式（profile）的DNA微阵列技术、用于探测蛋白质相互作用的酵母双杂交系统、以及质谱技术极大地让生命科学类数据库飞速膨胀。结构基因组学方面的新技术还不能大规模地产生数据，但它们正在导致蛋白质三维结构数据的增加。,2023/6/30,14,概述,

7、生物信息学的起源除了积累各种生物化学与分子生物学数据的实验技术的不断发展，二十世纪后十年同样见证了信息技术的发展。单项最重要的事件是互联网时代的到来。人们用它来传递、访问数据，浏览公共出版物等。生物信息学的兴起很大程度上归功于需要用复杂的方法处理与分析大规模生物学数据，但是互联网也是功臣，因为它的发明使得用户访问数据与软件的开发比过去容易了许多。,2023/6/30,15,概述,生物信息学往哪里去尽管最近十年来，高通量检测技术与信息技术的结合让人们认识了大量的基因和蛋白质，但是和物理学、化学相比较，生物学仍旧是一门不成熟的学科，因为对于生命过程，我们无法根据一般性原理做出像卫星轨道那样精确

8、的预测。随着数据的不断膨胀和知识的积累，也借助于生物信息学，这种情形很有可能发生改变。,2023/6/30,16,概述,生物信息学往哪里去生物信息学正在逐渐演变成为一门基础学科。生物信息学的最终目标是从大规模数据中抽象出知识与原理；提出细胞以至于整个生物体的完整数学与计算机表示；进而预测高度复杂的生物系统的行为，例如，预测在细胞过程中相互作用网络和整个生物体的表型。表18-1简要概括了生物信息学的过去，现在和将来。,2023/6/30,17,概述,生物信息学往哪里去表18-1生物信息学的过去、现在和将来,2023/6/30,18,主要内容,概述基因组信息学,2023/6/30,19,基因组

9、信息学,基因组信息学是生物信息学的源头，是到目前为止发展得比较完善的部分，也是应用最为广泛的部分。本节内容将重点概述基因组生物信息学的主要特征。,2023/6/30,20,基因组信息学,本节主要内容了不起的BLAST BLAST已经不够用了相互作用网络具有更高阶功能生物信息数据库序列比对的动态程序算法复杂生物系统,2023/6/30,21,基因组信息学,了不起的BLAST 在二十世纪后十年，生物信息学的第一个大突破是序列数据库快速搜寻工具BLAST的引入。这个搜寻工具不仅比80年代发展起来的FASTA更有效，而且以不同的原理为基础。数据库搜寻就是将查询的系列与序列数据库中的每一个序列

10、作两两比对。美国国家生物科技信息中心，提供了BLAST链接。,2023/6/30,22,基因组信息学,了不起的BLAS 传统上，比对通过优化查询进行。即通过相同字母数目的最大化，或者采用氨基酸突变矩阵，使相似分数最大化，得出优化系列比对。当允许间隙时，对于做比对的两个序列，具有可能性的比对数量巨大。然而，通过“动态程序”算法，总能找到优化的比对。动态程序算法系统地修剪含有各种可能比队的搜寻树的数枝，不幸的是，这种算法十分耗时，不适合大规模数据库。所以，FASTA的策略是采用一个被称之为“hash”的数据结构，对两个系列的匹配区域先做一个快速、粗略的搜寻，然后再对该区域的近邻起用动态程序算法。,

11、2023/6/30,23,基因组信息学,了不起的BLAST 不同于FASTA遵循结合优化的传统，BLAST之于数学统计与人类直觉的耦合。例如，当人用肉眼对两个系列作比较时，我们绝对不会检查所有可能的细节，而是寻找两个系列共同的特征，然后再尝试扩展这些特征得到更长的匹配，因为我们知道关联的系列倾向于含有保守的系列模体（motifs）。这就是BLAST所采取的策略。它以可靠的数学基础为依据，计算高分片段对（HSPs）的统计。高分片段对指的是分数不可能由系列的扩充或剪除改善的无间隙序列的局部比对。对于给定的查询序列的组合、被搜寻的数据库和打分系统，可以估计打分为s的高分片段对的概率极值（Extrem

12、e value），及所谓的E值。目前，E值已经广泛用来作为系列相似性统计显著性估计的标准度量。,2023/6/30,24,基因组信息学,了不起的BLAST 大约在BLAST发展的同一时期，研究人员开始收集一种不同类型的数据以基因为基础的表达序列标签位点或ESTs。该数据的收集对数据库特征产生了非常大的影响。对于捕获具体细胞或组织中表达基因的完整序列，低质量和碎块序列的大量收集是一条捷径。在此方案中，无论对于在已存在的数据库中搜寻相似性，还是对数据库中所有的序列进行比较以建立相似序列的簇（cluster），BLAST都是一个可选的工具。,2023/6/30,25,基因组信息学,BLAST已经不够

13、用了二十世纪90年代中期，人们看到了完全不同类型的大量序列数据的收集，也就是为细胞生物体的全基因组建立数据库。目前已有100多种生物体的完全基因组序列已经通过实验测定。更多生物体全基因组序列的测定正在进行中。,2023/6/30,26,基因组信息学,BLAST已经不够用了如果系列分析的工具不更新与改进，大规模序列数据的增加并不必然导致生物学知识的增加。为了增加相似序列搜寻的灵敏度，人们已经精心设计了相应的方法。其中最成功的有PSI-BLAST和隐马尔柯夫模型（HMMs）。对于搜寻微弱的相似性，PSI-BLAST是极其灵敏的方法。PSI-BLAST的核心是迭代算法，从而在程序运行过程中由标准

14、BLAST搜寻产生的位置特异性打分矩阵不断地得到改善。,2023/6/30,27,基因组信息学,BLAST已经不够用了隐马尔柯夫模型根据多重序列比对构建。多重序列比对的结果可能是由ClustalW或者ClustalX产生的，但是它们显含插入或删除概率，并且能够搜寻HMM库以探测微妙的序列特征。另外一些成功的序列分析方法是建立在神经网络基础上，它极大的改善了诸如蛋白质二级结构预测；或建立在以规则为基础的系统上，例如用于蛋白质定位的PSORT，并被用来预测蛋白质的各种功能特征。,2023/6/30,28,基因组信息学,BLAST已经不够用了尤其是，HMMs和PSI-BLAST为蛋白质域数据库的

15、发展提供了便利。该数据库可以用来对蛋白质的分子结构和相应的功能单元进行识别。通过一级数据库所做的相似性搜寻能够用来预测基因或蛋白质的功能，只要该数据库被充分注释。由于日益增加的序列数据库，为维持数据库的先进性和对数据进行充分的注释越来越困难，从而，就顾客来说，对二级数据库的依赖程度越来越高。二级数据库含有蛋白质域和功能位点，就这一点来说，这些二级库颇像是含有“序列语言”词汇与句子的词典。,2023/6/30,29,基因组信息学,BLAST已经不够用了随着可以用作比较研究的基因组全序列数目的增加，人们发展了不同类型的功能预测概念与方法。著名的有“基因语境”（gene context）和“基因内

16、容”（content）分析。如果将基因组看成是一串基因，那么基因语境就相当于基因的位置关联。基因语境分析，包括基因顺序的比较和正常基因组的基因融合（Fusion），可探测蛋白质的功能关联，例如探测物理相互作用亚单元、相同通路、酶、和它的调控子（regulator）的数目。,2023/6/30,30,基因组信息学,BLAST已经不够用了与基因语境分析相反，基因内容分析是跨基因组间基因指令系统的比较。当不同生物体之间两个基因的某种相互关联的方式出现或消失时，这两个基因之间或许有某种功能上的联系。对于这种分析的一个预先要求是建立直向同源关系，即起源于共同祖先的功能相同的基因。实际上，直向同源由序列

17、的相似性定义。常常，在基因组两两比对中，直向同源内双向最好打击（bidirectional best hits）准确定义。在完全测序的基因组中，对于直向同源组，在知识组织方面，COG是较早的和取得最突出成就的数据库之一。,2023/6/30,31,基因组信息学,相互作用网络具有更高阶功能如果将人类基因组图谱主要工作的完成作为后基因组时代开始的标志，那么后基因组信息学还处在幼年期。但是这是一个具有旺盛生命力的超级婴儿。本节将重点概述后基因组生物信息学的相关发展。本节会提到生物分子网络，下一节将对网络生物学作更详细的论述。,2023/6/30,32,基因组信息学,相互作用网络具有更高阶功能基因

18、调控与微阵列技术蛋白质相互作用 Go，KEGG 生物信息学家都是网虫从数据驱动到原理驱动,2023/6/30,33,基因组信息学,基因调控与微阵列技术二十世纪90年代后期，各种类型高通量实验数据的获得已经丰富了生物信息学的角色，使分析涉及各种各样细胞过程的高阶功能更加方便。例如，大名鼎鼎的寡核苷酸微阵列或包含全基因组中每个基因的cDNA微阵列，对于测量不同条件下，整个细胞或组织的基因表达是一个非常强有力的工具。除了染色体中序列的相似性和相近性，两个基因由于它们在某个特殊的时间点或某一特别受控条件下表达模式的相似性而相互关联。根据基因表达数据，共调控（co-regulated）基因簇能被探

19、测到，其过程在本质上类似于COG中探测直向同源基因簇，或基因语境分析中位置关联基因簇。这些基因表达簇可用来鉴别特殊生理过程中潜在基因组的数目。从复杂的基因表达数据中提取生物学本质特征也促进了自组织图谱、支持向量机等信息技术在生物学领域中的应用。,2023/6/30,34,基因组信息学,蛋白质相互作用蛋白质-蛋白质相互作用代表了另外一类实验数据。高通量双杂交系统分析已用来检测酵母基因组编码的所有蛋白质对之间的相互作用。质谱技术已被用来系统地鉴别分离纯化了的蛋白质复合体的成分。这些数据集为已有的基因组（序列相似性和基因语境）、转录组（表达相似性）数据集赋予有关蛋白质（相互作用）方面的附加信息层。

20、所有这些数据集可以看成是二进制关系，即两个个体之间的关系，这就是允许整合分析，从而更加精确地抽象出生物学特征。当酵母的不同数据集结合在一起时，通常会发现成对的东西更具生物学意义。具有更高阶功能的数据通常有更高的误差率，注释可能含有许多缺陷，从而要求更加严格的标准。,2023/6/30,35,基因组信息学,Go，KEGG 直到最近，对于不同的功能还没有一个共同的术语。对于蛋白质功能，走向共同词汇的第一步已经由基因本体论协会（Gene ontology consortium）迈出，从而可以更准确地比较与描述基因与蛋白质的功能特征。基因本体论协会将目前收集到的动态变化中的知识归类为三个系统术语或“本

21、体”，分别是单个蛋白质的“分子功能”、介入蛋白的“生物学过程”和使蛋白质在其中发挥功能的“细胞组分”。,2023/6/30,36,基因组信息学,Go，KEGG 为增加对来自于基因组信息的细胞过程的了解，途径（pathway）数据库，例如KEGG和EcoCyc，已经在过去的十年中建立起来。当大多数数据库集中了分子特性（例如，序列、三维结构、模块和基因表达）的时候，这些数据库侧重于细胞的特性，例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。,2023/6/30,37,基因组信息学,Go，KEGG 为增加对来自于基因组信息的细胞过程的了解，途径（pathway）数据库，例

22、如KEGG和EcoCyc，已经在过去的十年中建立起来。当大多数数据库集中了分子特性（例如，序列、三维结构、模块和基因表达）的时候，这些数据库侧重于细胞的特性，例如代谢、信号传导和细胞周期。这类库以路径图形式储存相应的分子相互作用网络。毋庸质疑，从过去许多年出版的文献中收集由生物学传统研究所获得的知识是十分必要的。至少，就代谢途径来说，这些已经有的知识被较好地组织成数据库中的数据，也为注释基因组，筛选微阵列与其他高通量实验数据提供了参考数据。,2023/6/30,38,基因组信息学,Go，KEGG 序列只是简单的一维对象，与此相反，相互作用的分子网络是由一些复杂的图对象表示的。数学上，图是节点与

23、边的集合。根据节点所代表的事物的不同，所定义的图的对象的类型也不同。例如，蛋白质系列是由肽键（边）连接在一起的氨基酸（节点）的图对象。为了解更高阶功能，必须考虑更高的图的对象。KEGG含有3个这样的图对象，分别是“蛋白质网络”，“基因世界”和“化学世界”，其节点也就分别对应于蛋白质，基因和化学对象。,2023/6/30,39,基因组信息学,Go，KEGG 这些数据库为发展图算法铺平了道路。算法包括在途径、表达模式和基因语境中探测局域图相似性。在BLAST搜寻中，E值的概念建立在数据库是独立的对象（序列）的集合这一观念基础上，与此相关，KEGG数据库或其它任何相互作用网络数据库含有图对象，它们是

24、节点（蛋白质，基因或化合物）以及把这些节点关联在一起的不同类型的边的集合。因此，相似性统计和图的其它特征必须被注解，并被转换成新的E值，以使得网络分析更加聪明有效。这有些类似于FASTA向BLAST的转变。,2023/6/30,40,基因组信息学,生物信息学家都是网虫后基因组生物医学研究的一个关键目标是对活体细胞内的所有分子和它们之间的相互作用进行系统地归类，了解这些分子以及它们之间的相互作用是怎样决定细胞这一极其复杂的机器的功能。细胞可能是孤立的，也可能被其他细胞包围着，研究结果表明细胞网络被普适的定律所控制。飞速发展的网络细胞生物学已经有了一个全新的概念框架，它可能革新我们对生物学和病理

25、学的观念。,2023/6/30,41,基因组信息学,生物信息学家都是网虫统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功，但是越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。相反，大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用，这些要素包括DNA、RNA和小分子。因此在21世纪，生物学所面临的关键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结构与动力学。,2023/6/30,42,基因组信息学,生物信息学家都是网虫高通量数据聚集技术的发展，例如微阵列芯片的广泛应用，允许人们随时对细胞组

26、分的状态进行探测。新的技术平台，像蛋白质芯片或半自动酵母双杂交技术，能帮助我们了解生物分子什么时候怎样发生相互作用。各种类型的相互作用网络（包括蛋白质-蛋白质相互作用、代谢、信号以及转录调控网络）来源于这些相互作用的集合。相互作用网络不是互相独立的，相反它们是某一更大网络的子网络。完整的网络对细胞的功能负责。当前生物学的一个主要挑战是整合理论的和实验的步骤，以制定、了解和定量模拟控制细胞行为的各种网络的拓扑与动力学特征。,2023/6/30,43,基因组信息学,生物信息学家都是网虫过去几年里，复杂网络理论正在迅速发展，所提供的方法已经为揭示控制各种各样复杂的技术与社会网络的组织原理做出了贡献

27、。这一研究正在冲击细胞生物学的研究。人们已经开始认识到细胞内分子相互作用的网络结构特征在极大程度上与其它复杂的网络相同或相似。这些网络有互联网、计算机芯片、社会网络等等。这个出乎人们意料之外的普适性表明相似的定律或许控制着自然界中的大多数复杂网络，这就允许借鉴已经被很好地了解的大型非生物学网络的经验，以刻画控制细胞功能的错综复杂的关系。,2023/6/30,44,基因组信息学,生物信息学家都是网虫网络理论有效的工具提供了理解细胞内部组织和进化的末期预料到的可能性，这将从根本上改变我们关于细胞生物学的观念。一些研究成果正在使人们认识到，尽管单个分子的重要性不可轻视，细胞的功能源于大量细胞构件间

28、相互作用的精确定量模式的关联。尽管揭示细胞网络的一般组织原理是将细胞作为一个系统了解的基础，为实验生物学者发展相关方法，帮助他们阐明在各种各样细胞过程中细胞网络所扮演的角色同样是必须的。,2023/6/30,45,基因组信息学,生物信息学家都是网虫各种各样复杂系统的相互作用网络，例如，互联网、社会网络、代谢网络，还有基因网络以及其它各种生物学网络拥有网络拓扑学的共同特征。其中一个特征就是“小世界网络”，其中任何两个节点都可由几个步骤连接在一起，这是因为完全规则和完全随机之间的中间拓扑。另一特征是“无标度”（scale free）网络，其中节点连接度服从幂率分布，这很可能意味着高度被连接的节点

29、（hubs）的存在。在不断扩大的互联网和社会网络中，这些特征与新节点连接到更大的连接器（hubs）相关联。在生物学网络中，这一特征和功能与进化密切相关。例如，无标度律似乎与网络抵抗随机误差的稳定性相关。这是一种进化所喜欢的特征。尽管不同类型的复杂网络分享普遍的特征，当检查简单的网络单元（motifs）时，它们之间是有区别的。,2023/6/30,46,基因组信息学,生物信息学家都是网虫必定地，网络拓扑的复杂性起源于连接（相互作用）的复杂模式，而不是简单地来自网络的尺寸（由网络的节点数度量），这可能是有生物学上的意义，尤其当我们看到人类基因组中几个令人吃惊的基因时。在自然界，节点连接的图与模式

30、是定态的。代谢重建已经完成了这样的图。预测网络动力学远比简单地预测连接模式复杂。通过设计高通量实验，实验中系统地扰动动力学环境并收集足够的实验数据，网络动力学或许会变得可计算，至少对小的环境扰动的响应动力学可以计算。,2023/6/30,47,基因组信息学,从数据驱动到原理驱动在过去的一个年代里，生物信息学的主要标志是创造性地发展计算方法以便为大规模数据的产生与分析提供帮助，以及为直接来自源于大规模数据分析所得到的生物学知识建立二级数据库。懂得隐藏在细胞和生物体中的基本原理是生物信息学的最终目标，1990年代的生物信息学只是通向这一阶段目标的起点。生物学不再局限于列举与建立分子成分的表列，也

31、就是说不再受限于基因（基因组）、信使核糖核酸（转录组）、蛋白质（蛋白质组）和代谢组份（代谢组）。延伸的表列包括相互作用组，它是蛋白质蛋白质相互作用的集合，还有定位组、它是蛋白质亚细胞器定位的集合。不同表列的指令系统随着高通量实验技术的建立与扩充不断增长。,2023/6/30,48,基因组信息学,从数据驱动到原理驱动当然，来自于基因组和蛋白质组的从底层到顶层的方案不足以理解生物系统的高度复杂性。无论是基因本体论的控制性词汇或KEGG的图表示，对于复杂的细胞特征都会简化基因组数据的计算图谱，这些成果也可用来探测基因组和高阶特性之间的经验关系。尽管该领域正在期盼“系统生物学”与整个细胞的模拟，或许

32、更多的努力必须付诸于抓住更高的特征，例如人类疾病的本体论和细胞网络的计算机表示。另外，功能对处境（例如实验条件、细胞状态和环境）的依赖目前基本上没有受到重现。换句话说，在我们对作为一系列复杂信息系统的生命有更基本了解之前，必须考虑一些其它高度复杂性问题。,2023/6/30,49,基因组信息学,生物信息学家都是网虫统治生物学研究长达一个世纪的简化论为我们提供了单细胞组分与它们的功能方面的极其丰富的知识。尽管简化论取得了巨大的成功，但是越来越清楚地看到多样化的生物学功能几乎不可能归功于单一的分子。相反，大多数生物学的特性起源于细胞众多要素之间的复杂的相互作用，这些要素包括DNA、RNA和小分子

33、。因此在21世纪，生物学所面临的关键挑战是了解决定活体细胞结构与功能的细胞内复杂相互作用网络的结构与动力学。,2023/6/30,50,基因组信息学,生物信息数据库目前，生物信息学主要由三个部分组成，它们分别是建立可以存放和管理大量生物信息数据集的数据库；发展从生物学数据中找出各个成员之间相互关系的计算方法和相应的工具；使用这些算法和工具来挖掘、分析和解释不同类型的生物学数据，包括：基因组、转录组、蛋白质组、结构组、代谢途径、信号通路和调控网络等。对于任何一个数据库，最需要关心的事情包括：从数据库中提取信息的速度；存贮大规模数据的能力；更新数据的能力。当前流行的数据库基本上都是面向对象的相关

34、数据库。通过分析含有序列和三维结构的一级数据库中的数据所获得的生物学知识被储存在二级数据库中。二级数据库可以按目的或功能分类。表18-2列出了部分二级数据库。,2023/6/30,51,表18-2 生物知识数据库,2023/6/30,52,2023/6/30,53,基因组信息学,主要序列仓库计算生物学和生物信息学的许多应用是以核苷和蛋白质序列为基础的。三个主要仓库中含有所有已知的核苷和蛋白质序列。通过国际核苷序列数据库联盟，它们彼此间信息共享。这三个数据仓库是：日本DNA数据银行(DDBJ)：EMBL 核苷序列数据库：GenBank：目前，GenBank 含有32亿多个核苷碱基，代表十万多个

35、物种中的 2千8百多万个序列，这就表明大量的数据需要储存。瞧一眼过去20年，尤其是过去8年来GeneBank的增长，我们就可以看到序列数据的爆炸。,2023/6/30,54,基因组信息学,基因组数据库核苷序列信息也可以按基因组数据库的方式组织与存贮。最广泛使用的基因组数据源之一是UCSC基因组浏览器，它含有大鼠、小鼠和人类基因组的全部序列和相应的注释。另一个广泛使用的数据源是Ensembl基因浏览器。另外一些基因组数据库还包括：WormBase,它含有C.elegans 和 C.briggsae蠕虫的基因组；AceDB，它含有C.elegans、S.pombe和 H.sapiens的基因组；

36、CMR含有95种完成的微生物基因组；FlyBaseDrosophila melanogaster基因组；HIV-艾滋病毒基因组；MosDB-水稻基因组数据库；MGD老鼠基因组数据库；酵母基因组数据库；TAIR-Arabidopsis 信息库；ArkDB-动物基因组数据库；还有其它许多未列出的数据库。,2023/6/30,55,基因组信息学,基因组数据库 Ensembl基因组浏览器UCSC 基因组浏览器,2023/6/30,56,基因组信息学,基因组数据库 HIV序列数据库MOsDB水稻数据库MGD小鼠基因组数据库RGD大鼠基因组数据库酵母基因组数据库Arabidopsis信息库ArkDB:ht

37、tp:/thearkdb.org/,2023/6/30,57,基因组信息学,基因数据库目前有不少基因和相关联的结构数据库。其中最大的一个就是NCBI(美国国家生物技术中心)所属的RefSeq 数据库。它是一个充分注释了的非冗余mRNA信息库。其它的基因和基因结构数据库还有：AllGenes，其人类和老鼠的基因指数整合了基因、转录和蛋白质注释；ASAP；ExInt，基因的外显子内含子结构；IDB/IEDB，内含子序列和进化；SpliceDB，Canonical和非Canonical哺乳动物剪接位点；GDB和GenAtlas，人类基因和基因组图谱；HS3D，人类外显子、内含子和剪接区。,2023

38、/6/30,58,基因组信息学,基因数据库 RefSeq(NCBI参考序列项目Genew(被批准的基因名字,2023/6/30,59,基因组信息学,基因数据库 ASAP（交互剪接基因）/,2023/6/30,60,基因组信息学,基因数据库目前有不少基因和相关联的结构数据库。其中最大的一个就是NCBI(美国国家生物技术中心)所属的RefSeq 数据库。它是一个充分注释了的非冗余mRNA信息库。其它的基因和基因结构数据库还有：AllGenes，其人类和老鼠的基因指数整合了基因、转录和蛋白质注释；ASAP；ExInt，基因的外显子内含子结构；IDB/IEDB，内含子序列和进化；SpliceDB，C

39、anonical和非Canonical哺乳动物剪接位点；GDB和GenAtlas，人类基因和基因组图谱；HS3D，人类外显子、内含子和剪接区。,2023/6/30,61,基因组信息学,基因数据库 RefSeq(NCBI参考序列项目Genew(被批准的基因名字,2023/6/30,62,基因组信息学,基因数据库 ASAP（交互剪接基因）/,2023/6/30,63,基因组信息学,单核苷多态性数据源 ASAP（交互剪接基因）在人类的基因序列中，对于不同的个体，大约每2000个碱基中会有一个碱基不同。这一看起来不显眼的数字，在人群中产生了一百六十多万个单核苷多态性。SNPs在个体的差异性方面扮演了极

40、其重要的角色，同时也是许多疾病产生的原因（著名的有镰刀细胞贫血）。单核苷多态性的主要数据库有：dbSNP（单核苷多态性数据库）SNP（单核苷多态性本体论数据库）rSNP指南(调控基因SNPs):http:/util.bionet/nsc.ru/databases/rsnp.html,2023/6/30,64,基因组信息学,表达序列标签库表达序列标签（EST，expressed sequence tags）是一些mRNA的片断拷贝。通过它们可以获得基因剪接的模式。常见的表达序列标签库包括：GRL(基因源定位子)：HUNT（已注释的人类全长cDNA序列）Sputnik（聚类植物表达序列标签注释）

41、STACK（无冗余面向基因的聚类）,2023/6/30,65,基因组信息学,结合位点，启动子除了基因组中基因的定位，了解基因表达开关的位置同样是非常重要的。下面列出一些启动子和转录因子的数据库：EPD（真核生物Pol启动子）:PromEC（大肠杆菌mRNA启动子）TRANSFAC（转录因子和结合位点）,2023/6/30,66,基因组信息学,蛋白质数据库 DNA-RNA-蛋白质是分子生物学的中心法则。蛋白质的数据库非常多，对于不同的蛋白质家族可以创立不同的数据库。下面列出几个广泛使用的数据库：InterPro（蛋白质家族和域）EXProt(功能被实验证实的蛋白质 PIR(蛋白质信息库 SWI

42、SS-PROT/TrEMBL（已注释的蛋白质序列）,2023/6/30,67,基因组信息学,蛋白质序列模体（Motifs）蛋白质序列模体是蛋白质中的一些保守的区域。储存这些信息的数据库包括：BLOCKS(保守域的多重比对)：ProtoMap:http:/protomap.cornell.edu,2023/6/30,68,基因组信息学,结构数据库当蛋白质的序列确立后，剩下的事就是确定它的结构和功能。蛋白质的三维结构一般通过核磁共振或X射线衍射光子学方法确定。一些大规模结构数据库包括：,2023/6/30,69,基因组信息学,基因表达数据库(微阵列实验)一旦基因的定位和序列已知，下一个步骤就是确

43、定它们的功能。目前DNA微阵列仍旧是基因表达方面最重要的高通量试验技术。实验得到的图像、基因表达的模式、实验结果的分析和代谢途径等结果存放在相应的数据库中，下面列出其中部分数据库的网址：HugeIndex http:/hugeindex.org/小鼠Atlas和基因表达数据库斯坦福微阵列数据库：,2023/6/30,70,基因组信息学,基因表达数据库(微阵列实验)一旦基因的定位和序列已知，下一个步骤就是确定它们的功能。目前DNA微阵列仍旧是基因表达方面最重要的高通量试验技术。实验得到的图像、基因表达的模式、实验结果的分析和代谢途径等结果存放在相应的数据库中，下面列出其中部分数据库的网址：Hu

44、geIndex http:/hugeindex.org/小鼠Atlas和基因表达数据库,2023/6/30,71,基因组信息学,斯坦福微阵列数据库：MetaCyc http:/ecocyc.org/,2023/6/30,72,基因组信息学,其它数据库当基因的功能已知后，就能够将那些与疾病相关的基因分类。突变数据库包括：肿瘤基因家族数据库：最广泛使用的文献资源是PubMed：,2023/6/30,73,基因组信息学,序列比对的动态程序算法序列比对的目的给定一个、一对、或若干个核苷酸或氨基酸序列，立即摆在我们面前的一个问题就是序列之间是否有关联。序列比对的目的就是要回答这个问题。具体说来就是

45、要通过比较序列之间的相似性程度回答序列所代表的对象间，功能、结构、及其进化关联。如果给定的是单个序列，就是通过将该序列和自身比对，找出整个序列中重复的序列片断。成对序列之间的比对叫做序列的两两比对（pairwise alignment）,两个以上序列之间的比对被称之为序列多重比对。序列两两比对或多重比对中，如果是比较序列间的整体相似性，就叫做全局比对（global alignment）；如果是比较序列间的局部相似性，就是局部比对（local alignment）。下文着重序列间的两两比对。,2023/6/30,74,基因组信息学,序列的全局比对对两个序列做全局比对时，序列两两比对的动态规划（

46、dynamic program）算法,被称之为Needleman-Wunsch算法。该算法由五步构成：1.确定打分方案；2.比对矩阵的初始化；3.确定比对矩阵每一个单元的分值；4.从比对矩阵的右下角开始追溯分值路径（trace back）；5.根据4的结果确定比对方案。,2023/6/30,75,序列的全局比对打分方案：其中，s(ai,bj)是序列1第i个位点的字母（核苷酸或氨基酸残基），ai与序列2第j个位点的字母 bj一致或不一致时所赋的分值，w是间隙（gap）罚分。这些分值取多少并无确切的值，比方说，可以给定如下方案：,基因组信息学,如果,如果,空位罚分,2023/6/30,76,基因

47、组信息学,序列的全局比对下面用一个例子来说明具体的操作步骤。假定两个序列分别是：序列1：GAATTCAGTTA 序列2：GGATCGA,2023/6/30,77,1.比对矩阵的初始化：,基因组信息学,，从而,2023/6/30,78,2 确定比对矩阵每一个单元的分值：,基因组信息学,2023/6/30,79,基因组信息学,2023/6/30,80,基因组信息学,箭头所指是分值的来源。,2023/6/30,81,3 从比对矩阵的最右下角开始追溯分值路径（trace back）；,基因组信息学,2023/6/30,82,基因组信息学,序列的局部比对对两个序列做局部比对时，序列两两比对的动态规划

48、（dynamic program）算法被称之为Smith-Waterman算法。该算法与Needleman-Wunsch算法类似，只需要将最小分值取零值。追溯分值路径（trace back）不是从矩阵的最右下角开始，而是从整个矩阵的最高分元素开始，到零时终止。其它与序列全局比对相同，这里不再赘述。,2023/6/30,83,基因组信息学,复杂生物系统,引言研究生物系统的高阶行为正在成为生物学研究领域的主流。其实从Norbert Weiner时代起，从系统论的观点出发研究细胞、生物体的系统功能就已经受科学家关注的问题。它在今天重新受到高度重视的主要原因就是分子生物学取得的进步。尤其是，在基因测

49、序和高通量测量方法的突破，使我们能够系统地收集到广泛的数据集，并从中获得潜在分子的信息，在Weiner的时期，这绝对不可能，那时分子生物学还是一个新兴的学科。,2023/6/30,84,基因组信息学,复杂生物系统,复杂系统的表示复杂系统由系统中的成员和成员之间的相互作用组成。表18-3列举了一些复杂的生物系统。如图18-1所示，系统中的成员用节点表示，节点之间的相互作用用连接也就是边表示。节点和边构成图，也就是说，在生物信息学上，一个复杂生物系统被抽象为由一张由节点和边构成的网络图，例如，图18-2所示是酵母蛋白质蛋白质相互作用连锁图。,2023/6/30,85,基因组信息学,表18-3 一

50、些复杂的生物系统,2023/6/30,86,基因组信息学,图18-1 复杂系统的抽象化表示,2023/6/30,87,基因组信息学,图18-2 酵母蛋白质蛋白质相互作用连锁图,2023/6/30,88,基因组信息学,复杂生物系统分子相互作用网路,图18-3 复杂生物系统中的分子相互作用网路,2023/6/30,89,基因组信息学,复杂生物系统,分子相互作用网路如图18-3所示，生物系统中，生物分子之间相互作用构成生物分子网络。网络中的节点是分子，节点节点之间的两两相互作用构成二元关系。表18-4所示是二元关系的一些例子。,2023/6/30,90,基因组信息学,表18-4 二元关系实例,2

展开阅读全文