结构基因组学ppt课件.ppt_三一办公31ppt.com

资源描述

《结构基因组学ppt课件.ppt》由会员分享，可在线阅读，更多相关《结构基因组学ppt课件.ppt（65页珍藏版）》请在三一办公上搜索。

1、第五章基因组序列注释,完成基因组测序仅仅是基因组计划的第一步，更大的挑战在于弄清：基因组序列中所包含的全部遗传信息是什么；基因组作为一个整体如何行使其功能。这两项任务都必须依赖于对基因组序列的正确注释（annotation）。,基因组注释方法：, 自动注释：依据某些规则进行数据分析得出是否为基因的结论。人工注释：人为检测评价自动注释的结果并根据其他数据进行分析与校正。实验注释：根据实验结果进行检测，如EST或全长cDNA。,自动注释的内容：,依据基因结构的特点采用软件预测，不依赖已有的表达序列；同源性比较，在同一物种或不同物种中查找已有的基因序列；功能域（domain）或基序（motif

2、）分析。,基因序列注释,基因功能注释,5.1 搜寻基因5.1.1 根据基因结构特征搜寻基因,基因（gene）,. 开放读码框,在DNA链上，由蛋白质合成的起始密码子开始，到终止密码子为止的一个连续编码序列称为一个开放读码框（open reading frame, ORF）。,读码框（reading frame）,任意一段DNA序列都有6种可能的读码框。,终止密码子: TAA, TAG, TGA GC% = 50%，终止密码子每 64 bp出现一次； GC% 50%，终止密码子每100200 bp 出现一次；由于多数基因 ORF 均多于50个密码子，因此最可能的选择应该是 ORF 不少于100

3、个密码子。,ORF的长度：,最长ORF法,在细菌基因组中，蛋白质编码基因从起始密码子ATG到终止密码子平均有100 bp，而300 bp长度以上的ORF平均每36 Kb才出现一次，所以只要找出序列中最长的ORF（300 bp）就能相当准确地预测出基因。,在真核生物中，存在大量非编码序列和内含子，ORF阅读比较复杂。全长cDNA的编码区一般也可以用最长ORF法，如水稻的3万多条的全长cDNA的编码区预测，有时例外。,全长cDNA的编码蛋白序列应为4-029B，而非最长的4-029A。, 起始密码子 ATG,第一个ATG的确定依据Kozak规则。Kozak是一个女科学家，她研究过起始密码子ATG周

4、边碱基定点突变后对转录和翻译所造成的影响，并总结出在真核生物中，起始密码子两端序列为：G/N-C/N-C/N-ANNATGG，如GCCACCATGG、GCCATGATGG时，转录和翻译效率最高，特别是-3位的A对翻译效率非常重要。该序列被后人称为Kozak序列，并被应用于表达载体的构建中。,若将第一个ATG中的碱基A、T、G分别标为1、2、3位，则Kozak规则可描述如下：(1) 第4位的偏好碱基为G；(2) ATG的5端约15bp范围的侧翼序列内不含碱基T；(3) 在-3，-6和-9位置，G是偏好碱基；(4) 除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。Kozak规则是基于已知数据

5、的统计结果，不见得必须全部满足，一般来说，满足前两项即可。,Kozak规则的内容：, 密码子偏爱性（codon bias）,编码同一氨基酸的不同密码子称为同义密码，其差别仅在密码子的第3位碱基不同。不同种属间使用同义密码的频率有很大差异：如人类基因中，丙氨酸（Ale）密码子多为GCA、GCC或GCT，而GCG很少使用。,几乎所有基因（或操纵子）都有上游调控序列，它们可与DNA结合蛋白作用，控制基因表达，如启动子序列。生物的基因组特有组成也可作为判别依据，如几乎所有的管家基因（House-Keeping gene）及约占40%的组织特异性基因的5末端含有CpG岛。在大规模DNA测序计划中，每发现

6、一个CpG岛，则预示可能在此存在基因。, 上游控制顺序,Chambon等发现内含子特点：（1）内含子连接点具有很短的保守序列，称为边界顺序。其规律称为GT-AG法则（GT-AG rule) 或Chambon法则。。, 外显子与内含子边界,（2）分枝点顺序：为Py80NPy87Pu75APy95 ，其中A为百分之百的保守，且具有2-OH。（3）内含子5端有一保守序列可以和U1 snRNA的5 端的保守顺序互补。,3端的确认主要根据Poly(A)尾序列，若测试序列不含Poly(A)，则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断。, 3端的确认,由于内含子的进化没有外显子受

7、到的选择压力大，内含子的序列比外显子的序列更随机。这是目前各种预测程序中被广泛应用的一种方法，如GCG的TestCode、美国波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序。, 编码区与非编码区,5.1.2 同源基因查询,物种之间存在着广泛的同源基因，包括编码和非编码序列。,注：以人类基因组DNA序列为基准，与其他生物基因组DNA序列对比。, 同源查询（homology search）,利用已存入数据库中的基因序列与待查的基因组序列进行比较，从中查找可与之匹配的碱基序列或蛋白质序列及其比例，这种识别基因的方法称为。,同源查询相似性的表

8、现：,存在某些完全相同的序列；ORF的排列类似，如等长的外显子；ORF的氨基酸序列相同；模拟的多肽高级结构相似。以上标准可单独使用，亦可综合考察；一般认为氨基酸的一致性或相似性在25%以上可视为同源基因。, 区分概念：同源性、一致性和相似性,同源性（homology）：起源于同一祖先但序列已经发生变异的序列之间的关联性。同源性只有“是”和“非”的区别，无所谓百分比。一致性（identity）：同源DNA序列的同一碱基位置上相同的碱基成员，或者蛋白质中同一氨基酸位置上相同的氨基酸成员的比例。相似性（similarity）：同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。一致性和

9、相似性可用百分比表示，相似性往往高于一致性。,同源基因有关概念：,直向同源基因（orthologous gene）：指分布在不同物种之间的同源基因，它们来自物种分隔之前的同一祖先。共生同源基因（paralogous gene）：指同一物种因基因倍增产生的同源基因。（旁系同源基因）倍增基因（ohnologous gene）：因全基因组加倍产生的同源基因称。异向同源基因（xenologous gene）：不同物种之间因水平转移产生的同源基因称。,物种种化（speciation event）而产生了直系同源（orthology）的基因序列，基因重复（duplication event）而产生了旁系同

10、源（paralogy）的基因序列。,globin 基因的直系同源、旁系同源关系图,在基因分类时，缺少同源序列的ORF被称为孤独基因（orphan gene）。当某一序列从数据库中无法找到同源序列，又无法排除其是不是基因的可能性时，必须依靠实验来进一步确认。,两点说明：,在DNA水平上区分同源基因的难度要大于氨基酸水平。原因：密码子的摇摆性，相似氨基酸的取代。确定两个基因是否同源，氨基酸序列的比较以及蛋白质高级结构的模拟给出的结果更为可靠。原因：同源基因功能相似，关键位置氨基酸相同。, 基因注释软件,信号指令（signal term）：如起始密码、终止密码、内含子分支点保守序列等；内容指令

11、（content term）：如密码子使用偏好等。, 基因注释水平的分类,已知基因（known gene）：与已知cDNA和蛋白质序列同源的基因。新基因（novel gene）：与其他物种cDNA或蛋白质序列同源的基因。新转录物（novel transcript）：与新基因相似，但缺少明确的ORF。可能的基因（putative gene）：有同源EST支持，但缺少cDNA或ORF。预测基因（predicted gene）：数据库中至少有一个外显子支持，但缺少cDNA或明确的ORF。假基因（pseudogene）：与已知蛋白质有50%的一致性，但cDNA残缺，在其他位点存在正常的同源基因的序列。

12、,（Dunham I 等，2001）,5.1.3 实验确认基因,依据：任何基因都可转录为RNA拷贝。分子杂交可确定DNA片段是否含表达序列Northern印迹（Northern boltting）。由EST和cDNA指认基因搜集尽可能多的EST和cDNA成员是基因组注释最简单最可靠的方法。,5.2 基因功能预测,根据基因结构、功能与进化的内在联系，采用生物信息学方法进行基因功能的预测已成为基因功能前期研究的主流内容。,5.2.1 计算机预测基因功能,采用软件分析方法，根据已有的基因功能推测基因组中具有相似结构的基因的功能。依据：同源性比较直向同源基因，共生同源基因,蛋白质结构预测,5.2.2

13、蛋白质结构域在功能预测中的意义,结构域（domain）（功能域）：蛋白质高级结构中具有相对独立的亚结构区，通常它们含有数个二级结构基序（motif），具有相对独立的功能。真核生物中大约80%的蛋白质，原核生物中大约66%的蛋白质均含有多个结构域（Apic G等，2001）。,蛋白质的域结构（domain architecture）,又称为蛋白质指纹（protein fingerprint）：用来特指蛋白质中结构域的组合形式及其排列次序。蛋白质的整体功能是通过各个结构域之间的协同作用实现的，结构域的组成提供了蛋白质功能解读的关键信息。,举例：细胞跨膜信号传导蛋白的结构域,接受外界信号的受体功

14、能域；传达信号的胞内激酶域；蛋白质定位在细胞膜上的跨膜域。,蛋白质结构域在基因的功能预测中起着极其重要的作用，是预测基因功能的主要依据之一。同一物种或不同物种中具有相同结构域的蛋白质可将其划归在同一蛋白质家族（protein family），当其他物种相关蛋白质家族成员的功能已知时，根据同源性可以推知另一物种相同结构域蛋白质的功能。,有时2个无明显亲缘关系的蛋白质含有个别相同的结构域：分析：可能具有相似的生物学功能，相似的结构域是蛋白质功能的核心区域。基因本身无共同的祖先，但其结构域却有共同的起源。,举例：涉及mRNA加工的蛋白质,共有结构域：RNA结合域承担功能：mRNA的转运；mRNA前体

15、的剪接加工；mRNA的翻译；mRNA的编辑等。,转录因子的共同特点是可与DNA结合，即具有DNA结合域。TIRG生物技术公司利用Pfam和InterPro蛋白质域软件包搜寻与注释水稻基因组序列，鉴别出2462个转录因子基因。,5.2.3 根据协同进化（co-evolved）注释基因功能,为了加快基因功能的注释与分类，根据相关功能基因具有协同进化的特点，Zheng L等（2002）提出了一种协同进化基因功能注释策略，用以解决部分没有任何已知背景的基因的注释。,协同进化基因功能注释方法：,物理连锁（physical linkage）：许多基因组在物理图谱上都有或多或少的同线性区段，其中不少基因紧密

16、连锁，组成独立的进化单位。Zheng Y等（2002）发现，在4个或更多个亲缘关系较远的原核生物基因组中凡是紧密连锁在一起的两个或多个基因有90%的可能性涉及相同的功能。,功能连锁（functional linkage）：一项特定的细胞功能常常需要许多基因的合作，它们之间建立了一种保守的网络联盟。在进化过程中，这些蛋白质表现出协同进化的趋势，在不同物种中可能涉及相同的生物学功能。寻找不同基因组中同时出现或同时丢失的蛋白质成员，就有可能发现这些功能相关的基因。,蛋白质常常由一个以上的多肽功能域组成，它们的组合不是随机的，彼此间存在相互作用。某些物质中这些功能域集合在同一个蛋白质，在其他生物中它们位于两个或多个独立的蛋白质，其间必定有互作关系（Enright AJ等，1999）。,5.3 发现基因的一般过程,根据Gene Discovery（http: / bioinformatics. weizmann. ac. il）,美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI),欧洲分子生物学实验室EMBL（The European Molecular Biology Laboratory）,蛋白质序列比对,蛋白质二级结构预测,

展开阅读全文