《基因组学课件5基因组序列的诠释.ppt》由会员分享,可在线阅读,更多相关《基因组学课件5基因组序列的诠释.ppt(66页珍藏版)》请在三一办公上搜索。
1、1,5 基因组序列的诠释,2,3,问 题,基因组序列所包含的全部遗传信息是什么?基因组作为一个整体如何行使其功能?用什么方法寻找基因,研究基因的功能呢?,4,基因组序列的诠释,研究基因组的最终目的不是为了仅仅得到基因组的全部序列,而是诠释基因组所包含的信息和基因组功能。在这一部分中,我们主要探讨利用什么方法来搜寻基因和研究基因组的功能1.在基因组中搜寻基因根据顺序分析搜寻基因实验分析确认基因2.基因功能的测定,5,A 起始密码子 ATG B 信号肽分析C 终止密码子D 3端的确认E 非编码序列、内含子F 密码子偏爱性G 外显子内含子边界H 上游调控序列I 软件预测,5.1 在基因组中搜寻基因根
2、据序列分析搜寻基因,6,5.1 在基因组中搜寻基因,在获得基因组或DNA序列后,可以采用人工或计算机序列筛选的方法来获得基因。目前,使用比较多的方法是ORF(opening reading frames)扫描ORF:每个编码蛋白的基因都含有ORF,它是由一系列密码子组成,通常以ATG开始,TAA、TGA、TAG结束。通过寻找起始密码子和终止密码子的ORF序列是寻找基因的一种重要的方法寻找ORF的成功的关键在于终止子在DNA序列中出现的频率,7,5.1 在基因组中搜寻基因,终止子出现的频率与CG含量之间的关系,8,5.1 在基因组中搜寻基因,高等真核生物DNA的ORF的阅读障碍:基因间存在大量非
3、编码序列(人类基因组占70%)很多基因含有内含子由于多数外显子长度100个密码子,当读码进入到内含子时很快就遇到终止密码,从而难以判断读码的准确性,9,A 起始密码子 ATG第一个ATG的确定(依据Kozak规则)Kozak规则是基于已知数据的统计结果所谓Kozak规则,即第一个ATG侧翼序列的碱基分布所满足的统计规律,根据开放读码框(ORF)预测基因,10,Kozak规则:若将第一个ATG中的碱基A,T,G分别标为1,2,3位,侧翼碱基序列具有以下特征:第4位的偏好碱基为GATG的5端约15bp范围的侧翼序列内不含碱基T在-3,-6和-9位置,G是偏好碱基除-3,-6和-9位,在整个侧翼序列
4、区,C是偏好碱基,11,B 信号肽分析信号肽分析软件(SignalP)http:/把预测过程中证实含完整mRNA 5端的序列翻译为蛋白序列然后用SignalP软件对前50个氨基酸序列(从第一个ATG对应的甲硫氨酸Met开始)进行评估,如果SignalP分析给出正面结果,则测试序列有可能为信号肽,12,C 终止密码子终止密码子:TAA,TAG,TGA GC%=50%终止密码子每 64 bp出现一次 GC%50%终止密码子每100200 bp 出现一次 由于多数基因 ORF 均多于50个密码子,因此最可能的选择应该是 ORF 不少于100 个密码子,13,D 3端的确认 3端的确认主要根据Poly
5、(A)尾序列,若测试DNA片段不含Poly(A)序列,则根据加尾信号序列“AATAAA”和BLAST同源性比较结果共同判断,14,E 非编码序列、内含子 高等真核生物多数外显子长度少于100 个密码子,有的不到50个密码子甚至更少,15,F 密码子偏爱性编码同一氨基酸的不同密码子称为同义密码,其差别仅在密码子的第3位碱基不同不同种属间使用同义密码的频率有很大差异,如人类基因中,丙氨酸(Ale)密码子多为GCA,GCC或GCT,而GCG很少使用,16,G 外显子内含子边界外显子和内含子的边界有一些明显的特征如:内含子的5端或称供体位(donor site)常见的顺序为 5-AGGTTAAGT-3
6、3端又称受体位(acceptor site),多为5PyPyPyPyPyPyCAG-3(Py:嘧啶核苷酸,T或C),17,H 上游调控序列几乎所有基因(或操纵子)上游都有调控序列,它们与DNA结合蛋白作用,控制基因表达通过同源性比较来预测mRNA的5端,最常用的与转录起始位点相关的数据库是真核启动子数据库(The TRADAT Project,Eukaryotic Promoter Database,EPD.http:/)另外个别生物基因组的特有组成也可作为判别依据,如脊椎动物基因组许多基因的上游都有CpG岛,18,I 软件预测采用NCBI的ORF预测软件(ORF finder:http:/)
7、判断ORF的可能范围,19,5.1 在基因组中搜寻基因,适用于高等真核生物基因组的ORF扫描方法:上游调控序列(upstream control sequence):上游调控序列和外显子-内含子边界一样具有显著特征,这些特征是参与基因表达的DNA结合蛋白的识别信号。但真核的变化也较大同源查询(homology search):利用已存入数据库中的基因序列与待查基因组序列进行比较,从中查找可与之匹配的碱基顺序及其比例用于界定基因的方法孤独基因(orphan gene):指在基因分类时缺少同源顺序的ORF,20,5.1 在基因组中搜寻基因,实验分析确认基因分子杂交可确定DNA片段是否含有表达顺序N
8、orthern blot:指将待测DNA样品标记后与RNA杂交,以判断RNA中是否含有DNA的转录产物。但在操作中存在一些问题Zoo blot:一些亲缘关系相近的物种,其基因的编码区相似性较高,而非编码区的同源性很低。则可以某一物种的DNA序列与来自另一亲缘种的DNA片段杂交,如产生阳性信号,则该区段可能含有1或多个基因,21,22,5.1 在基因组中搜寻基因,DNA顺序中基因位置的确定Northern blot和Zoo blot可以判断DNA片段中是否含有基因,但是不能给出基因定位信息。获得基因定位信息的最容易的方法是cDNA测序cDNA测序受两个方面的影响:一是相关cDNA在cDNA文库中
9、出现的频率;二是cDNA的完整性,23,5.1 在基因组中搜寻基因,如何获取基因全长cDNA序列?确定其在基因组中的位置?A cDNA 文库构建B RACE 技术C 通过对全长cDNA序列的测序、对比,以及与基因组DNA的比较,确定基因所在的区域;通过物种已建立遗传图和物理图来确定基因的位置;,24,cDNA文库构建(CLONTECH),25,cDNA文库构建,26,5RACE(CLONTECH),27,3RACE(CLONTECH),28,一.利用计算机分析基因功能二.实验分析确定基因功能三.其他的基因功能研究方法四.主要技术及原理方法,5.2 基因功能的测定,29,一.利用计算机分析基因功
10、能1.同源性确定基因功能2.同源性分析在酵母基因组计划中的应用,5.2 基因功能的测定,30,1.同源性确定基因功能,同源基因都拥有一个共同的祖先基因,它们之间有许多相似的序列。同源基因可以分为2类:种间同源基因或直系基因(orthologous gene):指不同物种之间的同源基因,它们来自物种分化以前的共同祖先种内同源基因或平行基因(paralogous gene)同一物种内的同源基因,它们常常是多基因家族的不同成员,其共同祖先可能存在于物种形成以后,也可能存在于物种形成之前,31,同源基因一般不会有完全一致的核苷酸序列,因为不同的基因或不同的生物都会独立地发生随机突变,但它们有相似的序列
11、,大部分未突变的核苷酸位置是相同的 当一个新基因的序列被确认后,根据同源性可以从数据库中查找已知序列的同源基因。根据进化的相关性,可以根据已知的同源基因推测新基因的功能 同源性分析可以给出整个基因或其中某一区段功能的有关信息,32,2.同源性分析在酵母基因组计划中的应用,酵母基因组大约含有6000个基因,30是通过传统遗传学分析得到的,另外70是用同源性分析获得,33,二.实验分析确定基因功能1.基因失活在基因功能分析的作用2.基因的超表达用于功能检测,5.2 基因功能的测定,34,基因的功能是一个过程,是从基因到表型的一系列生理生化反应过程。现在的基因功能研究与传统的遗传分析正好相反,传统的
12、遗传分析是从表型出发最终到达基因(正向遗传学),而在基因组计划中研究基因功能则是从基因出发,最终到达表型(反向遗传学)。因此必须寻找一系列的实验方法来鉴别与目标基因相关的表型基因失活是基因功能分析的主要手段,1.基因失活在基因功能分析的作用,35,基因失活基因剔除(knock-out)反义RNA技术转座子插入突变,36,5.2 基因功能的测定,基因剔除(knock-out)最简单的基因失活方法,将一段无关的DNA片段用来取代目标基因。主要原理:用一段无关的核苷酸序列取代目标基因的中间序列,并将其导入生物体内或目的细胞内,如果该基因所控制的表型变化了,就从反面验证了目标基因的功能。,37,反义R
13、NA技术 反义RNA由基因的负链(模板链的互补链)编码,可以与由功能基因转录而成的正义RNA形成双链结构,干扰mRNA的翻译,从而干扰基因的表达 将基因的编码序列反向插入表达载体,转化目标生物,获得转基因个体或品系后,进一步分析表达的反义RNA在生理生化或形态发生中所起的作用,由此判别目标基因的功能转座子插入突变 将转座子随机插入功能基因内,使其失活,也可以用于基因功能研究。,38,2.基因的超表达用于功能检测,在正常情况下,基因产物的数量是有限制的,必须与其它基因的产物平衡,某一基因产物的过量和不足都会破坏这种平衡,造成生长和发育的异常 有两种技术可以使细胞中某一基因过量表达:增加基因的拷贝
14、数;采用强启动子,39,5.2 基因功能的测定,许多蛋白质必须与其他蛋白质互作,才能表现其功能,当鉴定了这类蛋白质的某些成员,则可采用某些方法分离与之互作的其他蛋白质噬菌体展示(phage display)酵母双杂交(yeast two-hybridization),三.其他的基因功能研究方法,40,5.2 基因功能的测定,噬菌体展示检测的基因与噬菌体外壳蛋白基因融合,表达后可产生融合外壳蛋白,当噬菌体遇到可与融合外壳蛋白互作的蛋白质时会发生聚合,41,5.2 基因功能的测定,酵母菌双杂交系统 真核生物中,转录因子与基因上游的特定DNA序列结合,然后激活RNA聚合酶,起始RNA的合成。转录因子
15、有2个重要的功能区域,一个与启动子区域的DNA序列结合,另一个与RNA聚合酶的激活有关。有些转录因子中的这2个片段即使分割开来,仍然可以在同一个细胞内相互作用,装配成一个完整的、有功能的转录因子。,42,酵母菌双杂交系统中,将编码这2个功能域的DNA分别构建在2个独立的表达载体上。在一个表达载体中,DNA结合功能域的基因片段与待测蛋白质的基因连接成融合基因。在另一个载体中,RNA聚合酶激活功能域的基因片段与未知的DNA序列连接成融合蛋白基因。将这2个表达载体同时转化一个细胞,并在细胞内表达,如果DNA结合功能域蛋白与同RNA聚合酶激活功能域蛋白之间能够互作,就会启动报告基因的表达。,43,四
16、主要技术及原理方法,4.1 基因剔除(knock-out)最简便的基因失活的方法.主要原理:在一段无关DNA 片段的两侧连接与代换基因两侧相同的顺序,将这一构建导入目的细胞,由于同源片段之间的重组,可使无关片段取代靶基因,整合到染色体中.为了便于筛选,用于取代的外源DNA中含有报告基因.,44,tk 胸苷激酶标记基因 gangcyclovirneor 新霉素抗性基因G418,45,46,4.2 基因超表达 通过增加基因的拷贝数和采用强启动子促使基因超表达,致使受体表现出生长与发育的异常,来研究基因的功能.,47,4.3 反义RNA,反义RNA是由基因的负链编码,可与正义RNA(sense RN
17、A)或DNA 编码顺序结合,干扰mRNA 的转录,加工和转运,调控基因的表达.,48,构建反义RNA 表达载体:将全目的基因或部分目的基因反向插入表达载体 转化目标生物 获得转基因个体或品系 分析转基因植株在生理、生化、形态等方面的变异 判别目的基因的功能,49,正义表达载体,反义表达载体,50,反义RNA 作用机理:A 干扰翻译的起始与延伸,可与翻译起始顺序及编码序列结合形成双链RNA,随之被细胞降解。B 与mRNA 的引导顺序结合,阻止核糖体的附着,使翻译无法启动。C 反义RNA与mRNA形成双链分子后,使RNA多聚酶脱离模板,转录终止。,51,4.4 RNAi干扰,RNAi干扰是通过双链
18、RNA的介导,特异性地降解相应序列的mRNA,从而阻断相应基因表达的转录后水平的基因沉默机制.,52,RNAi 作用机理,A dsRNA核酸内切酶Dicer被激活,它把dsRNA加工成21-25个核苷酸长的RNA链;B 这些小片段RNA(siRNA)作为另一个核糖核酸复合体RISC(RNA-induce silencing complex,RNA诱导沉默复合体)的指引物,结合到RISC上,使之识别并降解mRNA,从而导致与双链RNA同源的基因沉默;,53,54,RNAi设计方法及应用A Fraser 合成与开放读码框相对应的双链RNA或利用细菌克隆表达这些双链RNA微量注射/喂食干扰同源基因的
19、表达B Chuang 等设计出嵌合体结构 连接强启动子大量表达双链mRNA干扰同源基因的表达,55,HbF基因的RNAi载体构建,56,RNAi技术的优缺点,RNAi最根本的特点是特异性RNAi具有特殊的穿越能力,如将双链RNA注射在线虫性腺里,它也会干扰到体细胞里的基因表达,而且干扰作用会传给后代;对一些低水平表达的基因,RNAi现象并不明显RNAi能同时作用于几个有相同或相似序列的基因,57,4.5 酵母双杂交(yeast two-hybridization),原理:其原理涉及转录因子与启动子之间的互作。转录因子(包括两个功能区域)结合功能域同基因上游的区段结合 激活功能域激活RNA多聚酶
20、 将基因转录为mRNA,58,酵母杂交系统中:融合表达载体1 融合表达载体2,DNA结合功能域+目的片段,激活功能域+多种未知cDNA,融合表达载体1同一细胞 融合表达载体2,形成聚合物,启动报告基因的表达,表达载体共转化,59,60,5.3 从基因组到细胞,转录本组transcriptomeDNA芯片分析SAGE蛋白质组proteome,61,DNA芯片分析芯片表面原位直接合成寡聚核苷酸,一百万个寡聚核苷酸/cm2荧光标记样品cDNA,杂交,扫描,根据杂交位置确定序列 一次实验可同时检测成千上万个基因的表达谱,可提供大量有关基因相互作用的信息,62,SAGE:基因表达系列分析转录物内特定位置
21、的一小段寡核苷酸序列,含有鉴定一个转录物特异性的足够信息,作为区别转录物的标签标签串联在一起,形成大量多联体,克隆测序,用SAGE软件分析确定表达基因种类,并根据标签出现的频率确定基因的表达丰度,63,蛋白质组proteome分析全部蛋白质组所有成分、数量,确定各种组分所在的空间位置、修饰方法、互作机制、生物活性和特定功能。目前还缺乏比较理想的技术来分析细胞中整个蛋白质组分。双向电泳分离蛋白质或多肽,随后再测定每个电泳斑点蛋白质或多肽的氨基酸,64,蛋白质组分析的复杂性许多加工方式,如磷酸化、糖基化、乙酰基化、泛素化、法尼基化、二硫键 1个基因可编码许多不同的蛋白质,表现为组织特异性蛋白质之间存在大量的相互作用,如形成同源或异源二聚体、三聚体、多聚体,不同的结合状态有不同的活性;1 种蛋白质可参与多种反应,或多种蛋白质参与1种反应。,65,在线虫中鉴定了29个与发育有关的蛋白质借助已有的基因组序列扩大蛋白质功能的搜寻范围,寻找所有不同基因组中同时出现或同时丢失的蛋白质成员,它们表现出协同进化多肽功能域紧密连锁基因,组成独立的进化单位。尽管它们的表达调控相互独立,但在功能上彼此相关参与同一细胞事件(细胞分裂与凋亡)的基因表现为共调节搜集生理生化过程及特定细胞事件(癌变中)上调或下调的mRNA利用蛋白质微阵技术查找互作蛋白、小分子多肽和配位体结合的蛋白质,66,