《《基因与基因组》课件.ppt》由会员分享,可在线阅读,更多相关《《基因与基因组》课件.ppt(72页珍藏版)》请在三一办公上搜索。
1、第一节 基因概念及命名第二节 基因组第三节 病毒及其基因组 第四节 细菌基因组 第五节 真核生物基因组,第四章 基因与基因组的结构与功能,基因:原核、真核生物及病毒DNA或RNA分子 中具有遗传效应的核苷酸序列及其调控序列。,第一节 基因的概念及命名,一、基因的概念,二、基因的命名,1、用3个小写英文字母斜体表示:,2、不同的基因座表示方法:,3、质粒和非染色体成分:,第二节 基因组,1、基因组的概念:,单倍体细胞中的全套染色体为一个基因组,或是单倍体细胞中的全部基因为一个基因组。,1、基因及基因组的大小与C值矛盾(悖论),哺乳动物二氢叶酸还原酶基因的结构,1)基因及基因组的大小,基因组的基因
2、数目,1)基因组DNA的C值及C值悖论,C值:真核生物中DNA含量的反常变化。,C值不随生物的进化 程度而复杂性增加:,亲缘关系密切而C值相差甚大:,真核生物DNA的量远远大于编码蛋白质等物质所需的量:,第三节 病毒及其基因组,一、病毒基因组一般特点,1 病毒基因组大小相差较大:,2 病毒基因组可以由DNA组成,也可以由RNA组成:,3 通常有重叠基因,重叠基因(overlapping gene):同一段DNA的编码顺序,由于阅读框架的不同或终止早晚的不同,同时编码两个或两个以上多肽链的基因。,4 病毒基因组的序列大部分用来编码蛋白质:,5 多顺反子mRNA(polycistroniem RN
3、A):,6 噬菌体的基因是连续的:,7 节段性基因:,8 单拷贝,第四节 细菌基因组,1 仅由一条环状或线形双链DNA分子组成:,2 只有一个复制起始点:,3 有操纵子结构:,这一个完整的调节系统包括结构基因和控制这些基因表达的元件,形成了一个共同的调节单位,这种调节单位就称为操纵子(opron)。,4 编码蛋白质的结构基因为单拷贝:,5 非编码DNA所占比例少:,6 基因组DNA具有多种调控区:,7 可移动的DNA序列:,质粒:是独立于许多细菌及某些真核细胞染色体外共价闭合环状的DNA分子(covalentclosed circular,cccDNA),能独立复制的最小遗传单位。,质粒与宿主
4、细胞的关系,第五节 真核生物基因组,一、真核生物基因组的特点,1、基因组大,2、多条染色体,3、细胞核DNA与蛋白质稳定结合,4、转录和翻译具有时空特异性,5、DNA有大量重复序列,不重复序列:在单倍体基因组里,只有一个或几个拷贝,占DNA总量的4080;长度大约为7502000bp中等重复序列:重复次数在10104之间;占DNA总量的1040;高度重复序列(卫星DNA):只在真核生物中发现;占基因组的1060;由6100个碱基组成;串联重复几百万次。多位于着丝粒部分,异染色质的组成部分,6、单拷贝单顺反子,7、可移动的DNA序列,二、真核生物基因组的结构,1、断裂基因(splitting g
5、ene),割裂基因:基因的编码序列在DNA上不是连续的,而是被不编码的序列隔开。,二、外显子与内含子及其相互关系,外显子(Exon):基因中编码的序列,与mRNA 的序列相对应。内含子(Intron):基因中不编码的序列。,外显子与内含子之间的连接位点 短的共同保守序列 没有序列同源性或互补性 GT-AG规律,5-外显子-AGGTAAGT-内含子-Py10CAG-外显子-3,持家基因(housekeeping gene):在所有细胞类型中都表达,即这些基因的功能为所有细胞所必须(或称组成型基因 constitutive gene),奢侈基因(luxury gene):仅在某种特定类型的 细胞中
6、表达的基因,人类基因组中90以上的DNA功能何在??,果蝇基因组的基因,顺式调控元件,DNA复性过程遵循二级反应动力学DNA复性过程中单链消失的速度用公式表示:-dC/dt=kC2,三、真核生物基因组的序列异质性,反应初始 t=0,单链 DNA浓度=C0,反应达 t 时,单链DNA浓度=C,K复性速度常数,DNA复性的影响因素:DNA序列的复杂性、初始浓度、片段大小、温度、离子强度,-dC/dt=KC2,C/C0=1/(1+KC0t),Cot曲线:用以表示复性速度与DNA顺序复杂性的关系。,C/C0是C0t的函数,按此公式作图得C0t曲线,当 C/C0=1/2 时的Cot值定义为Cot1/2,
7、C/C0=1/(1+KC0t1/2),K=1/Cot1/2,C0t(1/2)值对DNA的意义:与DNA的碱基对数成反相关,即复性反应完成一半时,K复性速度常数,C/C0=1/(1+KC0t),不同DNA的Cot1/2值不同,与K值相关DNA序列的复杂性影响K值:在控制反应条件(初始浓度、温度、离子强度、片段大小)相同的前提下,两种DNA分子的C0t1/2值,取决于核苷酸的排列复杂性。DNA序列的复杂性(complexity)X:最长的不重复序列的bp数 X=K Cot1/2,Cot1/2=1/K,当阳离子浓度0.18mol/L,DNA长度为400nt,复性温度为Tm-25时,K=5105L/(
8、mols),X=5105 C0t1/2,真核生物基因组的序列类型,1、高度重复序列(high repetitive sequences),高度重复序列在基因组中重复频率可高达106以上,因此复性速度很快。序列长度一般为10300bp的较短序列。在基因组中所占比例随种属而异,约占1060,人基因组中约占20。,反向重复序列 反向重复序列由两个相同顺序的互补拷贝在同一DNA链上反向排列而成。这种重复顺序复性速度极快。序列长度1001000bp,约占人基因组的5。,串联重复序列 由2172bp重复单位排列成串而形成的。由于碱基组成不同于其他部份,在等密度梯度离心时与主体DNA分开,称卫星DNA(sa
9、tellite DNA)。,(a)卫星DNA(satellite DNA)重复区涵盖100kb5Mb,大部分位于染色体着丝点。重复单位2bp172bp。其中一种重复单位在170bp左右,为灵长类所独有,非洲绿猴重复单位为172bp。人类为171bp,约占每个染色体的35%。(b)小卫星(minisatellite)DNA 重复区域在0.1kb20kb间。主要包括重复单位在980bp之间的可变数目串联重复序列(variable number of tandem repeats,VNTR)和端粒。VNTR大多位于非编码区,重复的数目随个体差异很大。可用于DNA指纹(DNA finger print
10、ing)。人类端粒的重复序列是TTAGGG,涵盖1015kb,老化后可能变短。(c)微卫星(microsatellite)DNA 重复单元16bp的短串联接重复(short tandem repeats,STR),涵盖区域小于150bp。微卫星DNA里的重复数目亦随个体而异,广泛被用於DNA指纹。,散布重复序列散布重复序列可看成是一种转座子(transposable elements),它们借DNA重组机制而转移。经过许多代的遗传累积,DNA的某段序列会散布各处。由于突变的结果,每个重复单位的序列并非完全相同。,高度重复顺序的功能,参与复制水平的调节 反向序列常存在于DNA复制起点区的附近。许
11、多反向重复序列也是一些蛋白的结合位点。,参与基因表达的调控 DNA的重复顺序可以转录到hnRNA分子中,有些反向重复顺序可以形成发夹结构,对稳定RNA分子免遭分解有作用。,参与转座作用 转座子的末端一般都包括反向重复顺序。由于这种顺序可以形成回文结构,因此在转位作用中即能连接非同源的基因,又可被参与转位的特异酶所识别。,与进化有关 高度重复顺序的核苷酸序列具有种属特异性,但相近种属又有相似性。,同一种属中不同个体的高度重复顺序的重复次数不一样,这可以作为每一个体的特征,即DNA指纹。,卫星DNA成簇的分布在染色体着丝点附近,可能与减数分裂时染色体配对有关,即同源染色体之间的联会可能依赖于具有染
12、色体专一性的特定卫星DNA顺序。,2、中度重复序列(moderate repetitive sequences),重复频率10105的顺序,序列长1005000bp;在基因组中所占比例约占1040。分布于结构基因之间、基因簇中、以及内含子中。中度重复顺序一般具有种特异性;在适当的情况下,可以应用它们作为探针区分不同种哺乳动物细胞的DNA。,Alu序列分散在整个哺乳动物基因组中,平均每5kb就有一个Alu顺序。在间隔DNA,内含子中都有Alu序列。约占人基因组的36。Alu序列长度约300bp,每个序列中有一个限制性内切酶Alu的切点(AGCT)而定名为Alu家族。,Alu家族,用限制性内切酶K
13、pn切灵长类动物的DNA,在电泳谱上可看到4个不同长度的片段,这就是Kpn家族。占人体基因组的1。Kpn家族成员顺序比Alu家族长,而且不均一,呈散在分布,属于中度重复顺序的长分散片段型。,Kpn家族,这一家族以319bp长度的串联重复存在于人体基因组中。用限制性内切酶Hinf消化人体DNA,可以分离到这一片段。Hinf家族在单位基因组内约有50100个拷贝,分散在不同的区域。多聚dT-dG家族这一家族多个dT-dG双核苷酸串联在一起,分散于人体基因组中。在人基因组中,多聚dT-dG家族顺序的平均长度为40bp,Hinf家族,单拷贝序列(single copy sequences)在单倍体基因
14、组中只出现一次或数次,又称低度重复顺序。占哺乳类基因组的5080%,人基因组中约占65%。序列长7502000bp,相当于一个结构基因的长度。单拷贝顺序中只有一小部分编码蛋白质,其它部份的功能尚不清楚。在基因组中,单拷贝顺序一般与重复序列相间排列。,3、单拷贝序列,四、真核细胞的基因家族和基因簇,4.1.1 基因家族和基因簇 基因家族(gene family):真核生物基因组中来源相同,结构和功能相关的基因聚集在一起形成基因家族。可能由共同祖先经多次重复和突变产生根据分布形式分基因簇和散布的基因家族:1)基因簇(gene cluster)基因家族的各个成员紧密成簇排列成大段的串联重复单位,分布
15、在某一条染色体的特殊区域;它们可同时发挥作用,合成某些蛋白质。,假基因(pseudo gene):在多基因家族中,某些成员并不产生有功能的基因产物。假基因与有功能的基因同源。2)散布的基因家族(interspersed gene family)概念:一个基因家族的不同成员成簇地分布不同染色体上,各成员在序列上有明显差异。这些不同成员编码一组功能上紧密相关的蛋白质,如珠蛋白基因家族。,4.1.2 广义的基因家族,根据基因家族成员序列的相似程度分类:1)经典的基因家族,家族成员序列有高度的同源性,序 列一致,拷贝数高,非转录间隔区短而一致。2)基因家族各成员的编码产物保守(大段的高度保守氨基酸序列
16、);只是DNA序列的相似性低。3)基因家族各成员的编码产物之间只有很短的保守氨基酸序列,DNA序列的相似性更低。4)超基因家族,各基因序列之间无同源性,但其基因产物的功能相似。编码产物之间也无明显的保守氨基酸序列,但也有一些共同特征。,各成员相同或基本相同,如5SRNA基因,在爪蟾中5S基因与非转录间隔区相间排列,组成一个重复单位。5SrRNA基因后面是一段并不转录的假基因。,简单多基因家族,各成员不完全相同,但功能相关,串联在一起成为一个重复单位。如H2A、H2B、H3及H4属于相同的组蛋白家族。果蝇的tRNA基因家族,复杂的多基因家族,由发育阶段控制的多基因家族,在多基因家族中,某些成员并
17、不产生有功能的基因产物,这些基因称为假基因(pseudo gene),真核的线粒体和叶绿体基因组 1)线粒体的基因组mtDNA:脯乳动物的mtDNA为16.5Kb为核DNA的1%。2)叶绿体的基因组cpDNA一般为121-155Kb;,“基因”概念的提出,孟德尔(Gregor Johann Mendel 18221884),植物杂交试验一文中指出,生物每一个性状都是通过遗传因子来传递的,遗传因子是一些独立的遗传单位。,1903年萨顿(W.S.Sutton 18771916)和鲍维里(T.Boveri 18621915)“萨顿鲍维里假想”:遗传因子位于染色体上,1909年丹麦遗传学家约翰逊(W.
18、Johansen 18591927)在精密遗传学原理一书中提出“基因(Gene)”概念,以此来替代孟德尔假定的“遗传因子”。从此,“基因”一词一直伴随着遗传学发展至今,摩尔根(Thoman Hunt Morgan 18661945)和他的学生们利用果蝇作了大量的潜心研究。1926年他的巨著基因论出版,从而建立了著名的基因学说,他还绘制了著名的果蝇基因位置图,首次完成了当时最新的基因概念的描述,即基因以直线形式排列,它决定着一个特定的性状,而且能发生突变并随着染色体同源节段的互换而交换,它不仅是决定性状的功能单位,而且是一个突变单位和交换单位,1941年比德尔(G.W.Beadle 190319
19、89)和塔特姆(E.L.Tatum 19091975)提出一个基因一个酶学说,证明基因通过它所控制的酶决定着代谢中生化反应步骤,进而决定生物性状。,1949年鲍林(L.C.Pauling19011994)与合作者在研究镰刀型细胞贫血症时推论基因决定着多肽链的氨基酸顺序,1944年艾弗里(O.T.Avery 18771955)、麦卡蒂(M.McCarty 1911)等人发表了关于“转化因子”的重要论文,首次用实验明确证实:DNA是遗传信息的载体,1952年赫尔希(A.D.Hershey)和蔡斯(M.M.Chase 1927)进一步证明遗传物质是DNA而不是蛋白质,1953年美国分子生物学家沃森(
20、J.D.Watson)和英国分子生物学家克里克(F.H.C.Crick)通力协作,根据X射线衍射分析,提出了著名的DNA双螺旋结构模型,进一步说明基因成分就是DNA,它控制着蛋白质合成。,1957年法国遗传学家本滋尔(Benzer)以T4噬菌体作为研究材料分析了基因内部的精细结构,提出了顺反子学说。这个学说打破了过去关于基因是突变、重组、决定遗传性状的“三位一体”概念及基因是最小的不可分割的遗传单位的观点,从而认为基因是DNA分子上一段核苷酸顺序,负责着遗传信息传递,一个基因内部仍可划分若干个起作用的小单位,即可区分成顺反子、突变子和重组子,顺反子:能编码一条完整的多肽链的一段核苷酸序列,在2
21、0世纪50年代初人们已懂得基因与蛋白质间似乎存在着相应的联系,但基因中信息怎样传递到蛋白质上这一基因功能的关键课题在20世纪60年代至20世纪70年代才得以解决。,从1961年开始,尼伦伯格(M.W.Nirenberg)和科拉纳(H.G.Khorana)等人逐步搞清了基因以核苷酸三联体为一组编码氨基酸,并在1967年破译了全部64个遗传密码,这样把核酸密码和蛋白质合成联系起来。,沃森和克里克等人提出的“中心法则”更加明确地揭示了生命活动的基本过程。1970年特明(H.M.Temin)以在劳斯肉瘤病毒内发现逆转录酶这一成就进一步发展和完善了“中心法则”,至此,遗传信息传递的过程已较清晰地展示在人们的眼前。,