《动物遗传学-第九章+动物基因组学.ppt》由会员分享,可在线阅读,更多相关《动物遗传学-第九章+动物基因组学.ppt(73页珍藏版)》请在三一办公上搜索。
1、第九章 动物基因组学(Animal Genomics),第一节 人类基因组计划第二节 基因组学与蛋白质组学第三节 基因图谱第四节 生物信息学第五节 分子遗传标记,一、什么是人类基因组计划?,人类基因组计划(Human Genome Project,HGP)是指通过测定人类基因组DNA的3109对核苷酸的序列,探寻所有人类基因并确定他们在染色体上的位置,明确所在基因的结构及功能,解读人类的全部遗传信息,使得人类第一次在分子水平上全面认识自我。,第一节 人类基因组计划(Human Genome Project),二、为什么启动人类基因组计划?,随着研究的不断深入,人们对DNA的认识越来越深,我们有
2、必要对人类所有遗传信息进行测序,同时由于测定方法的完善,使得进行人类基因组测序成为可能。,三、人类基因组计划的研究进展,1985年,美国的杜尔贝克“癌症研究的转折点-测定人类基因组序列”。1988年,美国国会批准,政府资助成立人类基因组,由多个国家筹集基金和科研力量,积极参与这一国际性研究计划。1990年10月,国际人类基因组计划正式启动,预计用15年的时间,投资30亿美元,完成30亿对碱基的测序,并对所有基因进行绘图和排序,全球人类基因组计划有美国、英国、日本、法国、德国和中国六个国家负责,分别承担54%,33%,7%,2.2%,2.8%和1%测序任务。,多国合作小组2001年在Nature
3、上公布结果 Craig Venter博士采用鸟枪法于Science上发表结果。人基因组测序的完成可与人类登月媲美。,四、人类基因组计划结果公布,耗时 10 载,耗费 30 亿美元;基因组大小 30亿 碱基,其中中国承担 1%的测序任务。1%为外显子,99%为内含子和重复序列;表达蛋白质的基因组数量约为 3 万;约含 100百万 个SNP标记。,序列测定方法 1,全基因组鸟枪法:在一定作图信息基础上,绕过大片段连续克隆系的构建而直接将基因组分解成小片段随机测序,利用超级计算机进行组装(美国Celera公司)。,序列测定方法 2,五、人类基因组计划的意义,第一:获得人类全部基因序列将有助于人类认识
4、许多遗传疾病以及癌症等疾病的治病机理,为分子诊断、基因治疗等新方法提供理论依据。第二:破译生命密码的人类基因组计划有助于人们对基因的表达调控有更深入的了解。第三:人类基因图谱对揭示人类发展,进化的历史具有重要意义。,基因组大小的比较(1),基因组大小的比较(2),六、其它物种基因组,2000年3月,“全基因组鸟枪法”获得果蝇全基因组序列,发表在Science上。2000年10月,美英等科学家宣布绘出拟南芥基因组的完全图谱,这是人类首次破译出一种基因的序列。水稻基因组我国二十世纪的大事,第二节 基因组学及蛋白质组学,一、基因组与基因组学基因组(Genome)就是指生物体染色体、细胞器中所含的全套
5、遗传物质;一种生物全部基因的集合称为“基因组”。基因组学(Genomics)就是研究基因组结构和功能的科学。,(一)基因组学的分类,根据研究对象分为:肿瘤基因组学、植物基因组学、药物基因组学、环境基因组学等根据研究重点基因组学可以分为结构基因组学和功能基因组学。结构基因组学 功能基因组学,结构基因组学,1、概念和目的 以全部基因组测序为目标的基因结构研究,弄清基因组中全部基因的位置和结构,为基因功能的研究奠定基础。其目的是建立高分辩的遗传图谱、物理图谱、转录图谱和序列图谱。2、结构基因组研究常用方法1 脉冲场凝胶电泳:改变电场方向和调整脉冲时间,将长度不同的DNA分开。,2 毛细管电泳:可用于
6、单核苷酸改变的寻找,短串联重复序列的检查,DNA测序,基因及其表达产物的分析。3 基因芯片技术:可用于表达谱测定、突变检测、多态性分析、基因组文库作图和杂交测序等。4 全基因组随机测序(全基因组鸟枪战略):先打断DNA测序,然后作图。,功能基因组学,1、概念:利用结构基因组学提供的信息,以高通量,大规模试验方法及统计与计算机分析为特征,全面系统的分析全部基因的功能。2、基因功能从研究角度包括:生物学功能、细胞学功能、发育学功能等。,3、功能基因组学研究的方法,差异显示反转录PCR基因表达序列分析(SAGE)基因芯片或微点矩阵RNA干涉技术遗传足迹法发求遗传学蛋白质组学和生物信息学方法,生物芯片
7、,生物芯片,(二)比较基因组学,利用生物在进化上的亲缘关系,来比较它们与人类之间的相似与相异,即比较基因组学。,(三)后基因组时代(Postgenome era),*人类基因组计划完成之后,生物学被重新划分为前基因组和后基因组两部分。*科学研究已开始进入“后基因组时代”。主要是开展蛋白质组的研究。*有科学家形象地说道:即使基因测序全部完成,也只好像是一本没有姓名、只有号码的电话簿。“后基因组时代”的最终目标,是要把深奥的DNA语言变成一本基因大百科全书。,蛋白组(Proteome)蛋白质组是指“一种基因组所表达的全套蛋白质”。蛋白组学(Proteomics)一门在整体水平上研究细胞内蛋白质的组
8、成及其活动规律的新兴学科。蛋白组学与功能基因组学息息相关。,二、蛋白组与蛋白组学,1.蛋白质分离和鉴定:2.翻译后修饰:翻译后修饰是蛋白质调节功能的重要方式,因此对蛋白质翻译后修饰的研究对阐明蛋白质的功能具有重要作用。3.蛋白质功能确定:如分析酶活性和确定酶底物,细胞因子的生物分析/配基-受体结合分析。可以利用基因敲除和反义技术分析基因表达产物-蛋白质的功能。另外对蛋白质表达出来后在细胞内的定位研究也在一定程度上有助于蛋白质功能的了解。4.对人类而言,蛋白质组学的研究最终要服务于人类的健康,主要指促进分子医学的发展。如寻找药物的靶分子,很多药物本身就是蛋白质,而很多药物的靶分子也是蛋白质。药物
9、也可以干预蛋白质-蛋白质相互作用。,蛋白质组学的研究内容,蛋白质组学研究方法,1 用于蛋白质分离技术方面的如双向凝胶电泳,双向“高效”柱层析等2 用于蛋白质鉴定技术如质谱技术,凝胶图像分析,蛋白质和多肽的N端,C端测序及氨基酸组成分析3 用于蛋白质相互作用及作用方式研究的双杂交系统4 用于分析大量数据的生物工程信息学等,第三节 基因图谱(gene map),一、遗传图谱:又称连锁图谱(linkage map),,应用遗传学技术构建能显示基因以及其它序列特征在基因组上位置的图。方法是以多态的遗传标记作为界标,计算细胞减数分裂过程中遗传标记之间发生重组的频率,来确定两个遗传标记在染色体上的相对位置
10、。遗传标记之间的相对距离即图距以厘摩(cM,厘摩尔根,centi-Morgan)为单位。当两个遗传标记之间的重组值为1%时,图距即为1cM。,现代遗传图的概念是于1980年提出的,就是将单纯的表型多态性界标改变为以DNA序列的多态作为作图界标。各种遗传界标可在国际互联网上可以查阅(http:/)。当用DNA序列多态作为界标的遗传图时,一但确定该DNA界标与某一基因的具体位置,便可分离克隆这个基因。人类第一张以RFLP为界标的遗传图发表于1987年。,经典遗传图的作图最常用的是三点测交法。,遗传图的局限性,1.分辨率有限 高等真核生物子代数量有限,只有少数的减数分裂事件可供研究,连锁分析的分辨率
11、受很大限制2.精确度较低 假设交换是随机发生的,但由于交换热点的存在使某一区段的交换频率远高于其它区段,无法绘制精确的遗传图。,二、物理图谱(physical map),是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。,随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括DNA片段碱基分析、DNA信息翻译的多阶段的过程。通过测序得到基因组的序列图谱。四、基因图谱基因图谱(转录图谱)是在识别基因组所包含的蛋白质编码序列的基础上
12、绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占具2%5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。,三、序列图谱,第三节 生物信息学(Bioinformatics),背景知识,包括人、鸡、水稻等动植物以及大肠杆菌等原核生物的数十种模式生物的基因组序列的成功获得,以及更多生物基因组序列的即将获得。生物信息学是在此背景下发展起来的综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法的崭新交叉学科。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。,生
13、物信息学是以生物大分子为研究对象,以计算机为工具,运用数学和信息科学的观点、理论和方法去研究生命现象、组织和分析呈指数级增长的生物信息数据的一门科学.,什么是生物信息学?,主要研究内容,1、生物信息的收集、存储、管理与提供包括建立国际基本生物信息库和生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;生物信息的在线服务;生物信息可视化和专家系统。2、基因组序列信息的提取和分析包括基因的发现与鉴定;基因组中非编码区的信息结构分析,提出理论模型,阐明该区域的重要生物学功能;进行模式生物完整基因组的信息结构分析和比较研究;利用生物信息研究遗传密码起源、基因组结构的演化、基因组空间结构与
14、DNA折叠的关系以及基因组信息与生物进化关系等生物学的重大问题。,3、功能基因组相关信息分析包括与大规模基因表达谱分析相关的算法、软件研究,基因表达调控网络的研究;与基因组信息相关的核酸、蛋白质空间结构的预测和模拟,以及蛋白质功能预测的研究。4、生物大分子结构模拟和药物设计包括RNA(核糖核酸)的结构模拟和反义RNA的分子设计;蛋白质空间结构模拟和分子设计;具有不同功能域的复合蛋白质以及连接肽的设计;生物活性分子的电子结构计算和设计;纳米生物材料的模拟与设计;基于酶和功能蛋白质结构、细胞表面受体结构的药物设计;基于DNA结构的药物设计等。,5、生物信息分析的技术与方法研究包括发展软件、数据库工
15、具;改进现有的理论分析方法;创建一切适用于基因组信息分析的新方法、新技术。包括引入复杂系统分析技术、信息系统分析技术等;建立严格的多序列比较方法;发展与应用密码学方法以及其他算法和分析技术;发展研究基因组完整信息结构和信息网络的研究方法等;发展生物大分子空间结构模拟、电子结构模拟和药物设计的新方法与新技术。6、应用与发展研究汇集与疾病相关的人类基因信息,发展患者样品序列信息检测技术和基于序列信息选择表达载体、引物的技术,建立与动植物良种繁育相关的数据库以及与大分子设计和药物设计相关的数据库。,EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。EMBL是由EuropeanMole
16、cularBiology Laboratory于1982年创建的,目前由欧洲生物信息学研究所负责管理。数据库网址是:http:/。,基因和基因组数据库,GenBank 美国国家健康研究院NIH也于80年代初委托洛斯阿拉莫斯国家实验室建立GenBank,后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图书馆。NCBI的网址是:。,DDBJ是DNADataBaseofJapan的简称,创建于1986年,由日本国家遗传学研究所负责管理。DDBJ的网址是:http:/。1988年,EMBL、GenBank与DDBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。,蛋白质数据库,1
17、.PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。PIR和PSD的网址是:。2.SWISS-PROTSWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。SWISS-PROT的网址是:。,3.PROSITEPROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。PROSITE的网址是:。4.PDB蛋白质数据仓库(P
18、DB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。RCSB的PDB数据库网址是:。,功能数据库,1.KEGG京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。2.DIP相互作用的蛋白质数据库(DIP)收集了由实验验证的蛋白质蛋白质相互作用。/。,3.ASDB可变剪接数据库(ASDB)包括蛋白质库和核酸库两部分。ASDB的网址是:。4.TRRD转录调控区数据库(TRRD)是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。5.TRANSFACTRANSFAC数据库是关于转录因子、它们在基因组上的结合位点和与D
19、NA结合的profiles的数据库。,常用操作举例,基因组序列信息分析 序列比对和数据库搜索(BLAST)核酸与蛋白质结构和功能的预测分析(DNAMAN/DNAStar)蛋白质的三维结构预测 分子进化分析/序列进化树(DNAMAN/DNAStar)功能基因组相关信息分析,第四节 分子遗传标记(Molecular Genetic Marker),一、什么是遗传标记?,遗传标记(genetic marker):指能够用以区别生物个体或群体及其特定基因型、并能稳定遗传的物质标记。它具有两个基本特征,即可遗传性和可识别性;因此生物的任何有差异表型的基因突变型均可作为遗传标记。,二、遗传标记的类型,形态
20、学标记(morphological marker)细胞学标记(cytological marker)生化标记(biochemical marker)分子标记(molecular marker):DNA分子遗传标记,或DNA标记。,(一)形态学标记(第一代遗传标记):,形态标记指肉眼可见的或仪器测量生物的外部特征(如毛色、体型、皮肤结构、生理特征、地理分布等),即个体的外部形态特征。优点:形态标记简单、直观、经济方便;是早期使用的一种遗传标记,也是现在也常用的一种方法。,缺点:1.标记数量有限、多态性较差2.表现易受环境影响,并且有一些标记与不良性状连锁。3.形态标记的获得需要通过诱变、分离纯合
21、的过程,周期较长。4.形态标记在遗传育种中的作用有限。,(二)细胞遗传标记(第一代遗传标记),细胞学标记即细胞染色体的变异。包括染色体核型(染色体数目、结构、随体有无、着丝粒位置等)和带型(C带、N带、G带等)的变化。优点:与形态标记相比,细胞学标记的优点是能进行一些重要基因的染色体或染色体区域定位。,缺点需要花费较大的人力和较长时间来培育,难度很大某些物种对染色体变异反应敏感;变异难以用细胞学方法进行检测。真正用于遗传育种研究中的细胞学标记较少,(三)生化标记(第二代遗传标记),以同工酶和贮藏蛋白的电泳谱带作为特征的遗传标记。反应的是基因表达产物蛋白质水平上的差异。可用于鉴别不同物种或品种。
22、优点:与形态标记、细胞标记相比,经济方便。表现近中性,对生物经济性状一般没有大的不良影响;直接反映了基因产物差异,受环境影响较小。缺点:可用标记数量少有些酶的染色方法和电泳技术有一定难度。不能直接反应基因的情况,(四)分子标记(第三代遗传标记),分子标记(又叫DNA分子标记,DNA标记)指能个体间遗传物质内核苷酸序列变异为基础的遗传标记,是DNA水平遗传多态性的直接反应。优点:直接以DNA的形式表现,在生物体的各个组织、各个发育阶段均可检测到,不受季节、环境限制,不存在表达与否等问题数量极多,遍布整个基因组,可检测座位几乎无限多态性高,自然界存在许多等位变异,无须人为创造表现为中性,不影响目标
23、性状的表达;许多标记表现为共显性的特点,能区别纯合体和杂合体。,分子标记的三个阶段,随着分子生物学技术发展和研究水平的深入,分子标记的发展经历了三个阶段,也称为三代DNA分子标记。第一代分子标记:RFLP;第二代分子标记:微卫星(ms);第三代分子标记:SNP;,分子标记的种类和原理,1.RFLP,restriction fragment length polymotphism:限制性片段长度多态性原理:限制性内切酶能识别和切割特异核苷酸序列。由于DNA某一位点的变异有可能引起该位点特异性的酶切位点的改变,当用限制性内切酶处理不能生物个体的DNA时,致使酶切片段的长度发生变化,个体间出现限制性
24、片段长度的差异。DNA序列能或不能被某一酶酶切,实际上相当于一对等位基因的差异。,基本过程:取得DNA样本酶切电泳转移至硝酸纤维膜上DNA探针杂交放射自显影,Southern杂交过程,RFLP检测,优点:遍布于整个基因组,数量几乎是无限的无表型效应,不受发育阶段及器官特异性限制共显性,可区分纯合子和杂合子结果稳定、可靠,缺点:检测技术繁杂,成本较高,难以用于大规模的育种实践中分析对样品纯度要求较高,样品需要量大RFLP多态信息含量低多态性水平过分依赖于限制性内切酶的种类和量,2.可变串联重复多态性(varible number of tandem repeats,VNTR),小卫星DNA(mi
25、nisatellite DNA),第一代指纹技术(DNA fingeiprinting)原理:重复DNA小序列,10-70nt(核苷酸),拷贝10-1000,主要存在于染色体靠近端粒处。多态性的原因由于重复单位间不等交换,个体间存在串联数目的差异拷贝数多态性个体间在序列长度上差异长度多态性,人群中的分布表现高度的个体特异性。,标记特点,与RFLP大致相同,但对限制性内切酶和探针有特殊的要求。限制性内切酶的切点必须不在重复序列中,以保证小卫星序列的完整性。内切酶在基因组的其他部位有较多的酶切位点,通过电泳检测多态性。可充分显示长度重复序列片段的多态性。分子杂交所用DNA探针核苷酸序列必须是小卫星
26、序列通过分子杂交和放射自显影后,就可一次性检测到众多小微卫星位点,得到个体特异性的DNA指纹图谱。,优点:种类多,分布广,有高度多态性在人群中的分布表现高度的特异性缺点:多态性分布集中,合成探针困难,应用并不广泛。实验操作繁琐,检测时间长,成本高。无法确定等位基因对任何一条带无法确定是由纯合子还是杂合子产生。无法确定基因座间的独立性对检测要求高,微卫星(microsatellite DNA,MS)又称SSR,STR,SSLP,基本原理:MS是一类由几个(多为2-6个)碱基组成的基序串联重复而成的DNA序列,其长度一般较短,广泛分布于基因组的不同位置,如(CA)n、(AT)n、(GGC)n等重复
27、。不同遗传材料重复次数的可变性,导致了SSR长度的高度变异性,这一变异性正是SSR标记产生的基础。,MS标记的特点有:数量丰富,广泛分布于整个基因组;具有较多的等位性变异;共显性标记,可鉴别出杂合子和纯合子实验重复性好,结果可靠;由于创建新的标记时需知道重复序列两端的序列信息,因此其开发有一定困难,费用也较高,一个家系的微卫星PCR检测结果,3.单核苷酸多态性标记(single nucleotide polymorphism,SNP),SNP与RFLP、MS等标记不同之处在于不以“长度”差别为检测手段,而是直接以序列的变异作为标记。基因组DNA某一特定的核苷酸位置上,可能发生单个碱基的变化,如转换、颠换等,使得群体中基因组的某些位点上存在差异。SNP就是指基因组内特定的核苷酸位置上存在两种以上不同的核苷酸,其中最少一种在群体中的出现频率不少于1%(低于1%则视为突变)。,SNP是出现频率最高的标记,人类基因组中平均每1000 bp中就有1个SNP,总数可达300万个。位于基因表达序列内的SNP可能会影响蛋白质的结构和表达水平,对分析基因与性状的关系有重要意义。SNP是单碱基突变,任何用于单碱基突变的技术都可用于SNP检测,如RFLP、DNA序列分析、单链构象多态性(SSCP)等。最先进的是微数列矩阵DNA芯片(DNA chip)技术。,