《研究生专题-关联分析.ppt》由会员分享,可在线阅读,更多相关《研究生专题-关联分析.ppt(68页珍藏版)》请在三一办公上搜索。
1、植物数量性状的关联定位,刘克德作物遗传改良国家重点实验室Room401电话:87281797,2023/8/21,2,主要内容,一.数量性状的分析方法二.关联分析的原理三.关联分析的基本方法四.关联分析的基本步骤五.影响关联分析的因素及解决策略六.关联分析相关的软件,2023/8/21,3,一、利用遗传连锁图进行QTL定位,一.数量性状的分析方法,二、用关联分析法进行QTL定位,连锁分析法,即根据减数分裂时染色体发生交换和重组的原理,通过研究遗传标记在家系中与目标性状连锁与否及连锁的程度,确定标记与目标基因的遗传距离。,关联分析法以连锁不平衡为基础,鉴定某一群体内性状与遗传标记或候选基因间的关
2、系。,2023/8/21,4,以目标性状存在较大差异的两个亲本创建F2、RIL、DH等分离群体田间种植分离群体,考察目标性状,并构建分子标记连锁图利用适当的QTL分析软件对控制目标性状的基因进行全基因组QTL扫描。,利用遗传连锁图进行QTL定位,2023/8/21,5,用遗传分析法进行QTL定位的缺点,构建分离群体时,由于杂交和自交次数的限制,发生的重组次数有限,QTL作图的精度一般在10-30cM。如果控制某性状的位点在两个亲本中存在相同的等位基因,在分离群体中该位点控制的性状没有差异的,此时常规QTL分析的方法不能鉴定出该QTL。,2023/8/21,6,关联分析是一种以连锁不平衡为基础,
3、鉴定某一群体内目标性状与遗传标记或候选基因关系的分析方法。又称连锁不平衡作图(linkage disequilibrium mapping)或关联作图(association mapping),是传统QTL分析方法的一种替代方法。随着大量SNP 标记的开发以及生物信息学的迅猛发展,用关联分析方发掘植物数量性状基因已成为植物基因组学研究的热点之一。,关联分析法定位QTL,2023/8/21,7,Association Tests,Evaluate whether nucleotide polymorphisms associate with phenotypeNatural population
4、sExploit extensive recombination,2023/8/21,8,一般以现有的自然群体为材料(如地方品种、育成品种、种质资源等),无需构建专门的作图群体,花费的时间少。特别适合于多年生木本植物如果树、林木等异花授粉植物。可以同时检测同一座位的多个等位基因,便于发掘优良的等位基因。定位的精度高,可达到单基因的水平。,关联分析的优点,2023/8/21,9,连锁(linkage):当同一染色体上的某些位点由于相距很近,在减数分裂过程中这些位点之间发生重组的几率较小,而共同从亲代传递到子代的现象。连锁不平衡(LD):就是同一染色体上不同位点上等位基因的非随机组合(non-ra
5、ndom association)。单倍型:指一条染色体上紧密连锁的分子标记位点的等位基因倾向以一个单元传递给后代。,1、连锁不平衡的定义,二 关联分析的原理,2023/8/21,10,人类HLA基因的遗传:人体细胞为二倍体型,两个单倍型分别来自父亲和母亲,共同组成个体的基因型(genotype)。HLA是人类白细胞抗原(Human Leucocyte Antigen),由于一条染色体上HLA各位点的距离非常近,很少发生同源染色体之间的交换,因此后代的HLA以单倍型为单位将遗传信息传给子代。,父亲,母亲,后代,很少出现的重组类型,单倍型,品种1,品种2,品种5,品种3,品种4,品种6,品种7,
6、品种10,品种8,品种9,2023/8/21,11,2023/8/21,12,2.如何判断位点之间存在连锁不平衡,若连锁的两个基因座位上的等位基因分别为A、a 和B、b,它们频率分别为(A)、(a)、(B)和(b);组成的单倍型有AB、Ab、aB 和ab,这些单倍型的频率分别为(AB)、(Ab)、(aB)和(ab)。若(AB)(A)(B),则表明A、B位点间存在LD。即当位于某一座位的特定等位基因与同一条染色体另一座位的某一等位基因同时出现的几率大于群体中因两个等位基因自由组合而同时出现的几率时,表明这两个座位间存在LD。,A,B,A,b,a,B,a,b,40个品种,45个品种,3个品种,2个
7、品种,(A)=0.48(a)=0.52,(B)=0.47(b)=0.53,(AB)=0.44(A)(B)=0.226(AB)(A)(B),位点A、B之间存在连锁不平衡,2023/8/21,13,A,B,A,b,a,B,a,b,20个品种,22个品种,18个品种,22个品种,(A)=0.44(a)=0.56,(B)=0.54(b)=0.46,(AB)=0.243(A)(B)=0.238(AB)(A)(B),位点A、B之间不存在连锁不平衡,2023/8/21,14,2023/8/21,15,3.连锁不平衡度量方法,D(difference)表示某一单倍型的实际频率与期望频率的差值。,当D=0 时,
8、两基因座位处于连锁平衡状态;当D 0 时,两基因座位处于连锁不平衡状态;当D=1 时,两基因座位处于完全连锁不平衡状态。,通常用D来判断两个位点间是否存在连锁不平衡,2023/8/21,16,3.1 连锁不平衡度量,也可以用r 2 度量LD。,对于只有两个等位基因的标记如 SNP 和 AFLP,通常用 D 和r 2 来估计两个座位之间的 LD 水平,二者都是以D 为基础的。,连锁不平衡系数D,2023/8/21,17,r2 和 D 取值范围:0(连锁平衡)1(连锁不平衡)。D 和r2反映了LD的不同方面,在不同条件下表现不同。R2反映了重组史和突变史,而 D 仅反映重组史。D 准确地估测重组差
9、异,但样本较小时发现4 种等位基因低频率组合的可能性大大减小,因此 D 不适宜小样本研究中的应用。r2可以提供标记是否能与 QTL 相关的信息,因此 LD作图中通常采用 r2来表示群体的 LD水平。,2023/8/21,18,越大,LD 衰减越快。不连锁的位点之间LD每代衰减50。如果两位点紧密连锁,经过很多世代随机交配后,DtD0e-n,LD随自由交配世代增加而衰减,群体内随机交配过程中,重组导致配子和单倍型频率趋向平衡值。在没有突变、选择和其它随机因素影响,在连续世代间连锁不平衡系数的关系:,D1=D0(1-);D2=D1(1-)=D0(1-)2;Dn=D0(1-)n,公式Dn=D0(1-
10、)n 就是关联分析的基础理论,是两位点间的重组值;n 表示随机交配的世代数目;D0 是起始代的连锁不平衡系数.,LD随自由交配世代增加而衰减,群体内随机交配过程中,重组导致配子和单倍型频率趋向平衡值。是两位点间的重组值;n 表示随机交配的世代数目;D0 是起始代的连锁不平衡系数.越大,LD 衰减越快。不连锁的位点之间LD每代衰减50。在没有突变、选择和其它随机因素影响,在连续世代间连锁不平衡系数的关系:,D1=D0(1-);D2=D1(1-)=D0(1-)2;Dn=D0(1-)n,公式Dn=D0(1-)n 就是关联分析的基础理论,例如,在最初时配子AB和ab的概率都为0.5,D0=1,处于完全
11、连锁不平衡状态。如果=0.01,经过10代后,D10=0.2261如果=0.1,经过10代后,D10=0.0872如果=0.25,经过10代后,D10=0.0141如果=0.5,经过10代后,D10=0.0002,当n趋向无穷时,Dn趋向0,但是Dn变化速度与有很大关系。当很小时,Dn趋近0的速度很慢;当接近0.5时,Dn收敛趋近的速度很快。,LD衰减与重组率的关系,2023/8/21,22,4.LD显著性的统计检验,位点上只存在两个等位基因时,LD显著性可以用2 2列联表进行2测验,P5%表明两位点的等位基因不是自由组合的,存在关联。也可以用F测验存在多个等位基因时,LD的统计显著性(P-v
12、alue)用多因子置换分析计算(multifactorial permutation analysis)(Weir,1996).必须注意:两个不连锁的位点间也可能存在LD,这种情况可能是由群体结构导致的。进行关联分析前,必须先进行群体结构分析。,2023/8/21,23,5 连锁不平衡的表示方法描述LD 在染色体上的分布有两种表示方法:LD衰减散点图:可以观测LD 随遗传或物理距离的下降速率。LD 配对检测的矩阵图:可以直接观测同一染色体的基因座位或基因的多态性位点之间LD 的线性排列。描述LD在染色体上的衰减距离一般为D=0.5或r2=0.1时在染色体上的遗传距离。,2023/8/21,24
13、,2023/8/21,25,2023/8/21,26,LD 是由突变产生的多态性形成的,因重组的发生而被打破。由此可见,突变和重组是影响LD 的重要因素。其他生物因素和历史因素,例如物种交配体系、染色体位置、群体大小、基因或染色体片段所受的选择强度、遗传漂变等也影响LD 的程度和分布。,6.LD的衰减及影响LD的因素,2023/8/21,27,交配体系是影响LD 的最重要因素之一:自交物种每次减数分裂时重组率很高,但由于自交趋向纯合,这样有效的重组率就会很低,最终导致自交物种的LD衰减距离远远大于异交物种。拟南芥、水稻和大麦是自交物种,LD 衰减都很慢异花授粉植物如玉米,其LD 衰减得较快。无
14、性繁殖物种如甘蔗,它们的LD 衰减更慢。,2023/8/21,28,2023/8/21,29,异花授粉植物的不同群体LD衰减也存在很大差异;玉米农家种为1 kb,具有广泛变异的玉米自交系大约为 1.5 kb,而优良玉米自交系则达 100kb。,不同玉米种质资源的LD 衰减距离,2023/8/21,30,id1、tb1、sh1、d3 等四个基因在来自全球玉米自交系群体中的LD衰减距离大约为1.5 kb,同一群体中的 d8 和su1 两个基因的LD 衰减距离较大,尤其是su1基因在 10 kb 内几乎不衰减,这可能是在玉米的驯化过程中,近期对 su1 基因进行了人工选择。玉米八氢番茄红素合成酶基因
15、 Y1 的 LD衰减距离为 2 kb,而其假基因 PSY2 在相同玉米群体中的LD 衰减距离却只有 250 bp。,不同基因的LD衰减距离也不同。,2023/8/21,31,不同玉米基因LD衰减距离不同,r2,2023/8/21,32,B.瓶颈效应、奠基者效应和遗传漂变增加LD,瓶颈效应使群体大小极端减少,导致变异减少,LD增加.大多数作物在顺化过程中经历了至少一次瓶颈。育种家的选择导致瓶颈效应,如从很少的几个亲本材料中引入一个新抗病基因或农艺性状。奠基者效应是一种特例,当一个物种在一个新环境生存下来,最开始的奠基者是非常小的一个群体 仅仅是几个种子或几个家庭.遗传漂变会增加LD。,2023/
16、8/21,33,The Bottom Line for Diversity,Unselected Gene,Plant Breeding,Domestication,In which category do the genes responsible for YOUR trait belong?,2-4%(1200)of maize genes have undergone selection,Selection Screens,Genes that contribute to agronomic traits have been targets of selection.,2023/8/21
17、,34,C.Migration and population admixture,如果两个等位基因频率不同的群体混合,就会产生LD。群体混合和迁移也会产生LD.通常,迁移和混合产生群体结构,进行LD分析出现假关联问题。,2023/8/21,35,D.Selection,当种群受到平衡选择(balancing selection)的作用时,群体中会存在两个或几个频率较高的等位基因。当某个等位基因受到强烈的正选择作用(positive selection)时,其附近与之紧密连锁的位点上的等位基因频率也随着增加,这样的现象被称为搭载效应(hitchhiking)或选择扫荡(selective swe
18、ep)。,2023/8/21,36,2023/8/21,37,2023/8/21,39,Copyright 2007 by the Genetics Society of America,Olsen,K.M.et al.Genetics 2006;173:975-983,Nucleotide variation across the O.sativa Wx genomic region on chromosome 6,2023/8/21,40,新产生的突变与其它位点之间存在LD:the new mutation only occurs on a single haplotype.在随后的世代,
19、重组产生新的单倍型,引起LD衰减;紧密连锁的标记之间LD衰减需要很多世代.在群体中,一个突变要经过很多交配世代后才能达到我们能检测的等位基因频率,所以我们通常观察到的多态性都是古老的变异.,E.Mutation,2023/8/21,41,关联分析有两种方法:全基因组分析法:基于标记水平,通过对引起表型变异的突变位点进行全基因组扫描来实现,一般不涉及候选基因的预测。候选基因法:基于序列水平,通过统计分析在基因水平上将那些对目标性状有正向贡献的等位基因从种质资源中挖掘出来,一般涉及候选基因的功能预测。,三 关联分析的基本方法,两种方法如何选择?,如果目标群体LD衰减很慢,即在很长的物理距离内存在L
20、D,那么此群体适宜采用基于全基因组扫描的策略;相反,如果目标群体的LD衰减很快,即在很短的物理距离内迅速衰退,则此群体适宜采用基于候选基因的高分辨率LD作图策略。已完成全基因组测序的物种适合采用全基因组关联分析。一般可以用SNP芯片或全基因组重测序方法进行高通量SNP基因型分析;没有完成基因组测序的物种,可以采用候选基因关联分析方法。也可以分两步走:即首先利用LD衰减慢的骨干亲本进行全基因组扫描以确定候选基因区域,然后再利用地方品种和野生种质进行高分辨率的LD精细作图以发掘候选基因,并进一步确定基因内关键多态性位点。,2023/8/21,43,候选基因的选择,候选基因的选择需要利用多学科如突变
21、体分析、生化途径分析、病理学、基因表达谱和比较基因组等信息,根据这些信息列出一个候选基因清单。或者在以前定位的QTL区段的基因作候选基因每个候选基因的序列必须是已知的,可用于设计引物。,目标性状:玉米籽粒成分和淀粉特性考察的性状:蛋白、油分和淀粉含量、直链淀粉含量、淀粉胶稠度、糊化温度候选基因:amylose extender1(ae1),brittle endosperm2(bt2),shrunken1(sh1),sh2,sugary1,waxy1结果:bt2,sh1和sh2与籽粒成分如蛋白、油分和淀粉含量显著关联ae1和sh2与糊化温度显著关联ae1和sh1与直链淀粉含量关联,全基因组关联
22、分析,必须要有高通量、低成本的SNP标记检测技术:SNP芯片Next-generation sequencingdHPLCRe-sequencing(traditional and novel sequencing techniques)SNaPshotSNplex,研究对象:包括7种常见病:躁郁症、冠状动脉粥样硬化、小肠克罗恩氏病、类风湿关节炎、I型糖尿病、II型糖尿病和高血压,SNP检测:Affymetrix GeneChip 500K Mapping Array Set群体:每种病人2000人对照:正常人 3000人分析方法:病例-对照比较法,结果(显著度P 510-7)躁郁症检测到1个
23、易发病主效位点冠状动脉粥样硬化检测到1个易发病主效位点小肠克罗恩氏病检测到9个易发病主效位点类风湿关节炎检测到3个易发病主效位点I型糖尿病检测到7个易发病主效位点II型糖尿病检测到3个易发病主效位点高血压没有检测到效应特别大的位点,所有这些位点都是以前的研究中报道的,证明全基因组关联分析定位复杂数量性状是可行的,躁郁症,冠状动脉粥样硬化1个,小肠克罗恩氏病9个,高血压0个,类风湿关节炎3个,I型糖尿病7个,II型糖尿病3个,2023/8/21,49,候选基因关联分析虽然获得的信息量较少,但它可以减少基因型检测的数量,更重要的是它可以避免检测覆盖全基因组的位点时所涉及到的统计问题。可能遗漏部分Q
24、TL。全基因组关联分析信息量大,可以检测到所有的QTL。,全基因组与候选基因关联分析比较,Genome-wide association studies of 14 agronomic traits in rice landraces,A total of 517 landraces were selected and comprehensively phenotyped All sequences used for SNP calling comprised 508-fold coverage of the rice genome.A total of 3,625,200 nonredund
25、ant SNPs were identified,resulting in an average of 9.32 SNPs per kb,8/21/2023,LD decay rate across the genome,indica,japinica,8/21/2023,Proportion of various LD decay rate in the genome,8/21/2023,Genome wide association analysis of heading date,Regions of the genome showing association signals arou
26、nd known genes controlling heading date,Regions of the genome showing strong association signals near previously identified genes,gelatinization temperature,Grain length,Amylose content,2023/8/21,56,四 关联分析的基本步骤,5 basic steps required for association studies:germplasm choice;estimation of population
27、structure;trait evaluation;Genotyping of the population statistical analysis.,2023/8/21,57,2023/8/21,58,种质资源选择是关联分析成功的关键。种质资源应包括尽可能多的表型变异,代表一个作物的育种资源谱。根据遗传和表型调查数据鉴定出一套遗传多样性丰富的种质资源,使其包括尽可能多的等位基因。有些作物中,前期的研究已经建立核心种质,并获得了相应的遗传和表型资料,可直接用于关联分析。自然存在的异花授粉树木是关联分析最好的群体。,A.Choice of germplasm,2023/8/21,59,B.E
28、stimation of population structure,群体结构的存在可导致出现假阳性,必须通过统计分析排除.用大量独立的分子标记(通常为50-150个,根据基因组大小确定)对选用群体群体结构进行分析,判断是否存在群体结构.如果存在群体结构,需要对群体数据进行校正。,2023/8/21,60,C.Choice of target trait(s),选择的性状必须是能准确测量、可遗传的.必须设置多年或多点重复、随机区组设计,调查10-15个单株。,2023/8/21,61,Forward Genetics,Trait,Reverse Genetics,Trait,Candidate
29、gene,QTL,Candidate Polymorpism,D.Choice of candidate genes,2023/8/21,62,Association Analysis,Identification of More Favorable Alleles,Enhanced Marker Assisted Breeding,Choice of candidate genes,2023/8/21,63,影响关联分析的因素LD 是关联分析的基础和前提,决定关联分析的精度和所选用标记的数量、密度,以及试验方案有关。在全基因组扫描时,需要大量分子标记,据估计:人类基因组进行全基因组的LD分析
30、大约需要70 000个标记,拟南芥需要6 000个标记,玉米农家种则需要750 000个标记,优良玉米自交系只需要50 000个标记。,五 影响关联分析的因素及解决策略,2023/8/21,64,群体结构指的是一个群体内存在亚群的情况。亚群的混合使整个群体的LD 强度增强,可能导致不连锁的基因多态性位点与性状的关联,从而得出假阳性结果。假关联:位于不同染色体上的标记与性状存在关联。,五 影响关联分析的因素及解决策略,2023/8/21,65,解决策略,选择LD 程度高的群体进行全基因组关联分析,可减少使用的标记数量。连锁分析和关联分析相结合对特定位点进行研究。根据连锁分析的结果,选择效应值比较大的位点,利用更多的标记进行LD 分析,对目标位点进行精细定位,然后根据已知基因组的信息选择适当的候选基因进行关联分析。用实验设计和多种统计方法消除群体结构引起的假阳性。,2023/8/21,66,六 关联分析相关的软件,2023/8/21,67,2023/8/21,68,