基于家系数据的连锁不平衡的统计方法研究与应用.doc

资源描述

《基于家系数据的连锁不平衡的统计方法研究与应用.doc》由会员分享，可在线阅读，更多相关《基于家系数据的连锁不平衡的统计方法研究与应用.doc（38页珍藏版）》请在三一办公上搜索。

1、基于家系数据的连锁不平衡的统计方法研究与应用中山大学博士学位论文论文题目:基于家系数据的连锁不平衡的统计方法研究与应用专业:流行病与卫生统计博士生:李彩霞导师:方积乾教授论文答辩委员会:答辩委员会成员签名主席:委员: 避妒7q小本课题研究受国家自然科学基金30170523资助基于家系数据的连锁不平衡的统计方法研究与应用论文题目: 基于家系数据的连锁不平衡的统计方法研究与应用专业: 流行病与卫生统计博士生: 李彩霞指导教师: 方积乾教授摘要统计分析已经广泛应用在遗传学的众多领域,尤其在复杂疾病的基因定位中,包括连锁定位,连锁不平衡定位。本学位论文讨论了连锁不平衡定位中盼些问题,提出了

2、解决这些问题的基于家系数据的连锁不平衡的统计方法,并把这些方法应用到IgA肾病与原发性高血压ESH的定位中。本学位论文分为五章。第1章核心家系的紧密连锁位点的单体型频率估计。在对单体型进行重构或进行连锁不平衡分析时,往往首先要估计单体型频率。本文针对家系数据,提出了紧密连锁位点的单体型频率估计方法。利用子代信息减少亲代单体型的不确定性,构建家系数据的似然函数,把家系中的个体潜在的单体型看成缺失数据,采用EM迭代算法,给出家系数据单体型频率的极大似然估计。并通过模拟考察误差。其结果表明,家系数据紧密连锁位点的单体型频率估计可通过简单的递归迭代进行,后一步的单体型的频率估计即为前一步的加权单体型

3、频率。估计误差由两部分组成,一部分为样本频率与总体频率的差别,另一部分为估计频率与样本频率的差别。第2章亲代传递非独立对传递不平衡的对称性检验与边缘齐性检验的影响。对称性检验与边缘齐性检验是传递不平衡检验nT的非参数检验方法。当TDT的零假设成立时,同一家系中父亲的传递与母亲的传递并不一定相互独立。为了探讨父母传递的独立性条件对检验统计量的影响,把父亲的传递与母亲的传递联合进行考虑。利用联合传递的概率分布规律推导检验统计量的分布。我们发现,亲代传递的不独立性并不影响检验统计量在零假设下的统计分布,但影基于象系数据的连锁小平衡柏统计方往研究与应用响它们的检验效能。因此,即使父母传递不独立喇,列称

4、性检验与边缘齐性检验仍然适合检验连锁与连锁不平衡。钊对紧密连锁位点,基于核心家系数据的单体型频率估计,我们重构检验传递不平衡的传递/呆传递的交叉分类表,从m进?步给出单体型传递不平衡的对称性检验与边缘齐性检验。第3章紧密连锁位点的单体型传递的条件logistic回归模型。利用紧密连锁位点,我们探讨了有协变量情形的单体型传递不平衡检验,把协变量的作用引入基因型与单体型的条件相对风险,在相对风险乘积模型下,针对亲代传递概率,j单体型效应以及协变量效应的关系,建立了匹配的受累子代病例与虚拟子代对照的加权条件logistic回归方程。连锁相存在不确定性时,采用EM算法给出了参数的极大似然估计,并给出极

5、大似然估计的方差一协方差用于检测参数估计的标准误。假设检验采用似然比检验方法。第4章患病一未患病同胞的关联分析回归模型。当核心家系中无父母信息时,经典的TDT已不再适用。此时,我们把家系中的受累同胞作为病例,未受累同胞作为匹配的对照,建立非均衡的条件logistic回归模型。更进一步,当受累同胞的发病时问已知时,以家系作为层,建立分层的Cox回归模型。第5章基于核心家系的传递不平衡检验的模拟研究。在这里,我们讨论了传递不平衡检验中如何产生核心家系模拟样本。并在给定样本含量,外显率,连锁不平衡系数,重组率等指标的28个模拟条件下对检验功效进行模拟。在每个模拟条件下,都产生了500份随机模拟样本,

6、用以估计检验功效。对每一份样本,采用条件logistic回归模型,对称性检验与边缘齐性检验方法检验传递不平衡。结果表明,传递不平衡的检验功效与疾病相对风险,样本含量,连锁不平衡程度,连锁程度等因素有关。条件logistic回归模型的功效与边缘齐性检验的功效相近,而对称性检验较不灵敏。当存在人群分层等协变量的影响时,条件logistic同归模型比其他两个方法优越。关键词:连锁,连锁不平衡,传递不平衡,核心家系IJ茎王塞墨塑塑堕堡堂至!堂盟蒸盐互堡堑塑皇堡旦Title:StatisticalMe hodsforLinkageDisequilibriumwithFamilyDataandTheirA

7、pplicationsMajor:EpidemiologyandMedicalStatisticsName:LiCa xiaSupervisor:Prof.FangJiqianABSTRACTStatisticalanalysesareusedxtensivelynmanyfieldsofgenetics,especiallyingenemapping,includinglinkagemappinga dlinkagedisequilibriummapping,forcomplexdiseases.Inthisdissertation,wediscusssomeissuesinlinkaged

8、isequilibriummapping,andproposesomestafisficalmethodsforlinkagedisequilibriummappingwithfamilydatatosolvetheproblems.ThesemethodshavebeenappliedforesearchprojectsonImmunoglobulinAOgA ephropathyandessentialhypertensionESH.Themarefivechapt rsinthisdissertation.ChapterI Hapiotypefrequencyestimationfort

9、ightlylinkedlociusingnuclearf milydata.Haplotypefrequenciesmustbeestimatedfirstwhenhaplotypesarereconstructedorlinkagedisequilibriumistasted.BaRdonnuclearf milydata,haplotypefrequencystimationfortightlylinkedlociwasgiven.Theinformationfromoffspringwasusedtoreducetheuncertaintyofp盯emshaplotype?Thelik

10、elihoodfunctionwasgivenforfamilydata.Theunderlyinghaplotypeswereregardedasmissingdata,andthentheMLEimumlikelihoodestimateofhehaplotypefrequenciesforthefamilydatavianEMalgorithmwasgiven.Theerrorobservedthroughsimulation.Theresultsshowedhaplotypefrequencyfortightlylinkedlocifromfamilydatacouldbeestima

11、tedusingasimpleiterativeprocedure.Thesuccessivehaplotypefrequencyestimationwastheweightedhaplotypefrequencyoftheprecedingstep.Theerrorwasdividedintotwoparts,oneistheIlI基r家系数据的连锁不平衡的统计方法研究与应用differencebetweensamplef quencyandpopulationfrequency,theotheristhedifterencebetweenstimatedfr quencya dsample

12、fr quency.Chapter2 Impactofdependencebetweenparentstransmissiononsymmetrytestandmarginalhomogeneitytestfortransmissiondisequilibrium.rhesymmetrytestandmarginalhomogeneitytestbasedoncontingencytablearelion?parametricm hodsforTDTtransmissiondisequilibriumtest.Thereayexistsdependencebetweenpaternaltran

13、smissionandmaternallransmissionevenwhennullhypothesisinTDTistrue.Toinvestigatetheimpactofsuchdependence,thedistributionsoftesttatisticsba edonthejointdistributionoftheparentstransmissionpaRemwerecomputedrespectively.Wefoundthathedependencebetweentheparentstransmissionshadnoanyeffectonthedistribution

14、ofsymmetrystatisticormarginalhomogeneitystatisticunderthenullhypothesis.Butthedependencehadeffectonthetestspower.Weconcludemathesymmetrytestorhomogeneitytestarealsosuitabletod tectlinkagendlinkagedisequilibriumevenwhenthereisdependencebetweentheparentstransmissions.Basedonhaplotypefrequencystimation

15、w thnuclearf milydata,theransmission/non?transmissioncross-tableinTDTwasreconstructedfortightlylinkedloci.Andthensymmetrytestandhomogeneitytestweregiventodetecthaplotyperansmissiondi qulibrium.Chapter3 Conditionallogisticregressionmodelforhaplotypetransmissionsoft ghtlylinkedloci.Haplotypetransmissi

16、onoft ghtlylinkedlociwasdiscussedincorporatingwi hcovariates.Undermultiplicativeassumption,aweightedconditionall gisticregressionformatchedpair,affectedoffspringcaseandpseudo?offspringcontr01,wasbuiltfortherelationshipbetweentheparentaltransmissionprobabilityandtheffectsofhaplotypeandcovariates.EMal

17、gorithmwasusedtocalculatetheMLEimized?likelihood?estimationofparam terswhenthereareuncertaintieslinkagephase.Thevariance?covarianceoftheMLEwasgiventodetectthestandarderror.Likelihood-ratiotestswe eusedtotestheeffects.Chapter4 Regressionmodelsforassociations udybetweenaffectedanunaffectedsiblings.Whe

18、ntheinformationofparentsarenotavailableinthnuclearTV基于家系数据的连锁不平衡的统训方法研究与应用family,classicalTDTarenolongersuitable.Insuchacase,usingaffectedsiblingsascases,andUnaffectedsiblingsasmatchedcontrols,anunbalancedconditionalregressionmodelwasproposed.Furthermore,astratifiedCoxmodelwasgivenwhentheonsettimeof

19、thecaseswereknowninwhicht efamiliesorsibships,wereregardedasstrata,Chapter5 SimulationstudyforTDTwithnuclearf milydata.Wehavediscussedhowtogeneratesimulatednuclearf milydataforTDT.Under28differentsimulatedcon itionswheretheindexes,includingsamplesize,penetrancerate,linkagedisequilibriumcoefficient,r

20、ecombinationrate,etc,weregiven,thepowerswereestimatedbysimulation.Undereachsimulatedcondition,500replicatedsamplesw regeneratedtoassesstatisticalpower.Foreacheplicatedsample,conditionallogisticregressionmodel,symmetrytestandmarginalhomogeneitytestwereappliedr spectivelytod tecttransmissiondisequilib

21、rium.Theesultsshowedthattherelativeriskofthedisease,sampleize,linkagedisequilibriumandl nkagedegree,etc,hadeffectonthepower.Thepowerofconditionall gisticregressionmodelWaSclosetothatofmarginalhomogeneitytest,whilethesymmetrytestwasnotsensitive.Theconditionall gisticregressionmodelshowedpowersuperior

22、ityovertheothertwotestswhentherew restratifiedfactorscovariates.KeyWords:Linkage,Linkagedisequilibrium,Transmissiondisequilibrium,NuclearfamilyV基于家系数据的连锁不平衡的统计方法研究与应用基于家系数据的连锁不平衡的统计方法研究与应用引言分子遗传学的最新发展给人类复杂遗传疾病的遗传研究提供了机遇。复杂遗传疾病一般由多种遗传与环境因素以及它们的相互作用确定,在人群中比较常见,如糖尿病、肥胖症、骨质疏松症、高血压、心血管疾病等。确定可能影响此类疾病的基因位置

23、对病因研究极为重要。复杂性状疾病具有以下特点:遗传模式尚未确定、群体遗传异质性强、外显率低、多基因参与、单基因作用微弱,同时还受一组环境因素的作用刘天承,2003;赵进英,1999。基因定位的任务是参照某些已明确位置的遗传标记来推测某种表型的易感基因在染色体上的位置,基因定位的统计分析方法效能直接影响到定位和克隆研究的进程。目前人类疾病基因定位的理论策略主要包括以下两种分析方法:基于连锁1inkage的分析方法、基于关联association或连锁不平衡1inkagedisequilibrium,LD的分析方法TerwiltigerJD,2000,Elston,2000;JohnsonGL,2

24、000。前者有参数连锁分析LODS法、非参数连锁分析包括受累同胞对ASP、受累亲属对APM法;后者有基于人群的关联分析与家系的传递不平衡检验transmissiondisequilibriumtests,TDT等基于LD的分析方法。连锁分析考察重组,因此,考察连锁必须有家庭数据,而由等位基因关联性或连锁不平衡性可以由一般的群体数据观察到,有的连锁不平衡现象可能是因为群体混杂造成的,但过大的连锁不平衡通常被视为紧密连锁的证据。传统的连锁分析的结果通常是将基因定位在较大例如30cM的基因组区域,而连锁不平衡被视为一种精细定位的方法罗泽伟,1999。Ott1999指出,对于那些远系繁殖的大群体,连锁

25、不平衡通常只能延伸到0,3cM。基于群体的关联分析采用传统的病例一对照研究,为了克服不同分层人群混杂的影响,相应产生了基于家庭的研究方法。基于家系数据的连锁不平衡的统计方法研究与应用传递不平衡检验transmissiondi equilibriumtest,TDT是基于家系的连锁不平衡定位分析方法。假定在一个疾病基因座上有两个等位基因D,和,在标记基因座上有两个等位基因M1和M2。假设确定了”个患病的子女,他们分别来自t/个不同的家庭。在这n个家庭中,父母将有4H个标记基因,其中2”个传递给了下一代,另外2个没有传递。若标记基因座在疾病基因座的附近,且疾病等位基因源于最近的一次基因突变,那么,

26、与疾病等位基因相关联的标记等位基因将以更高的频率出现在患病的个体中相对于正常个体而言,这个关联的标记等位基因相对于另一个标记等位基因的不平衡传递表明了标记基因座和疾病基因座之间存在连锁与关联。因此,它的统计表格通常整理为如下格式:表1月个患病后代的勘个父母传递和没有传递标记等位基因M。和M。的数目注意到在上面的22表中骈表在标记基因座上基因型为M1M2,传递给后代Ml、而没有传递M。的父或母的数目。c代表在标记基因座上基因型为MlM2,传递给后代M2、而没有传递M,的父或母的数目。敲Spielman等1993提出的传递不平衡检验TDT即配对四格表的Mclemar检验认为:当b与c相差太悬殊时,

27、便有理由认为标记基因座和疾病基因座之间存在连锁与关联。基于人类基因组中连锁不平衡的分布以及高度自动化的单核苷酸多态性SingleNucleotidePolymorphism,SNP分型技术的发展,高密度的单核苷酸多态性遗传标记的存在,用紧密连锁没有重组SNP位点进行连锁不平衡分析能更精确定位疾病基因CarlsonCS,2004;包广宇,2003。用于家系的TDT方法有一个优点,即它只需要有子女患病的家庭的父母和后基于家系数据扮连锁不平衡的统计方法研究与应用代的数据,它彳i像非参数连锁方法需要多个兄弟姐妹的数据。TDT法以及由它而衍牛的别的方法可以用来检测特定的候选基因与复杂性状的连锁与关联的关

28、系DengHW.2001;EwensWJ,1995;Bickeb611erH,1995。另外,TDT的检验效能较高,在许多情况中,检测一个复杂性状位点,用TDT的方法所需的家系数量比传统的同胞对连锁分析法小几个数量级。TDI、法正被同益广泛地应用,并成功地解决了一些来自于关联与连锁分析的争议。TDT方法已经被推广到有复等位基因的情况Bickeb611erH,1995;SpielmanRS,1996;ShamPC,1995、没有父母基因型信息而利用同胞信息的情况CURTISD,1997;AllisonDB,1997:Horvath,SM,1998;Martin,ER,1999,2000;Lune

29、tta,KL,2000和定量性状位点的情况RabinowitzD,1997;XiongMM,1998;SchaidDJ,1999;LangeC,2002。虽然传统的TDT已经推广到单个位点多个等位基因情形性状情形。由于单个标记位点远少于多个标记位点提供的多态信息量。”个SNP可以提供2n种单体型,因此常常需要联合紧密连锁的标记位点进行更精确的定位。传递不平衡检验中,把同荡:系的双亲看成独立的个体,对杂合子亲代的传递一未传递的交叉分类数据采用对称性或边缘齐性检验。但实际上,当传递不平衡检验的零假设成立时,同一家系的双亲的传递并不一定独立Bickeb611erH,1995,因此,有必要从理论上探讨

30、亲代传递不独立对传递不平衡检验的影响。考察传递不平衡检验的功效时,模拟样本的产生缺乏一致通用的方案,常常限于考虑标记位点是疾病位点的特殊情形KnappM,1999;GinnisRM,2002或者把双亲的传递看成独立时的从理论上对功效进行推导ZorkoltsevaIV,2003。另外,对功效进行模拟研究时,常限于几种特定遗传模式下的功效。基于家系数据的连锁爿i平衡的统计方法研究与应用第1章核心家系的紧密连锁位点的单体型频率估计1.1 单体型的多态性与单体型频率1.1.1多态性同一基因的不同形式,如A和a,相互是等位基因alleles,其实一个基因可以有很多等位形式alleicforms或相pha

31、ses,如a。,a。,?,a。,但就每一个二倍体细胞来讲,最多只能有其中的两个,即基因型只能由两个等位基因组成。一个基因存在很多等位形式,称为复等位现象multipleaIlelism。在复等位基因方面,最值得注意的例子是人的血型?ABO血型。ABO血型由3个复等位基因决定。这3个复等位基因是I“;18;i,它们组成6种基因型。但因I“与I8问表示共显性,而I和18对i都是显性,所以6种慕因型只显现4种表型phenotype。II“和Ii在表型上相同,都是A型;1818和18i在表型上相同,都是B型;I18杂合体中,I和I8都是显性,表型是AB型ii的表型是0型。这种等位基因的不同形式,即为多

32、态性现象polymorphism。常用多态信息含量polymorphisminformationcontent,PIC来衡量一个位点的多态性。PJC的计算方法如下:n n-I ”PIC1一e2一y292P2j1 .1-】?。i+1这里,”为等位基因数目,只为等位基因i的频率。由于只1,从而PIC也i1可表达为4基于家系数据的连锁不平衡的统汁方法研究与应用PIC2ZPe1_只弓辟1ji+l有时,某个多态性位点的等位基因或基因型分布在不同的人群中并不相同,例如,我国汉族人群与高加索人种相比较,免疫球蛋白1基因增强予区域的订J变串联重复序列多态性就存在差异古宏标等,2005a,2005b。在摹网定位

33、中,由多态性位点为“标记”从而称为标记位点或“路标”,是用一定的方法将疾病基因确定到染色体的实际位置。第一一代遗传标志:限制性片段长度多态性Restrictionfragmentlengthpolymorphism,RFLP、可变串联重复序列variablenumbertandemrepeats,VNTR。第二代遗传标记为微卫星标记,微卫星microsatellite,MS是指DNA基因组中小于10个核苷酸的简单重复序列,又称短串联重复shorttandemrepeat,STR,这种核苷酸重复序列在染色体上分布较均匀,信息量明显高于RFLt,成为遗传连锁分析的有用标志。第三代遗传标记为单核苷酸

34、多态。生singleucleotidepolymorphism,SNP,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。其意义已超出了遗传作图的范围,成为研究基因多样性和识别、定位疾病相关基因的种新型手段。随着人类基因图谱的完成,目前已经发现了4百万个单核苷酸多态性SNP,而据估计,SNP的总量大约在1千万个左右。我们可以利用单核苷酸多态性来构建人类基因组的单体型GabrielSB,2002。所谓单体型Haplotype,或称单倍型,就是一条染色体上的两个或者两个以上的多态位点组合。由于一个SNP位点是由单个核苷酸的变异所引起的多态性,因此通常只具有两个等位基因,不妨记为1,

35、2。而同一条染色体上的两个SNP位点所形成的单体型可有4种情形,即11,12,21,22。因此单体型的多态性信息量明显高于单个SNP提供的信息量。由于实验数据通常只能提供各个位点的基因型,而不能直接得到单体型数据,因此,单体型频率常需要通过一定的方法估计得到。单体型通常需要依赖基因型的组合情况进行推测与重构,个体的各个位点的基因型虽然己知,但是当只要有两个位点是杂合的,其两条单体型存在不确定性。例如考虑最简单的情形,只有阿位点,每个位点分别具有两个等位基因,当个体为双杂合子,即两位点基基于家系数据的连锁不平衡的统计方法研究与鹰用冈型分别为爿1A2,占182时,则其基因型即可能是由单体型AlBI

36、,A282组成的单体型对爿1Bl,A282,也可能是由单体型AlB2,A281组成的单体型对爿1日2,A:B。即观测到的多位点基因型可能有好几种单体型对与之匹配见图1?1,单体型对也形成这两个位点组合后的基因型。q忙图1?1两个位点组合后的可能的基因型单体型对M1BlM282与A-BjA2B1.1.2单体型的频率估计的应用单体型频率估计常常应用在:1了解连锁位点间的连锁不平衡等位基因关联程度,进一步寻找单体型块haplotypeblock。2重构个体潜在的单体型对。3单体型多态性分布在不同的群体间比较,如病例一对照的单体型多态性分布比较FallinD,2001。用来衡量连锁不平衡程度的指标称为

37、连锁不平衡系数,Devlin1995曾总结比较了各种连锁不平衡系数,如D,D,e,r,五d,O。这种指标有两类,一类为绝对差值指标,一类为相对差值或比值指标。以两个位点为例,若一个位点具有等位基因A,口,另一个位点具有等位基因B,b,连锁不平衡系数D是一个差值指标。DP0占一P口P功这里,尸“矗为单体型AB的频率,P爿为第一个位点的等位基因A的频率,PB为第二个位点的等位基因B的频率。注意到,尸口刚研+P06,P口PaB+Pd口,P彳+只1,P罅+P61,因此,D也可表达为DPABPab-PAbPaB当D0时,称为两个位点连锁不平衡,即等位基因关联。指标eP,4a/PAP砷是一个比值指标。当e

38、*l时,两个位点连锁不平衡。我们在构建中国汉族人群15号染色体5个基因上的34个位点的单体型结构时HuangWeijun,2004:黄玮俊,2004,为构建单倍型块,基于单体型频21.RnDIll-t_Il2AB基于家系数据的连锁不平衡的统讨方法研究与应用率,我们刚自编的程序完成,两两位点间的连锁不平衡系数与重组率的计算与统计推断,将连锁不平衡程度较高且重组率低的一绸SNP位点视为在同个单倍型块tn1.2 家系数据单体型的确定对于家系中的子代,亲代的单体型对中一条传递,一条未传递,根据亲代向子代单体型传递过程,家系数据能为紧密连锁位点的单体型的确定提供信息,减少其不确定性,从而家系数据理论上更

39、能准确估计单体型频率估计与重构单体型。例如,考虑表1-1中的核心家系,表1?1连锁相能确定核心家系由卜面讨论可知双杂合子父亲的单体型存在不确定性,但是根据亲代向子代单体型传递过程,此家系基因型可以确定为:父亲的单体型对一JB2,一2B1,母亲的单体型对彳1BI,AlB2,予代的单体型对以1B】,A2B】。这种不确定性虽然可通过家系其他成员的基因型信息有所减少甚至消失,但仍然存在,例如,考虑表1?2中的核心家系,表1?2 连锁相不能确定的核心家系则可能的基因型情形:1父亲的单体型对一1Bj,4擅2,母亲的单体型对以lBJ,AlB2,子代的单体型对彳lBl,A282;2父亲的单体型对彳I岛,A2B

40、j,母亲的单体型对彳l曰1,爿lBz,子代的单体型对“182,A281。基于家系数据的连锁一;平衡的统计方法研究与应用1.3 核心家系数据单体型频率估计关于群体数据的单体型频率估计与重构已经有大量的算法与软件ClarkAG,1990;LinS,2002;StephensM,2003。最常用的便是EMexpectation?imization算法ExcoffierL,1995;LongJC,1995:与软件HawleyME,1995。另外还有基于Bayes方法的MCMC算法StephensM,2001;NiuTH,2002;Qinzs,2002。由于单体型的不确定性,常常需要通过估计单体型频率从

41、而重构个体的单体型。而对家系数据单体型频率估计,往往把家系中的父母看成来自一般群体中独立的个体,然后直接采用EM算法,即把家系数据当成群体数据,没有利用子代ZhaoH,2000。下面我们考虑家系数据的信息,估计家系数据的单体型频率。设有,个紧密连锁的位点两两位点之间的重组可忽略不计,其等位基因数目分别为口,a2C?,则各位点可能基因型数目分别扣,口,+1,f_1,2,?,这f些位点所形成的可能单体型个数为肘q,将所有单体型从1到M编号,设11单体型频率F曩,2,?,0。为了讨论方便,下面不妨只考虑单个子代的情形。设有n个核心家系,GiGf,G?,研表示家系i中父亲,母亲与子代的基因型。互G,G

42、f,0j表示家系i中父亲,母亲与子代的单体型对。令G一G。,G2,?,q表示”个家系的观测的基因型,6G。,舀:,?,0。表示相应未知的单体型对。假定2n个亲代是来自某群体的一份随机样本,此群体满足Hardy?Weinberg平衡与随机婚配,由于子代能为亲代的单体型确定提供信息,下面我们利用家系的基因型数据以及子代的信息重构亲代的单体型。考虑似然函数LFG兀尸Gj,掣,G?I,产P彰,G,IFP研GL凹, 卜1扣l i1对于家系中的子代,亲代的单体型对中一条传递,一条未传递,从而可设基于家系数据的连锁币平衡的统计方法研究与应州0j,h:AG,。h。.,亩,h,。,fl,2,?,月。当家系的连锁

43、相已知时,即单体型可确定时,根据Hardy?Weinberg平衡与随机婚配条件,Pe/,G,一PG/I,PG?F|Fjh只:.c?E,1-2这里,c。/节_f2黎c,岳菇-若:h3根据Mendel遗传定律,Pc;la/,G2尸GIG/,曰2可1专, 1-3当家系i的连锁相已知时,即单体型对可确定时,由1-2与1?3,Pa/,曰,gI,2E.,E:,气,气, 1?4当连锁相存在不确定性时,由于有好些单体型对与观测的基因型相匹配,从而PC/,卵,GjF2.;,&,气.1-5这里,H,为所有满足如下条件的砧,瓦,绣:,戍.j的集合:单体型对眠:,;,与父亲的观测基因型G,匹配,单体型对绣,:,与母亲

44、的观测基因型G,匹配,单体型对碱i,:i与子代的观测基因型Gj匹配。对数似然函数lnLFG乏ln尸GG,GjF姜ln. 气,.。,1-6扛1 卢 L,b,b,iett, J由于。:,h3;,h。.的很多种可能性,从而增加了似然函数求最大值的难度,若潜在的0已知,即舀j啊,h。,0,。h。,茸。h,。,O1,2,?,n已知,则添加G后的完全数据的似然函数为nLFG,61nPGf,吖,研,聋I,芝ln,E:,气,氏.M1 。“1,7n ?,聋r,s“,lll只只只Er,s,o,v1i1这里9基于家系数据的连锁不平衡的统计方法研究与应用姒姒V一怯耥也吃”啊沪p虬下面考虑把G或各。h。h。看成缺失值,

45、采用EM算法Dempster,A1977。E步:计算完全数据的对数似然函数的期望。给出F的初始值,【“,F为r步后的,的迭代值。虽然缺失值的取值未知但我们可以利用它的分布计算对数似然函数的期望。由于咐舶护等2, ms,咐lG一冉案等f。-im,从而当给定F:F。时,可以求出分布P弓|G,F7的具体取值,利用此分布1?9,求对数似然函数的期望。令p:。5,“,确小只, m四o 否则则rJ,“,v是l?2.,旧4或H上的概率分布,有pr,s,“,vl。完全r.i,蚝风数据的对数似然函数的期望QFJG,FE1nLFq0,Fo刀ln正FIG,5P51G,F1 lvInEF,CF,1兀p乳啊地,乜?h4

46、lfIf只只 l丌8jr,s,“Vp曩”z.,”“II:M 1。f只E只主lf一s,”,vpy,也h3j,h4,rIf p,hu,h2i,h3t,h4j,h3j,hu,h2i,h,t,.ll,互1k假巩彤例%.h2j系麓删一埘。啊r也-腮kb戮:; JJJru,V J11,-h,uH月, /oq,o八,?吗,-hfleH- /J垦于象系数据的连锁不平衡的统计方法研究与应用往意剑 PM。h2,h。,1,上式1?11可以简化为 f。QFG,FlnffJ,J,“,V|口y,瓜,h3 。,“口1 lJ21J,hw,;,月J J村 r。 lnFF, ,叫p弘,删,VrJ?121M步:求参数集F的估计户,使得QF【G,F7达到最大,然后令F?:p。即f1?1户argQFG,F。在条件F1的条件F,”应满足方程n-13Of8;QFlG,F【I,一Ac善f一?,里学一。,t-,z,Mc?一,。,其中

展开阅读全文