w06GWAS结果分析课件.ppt

上传人:小飞机 文档编号:1870095 上传时间:2022-12-22 格式:PPT 页数:65 大小:18.17MB
返回 下载 相关 举报
w06GWAS结果分析课件.ppt_第1页
第1页 / 共65页
w06GWAS结果分析课件.ppt_第2页
第2页 / 共65页
w06GWAS结果分析课件.ppt_第3页
第3页 / 共65页
w06GWAS结果分析课件.ppt_第4页
第4页 / 共65页
w06GWAS结果分析课件.ppt_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《w06GWAS结果分析课件.ppt》由会员分享,可在线阅读,更多相关《w06GWAS结果分析课件.ppt(65页珍藏版)》请在三一办公上搜索。

1、Genome-wide Association Study-GWAS,1,发展历史,1996年Risch最早提出了GWAS设想;2001年Hansen等最早应用GWAS于植物Sea beet的研究中;2005年Klein等在Science杂志上最早报道了GWAS在人类中的研究,发现了与年龄相关性的黄斑变性病症显著相关的基因。,2,什么是GWAS,全基因组关联分析:利用全基因组范围内筛选出高密度的分子标记对所研究的群体进行扫描,分析扫描得出的分子标记数据与表型性状之间关联关系的方法。即:GWAS利用全基因组范围内的LD(连锁不平衡)来确定影响某些表型性状或数量性状的基因。,3,分子标记,是遗传标

2、记的一种遗传标记(genetic marker):指可追踪染色体、染色体某一阶段、某个基因座在家系中传递的任何一种遗传特性。基本特征:可遗传性、可识别性遗传标记类型形态标记(morphological markers)细胞学标记(cytological markers)生化标记(biochemical markers)分子标记(molecular markers),4,形态学标记,能够用肉眼识别和观察,并能明确显示遗传多态性的外部形态特征优点:简单直观、经济方便;缺点:标记数少、多态性低、容易受环境条件的影响、并且有一些标记与不良形状连锁。,5,细胞学标记,能够显示遗传多态性的细胞学特征。主要

3、指染色体核型、带型和数量特性的变异等,它们反映了染色体在结构和数量上的遗传多态性。染色体核型:数量、大小、着丝粒位置等;染色体数量:单体、缺体、三体等;染色体结构:缺失、易位、倒位、重复等。特点:优点:不易受环境影响,呈孟德尔方式遗传;缺点:常伴有对生物有害的表型效应,难以获得相应的标记材料;或者观测和鉴定比较困难;需要花费较大的人力和较长时间来培育,难度较大等。,6,生物标记,是指以生物体内的某些生化形状作遗传标记,如血型、血清蛋白、种子储藏蛋白、同工酶和等位酶等。特点:优点:表现近中性,对生物经济性状一般没有大的不良影响;直接反映基因产物差异,受环境影响较小。缺点:可用标记数量少,染色方法

4、和电泳技术有一定难度。,7,分子标记,广义:是指可遗传的并可检测的DNA序列或蛋白质。狭义:DNA标记,指能反映生物个体或种群间基因组中某种差异的特异DNA片段。优势:直接以DNA的形式表现,在生物体的各个组织、各个发育阶段可检测到,不受季节、环境限制。数量多多态性高;表现为中性,不影响目标形状的表达许多标记表现为共显性,能区别纯合体和杂合体,8,第一代:限制性片段长度多态性(Restriction Fragment Length Polymorphism, RFLP)第二代:微卫星多态性(microsatellite)第三代:SNPSNP:Single Nucleotide Polymorp

5、hism,单核苷酸多态性指同一位点不同等位基因之间核苷酸的差异。,分子标记,9,理论上讲,SNP既可能是二等位多态性,也可能是3个或4个等位多态性,但后两者非常少见,几乎可以忽略;占所有已知多态性的90%以上;SNP数目:目前,测得大约15003000万个SNP位点。分为:同义SNP(synonymous SNP)和非同义SNP(non-synonymous SNP)。,10,SNPs的基因型,人体除性染色体外,每个染色体都有两份,个体所拥有的一对等位基因的类型称作基因型。核定个体的基因型,称作基因分型。,11,SNP,双等位基因标记主要等位基因(major allele):在一般人群中较多见

6、的等位基因;次要等位基因(minor allele):四种可能的形式一种转换( CT或GA):2/3三种颠换(CA或GT, CG或GC,TA或AT),12,SNP作为遗传标记的优势,变异程度不如微卫星数量巨大,分布密度高:人类基因组中1SNP/1000bp更稳定的遗传特性:多数并不位于基因编码区,甚至不在基因区,稳定而无害基因分型简单:快速、大批量、自动化,13,SNP概念界定,基因组DNA的差异 cDNA中发现的:可能是RNA编辑的结果?单碱基的插入和缺失?疾病易感等位基因?在正常人(无病个体)中可出现SNP & mutation,14,基因型和表型,15,SNP的检测,PCRSNP芯片新一

7、代测序,16,GWAS的目的,寻找哪些SNP标记与疾病相关关联分析,17,基本流程,建立研究群体,选择尽可能大的群体作研究样本,建立目标性状数据库。提取样本DNA,进行质量控制以达到基因分型的要求,对基因型数据进行检测和质量控制以达到后续关联分析的要求。利用合适的统计模型对SNP和目标性状进行关联分析;对关联分析的结果进行高级分析及验证。,18,关联分析,19,GWAS分类,基于无关个体(unrelated individual)的关联分析:(1)病例对照分析法(Case-control analysis),主要用来研究质量性状,即是否患病;(2)基于随机群体的关联分析(Population-

8、based association analysis):主要用来研究数量性状。基于家系的关联分析(Family-based association):传递不平衡检验法(Transmission Disequilibrium Test, TDT),20,GWAS分类,家系数据分析遗传标记与疾病数量表型和质量表型的关联可以排除人群混杂对于关联分析的影响,但其在发现阳性关联的检验方面不如相同样本量的病例对照研究有效。当前的人口状况使得大规模的家系数据很难获得,目前的研究中病例对照研究居多。,21,22,GWAS试验设计,单阶段设计(One-stage design):一次性选用足够大的样本量,对每一

9、个样本都进行SNP基因型分型,然后分析相关性状与每个SNP的关联效应;两阶段设计(Two-stage design)或多阶段设计(Multiple-stage design):(1)先选择一个小样本量进行SNP分型,统计分析时在较为宽松的P值条件下先筛选出与目标性状呈显著相关的SNPs;(2)然后在大样本中对第一步中已经筛选出的SNPs进行分型,结合两个阶段的分析结果进行最后统计。,23,质量控制,24,质量控制,25,质量控制,26,质量控制,27,质量控制,28,关联分析的理论基础,连锁不平衡(Linkage Disequilibrium, LD):又称等位基因关联,是指同一条染色体上,两

10、个等位基因间的非随机相关。即:当位于同一条染色体的两个等位基因同时存在的概率大于人群中因随机分布而同时出现的概率时,就称这两个位点处于LD状态。DP(AB)-P(A)*P(B),29,LD产生的原因,30,LD的度量,31,D的意义,32,D值的95可信区间(95%),33,r2的意义,34,影响LD的因素,35,影响LD的因素,36,基于SNP的LD关联分析,37,基于SNP的LD关联分析,38,LD作图,LD作图是将一段基因的所有SNPs的LD关系标记在基因序列中,用来观察重组热点。作图方法有:LD散点图(dot plot)LD矩阵图(LD matrix)邻近LD窗口分析(adjacent

11、 LD window analysis),39,LD 散点图,40,LD矩阵图(LD matrix),41,邻近LD窗口分析,42,43,关联检验的模型,假定:某个SNP位点有两个等位基因:A,a;形成三个基因型:AA, Aa, aa。假设A是minor位点。当我们检验该SNP位点与疾病的关系时,我们不知道该位点以何种方式起作用(等位,基因型,显性,隐性)。,44,关联检验的模型,Genotypic ModelHypothesis: all 3 different genotypes have different effects: AA vs. Aa vs. aa卡方检验,45,46,关联检验

12、的模型,2. Dominant ModelHypothesis: the genetic effects of AA and Aa are the same (assuming A is the minor allele) : AA+Aa vs. aa,47,关联检验的模型,3. Recessive ModelHypothesis: the genetic effects of Aa and aa are the same (A is the minor allele): AA vs. Aa+aa,48,关联检验的模型,4. Allelic ModelHypothesis: the genet

13、ic effects of allele A and allele a are different: A vs. a,49,关联检验,Odd Ratio值(OR)关联检验中如果某SNP与某疾病的关联p值小于显著性水平,则拒绝不关联的零假设,支持该SNP与疾病存在关联的假设,OR值的目的是进一步估计其关联的强度。点估计和区间估计,50,关联检验,51,关联检验,95% CI (Confidence Interval)的计算lnOR近似地服从正态分布,52,R在GWAS中的应用,Public DatabaseHapMapSNPediadbSNPOMIM,53,The SNP association

14、 analysis,R package: SNPassoc,54,mySNP=snp(SNPs$snp10001, sep=“/”),55,56,57,58,59,60,61,62,The whole genome SNP association analysis,data(HapMap)str(HapMap)str(HapMap.SNPs.pos),63,64,The SNP annotation and enrichment,MotivationOnce we have some SNPs that are potentially interesting from the point of view of association with the phenotype, it is extremely important and interesting to know about the gene or genomic region that they belong to.R package: NCBI2Rinstall.packages(“NCBI2R”)library(NCBI2R),65,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号