基因多态性数据库与运用ppt课件.ppt

上传人:小飞机 文档编号:3910044 上传时间:2023-03-27 格式:PPT 页数:91 大小:9.94MB
返回 下载 相关 举报
基因多态性数据库与运用ppt课件.ppt_第1页
第1页 / 共91页
基因多态性数据库与运用ppt课件.ppt_第2页
第2页 / 共91页
基因多态性数据库与运用ppt课件.ppt_第3页
第3页 / 共91页
基因多态性数据库与运用ppt课件.ppt_第4页
第4页 / 共91页
基因多态性数据库与运用ppt课件.ppt_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《基因多态性数据库与运用ppt课件.ppt》由会员分享,可在线阅读,更多相关《基因多态性数据库与运用ppt课件.ppt(91页珍藏版)》请在三一办公上搜索。

1、,一、人类表型的多样性,遗传背景一致性和部分表型的差异,二、导致人类表型的多样性的原因生存环境因素的影响 自然条件 文化背景 生活与饮食习惯 社会体制 2.自身遗传物质的作用 基因的功能和调节 非编码DNA序列的影响 表观遗传的作用 上位抑制的影响 多态性位点的存在,血缘关系与患病风险示意图,两个重要的容易混淆的概念,1.易感性(Susceptibility)一个个体仅在遗传因素的作用下罹患某种疾病的风险。2.易患性(Liability)一个个体在遗传因素和环境因素的共同作用下罹患某种 疾病的风险。,常用的遗传学研究资源和数据库,1 Genetic Association Database:A

2、n archive of human genetic association studies of complex diseases.http:/geneticassociationdb.nih.gov/2 Schizophrenia Gene Database:An archive of genetic association studies performed on schizophrenia phenotypes.http:/www.schizophreniaforum.org/res/sczgene/default.asp 3 Online Mendelian Inheritance

3、in Man:A catalogue of human genes disorders.http:/www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM&4 Human Gene Mutation Database.A catalogue of published gene responsible for human inherited disease.http:/www.hgmd.cf.ac.,5 Human Genome Variation Database:A catalogue of normal human genome variation.http:/

4、www.hgvbase.org/6 dbSNP:A catalogue of human single nucleotide polymorphisms.http:/www.ncbi.nlm.nih.gov/projects/SNP/7 GeneSNPs:A database of polymorphisms in human genes that are a role in susceptibility to environmental exposure.http:/www.genome.utah.edu/genesnps/8 PharmGKB:A database of pharmacog

5、enomics research.http:/www.pharmgkb.org/index.jsp 9 GeneCards:A database of human genes that includes genomic,proteomic transcriptomic information,as well as orthologies,disease relationships,gene expression and gene function.http:/www.genecards.org/,常用的候选基因分析软件和工具,GeneSeeker http:/www.cmbi.ru.nl/Ge

6、neSeeker/GFSST http:/gfsst.nci.nih.govEndeavour http:/www.esat.kuleuven.be/endeavour POCUS http:/www.hgu.mrc.ac.uk/Users/Colin.Semple/G2D http:/www.ogic.ca/projects/g2d_2/SUSPECTS http:/www.genetics.med.ed.ac.uk/suspects/TOM http:/www-micrel.deis.unibo.it/tom/BioMercator http:/moulon.inra.fr/bioinfo

7、/BioMercator GFINDer http:/www.bioinformatics.polimi.it/GFINDer/PROSPECTR http:/www.genetics.med.ed.ac.uk/prospectr/QTL Mixer http:/qtl.pzr.uni-rostock.de/qtlmix.php CoGenT+http:/cgg.ebi.ac.uk/cogentpp.html SNPs3D http:/www.SNPs3D.org PhD-SNP http:/gpcr.biocomp.unibo.it/cgi/predictors/PhD-SNP/,一个基因可

8、以具有多个不同的表达模式一个蛋白质可以具几种不同的结构和功能衍生物,现以脂蛋白酯酶基因(LPL)为例进行说明,LPL是脂质代谢的关键酶,目前发现其具有四种剪切模式4 Alternative Splicing Database(ASD)splice patterns(SP)for LPL.doc,Genetic Control of GeneExpressionin Various Tissues.,N Engl J Med2009;360:1759-68.,Nat Genet.2007,39(7 Suppl):S7-S15,Single Nucleotide Polymorphisms(SNP

9、s),Also Called-Short Tandem Repeat(STR),Four Color Detection with Filter Set II,MegaBACE Genotype,微卫星运用例证 1:原发性习惯性流产遗传位点的研究,Reproductive Sciences Vol.17 No.6 June 2010 578-584,微卫星运用例证 2:亲子鉴定,母,子,父,Copy Number Variants(CNVs),Many variants with small effects,a smaller number with intermediate effects

10、and relatively few with large effects.,Nat Rew Genet,2005,6(2)109-118,An L-shaped or exponential distribution of variantseffect sizes has wide support.,88%of trait-associated SNPs(TASs)were intronic(45%)or intergenic(43%),12%located in,or occur in tight linkage disequilibrium with,protein-coding reg

11、ions of genes.,N Engl J Med 2010;363:166-76.PNAS,2009106(23)9362-9367,四、SNPs概论1.定义:单核苷酸多态性(single nucleotide polymorphism,SNP,发音为“snip”)是指在基因组水平上由单个核苷酸的变异所引起的DNA 序列多态性。2.特征:是最常见的一种变异,约占所有已知多态性的40%;分布广,1个/3001000个碱基对,总数可能2470 万;由单个碱基的转换(transition)或颠换(transversion)所导致;转换的发生率较高,SNP中转换型变异者约占2/3;(可能是因为

12、CpG 二 核苷酸上的胞嘧啶残基最易发生突变,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺 嘧啶)SNP基本上表现为二等位多态性;根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间 SNPs(Intergenic SNPs,iSNPs)等三类;,位于编码区内的SNP(coding SNP,cSNP)比较少,又可分为2种:同义(synonymous)cSNP和非同义(non-synonymous)cSNP,参与蛋白 质编码;位于非编码区内的SNP比较多,其变异率是cSN

13、P的5倍,参与基因表 达的调控;先形成的SNP在人群中常有较高的频率,而后形成的SNP频率较低;3.现有SNP在白色、黑色和黄色人种中的分布 频率20%,占7%;实验无法证实者,占17%;在一个人种中频率20%,占76%;在二个人种中频率20%,占53%;在三个人种中频率20%,占27%;,Occurrence of SNPs in the Human Population and Their Representation in the Current Collection,Nature Genetics 2001,27:234-236,4.SNPs网上资源主要有:NIH的dbSNP多态性数据

14、库:www.ncbi.nlm.nih.gov/SNP 德国的HGBAS网站的人类SNP数据库:hgbas.cgr.ki.sei 日本建立的JSTSNP数据库:snp.ims.utolkyo.ac.jp NIH的与癌症和肿瘤相关的候选SNP数据库:cgap.nci.nih.gov/GAIFastSNP Search:fastsnp.ibms.sinica.edu.twPerlegen Browser:UCSC Genome Bioinformatics Site:genome.ucsc.edu 美国Utah大学SNP数据库:www.genome.utah.edu美国波士顿儿童医院SNP数据库:s

15、npper.chip.orgSNP联盟数据库:www.cshl.org英国Sanger研究所:www.sanger.ac.ukHapMap Homepage:www.hapmap.orgEnsembl Genome databases and tools:www.ensembl.org,5.NIH的dbSNP多态性数据库:www.ncbi.nlm.nih.gov/SNP dbSNP的挑选方式和不足:60%的“候选”SNPs是通过统计学方法预测出来的即通过比较重叠 克隆中的DNA序列痕迹来确定“候选”SNPs。因此,大多数的dbSNP 是频率未知的“候选”SNPs。总数量约为2470万个SNPs

16、;三大来源:SNP联盟数据库:www.cshl.org 英国Sanger研究所:www.sanger.ac.uk 美国Washington University,St.Louis 设立的参照SNP(Reference_SNP)400万个,采用rs+数字编号来表示;,可从多个路径查找SNPs:Human genome resources,map view,Genebank等等;dbSNP的质量:已经证实的Ref_SNPs,大约有400万个 非人类的SNPs,大约有216万个 无法证实的SNPs,大约有184万个 在某一群体中不是多态性的,大约有152万个 在某一群体中频率20%的,大约有126万

17、个 被证实的其频率20%的SNPs,大约有63万个,五、SNPs数据库构建,1.生物信息数据库的构建与获取,图 1 数据库的建立:采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单一的大数据库。Nat Rev Genet.20034(5)337-345,图 2 连点和节点。运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同源基因,则采取特定数据库的方式储存起来。Nat Rev Genet.20034(5)337-345,图 3 生物数据库的结构和获取 绝大多数生物数据库采用三层结构模式:第一层的数据管理系统(底层)第二层的中间设备,包括获取数据的软件和网络

18、服务器(中层)第三层的网络浏览器(高层),即用户。Nat Rev Genet.20034(5)337-345,2.SNP生物信息分析2.1 分析的参数或指标 挑选拟进行分析的基因及其DNA序列的长度,比如5端上游5000bp+整个基因序列+3端下游5000bp,要求包含两端的非转录区(UTR)。在上述碱基范围内,寻找获取下列的信息:所有SNP的信息:位置、群体中的频率 标记SNP(Tag_SNP)的情况:位置、群体中的频率 基因外显子的信息:位置、方向、大小 转录因子结合位点信息:名称、位置、数目 甲基化位点CpG的信息:位置、数目 进化保守区的信息:名称、位置、数目、大小 单倍型信息:位置、

19、数目、大小 参与调节基因转录的序列簇信息:名称、位置、数目、大小(比如增强子、沉默子和microRNAs结合域等),2.2 涉及的数据库或网络资源在http:/genome.ucsc.edu/获得SNP、CpG、转录因子结合位点信息在http:/ecrbrowser.dcode.org/获得进化保守区的信息在http:/www.ensembl.org/index.html获得基因外显子的信息在http:/www.hapmap.org/获得标记SNP(Tag_SNP)、单倍型的信息在http:/,2.3 SNP信息分析方法和结果的评判分析方法:Cygwin analysis program。该程

20、序通过对基因序列的生物信息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分子生物学、进化和系统发育学的研究提供参考数据或功能信息,对复杂性疾病易感基因的研究工作很有帮助。运行的前提条件:1.在Perl语言环境中进行分析。Perl 是 Practical Extraction and Report Language(实用摘录和报告语言)的简称,是一种最广泛应用于语法分析和 World Wide Web 的编程语言。2.拟分析的参数或指标,必须进行格式调整,满足Cygwin analysis program的要求。3.需要事先编写好2个参数分析和整合程序。3.1 运行cross_ref

21、_SCORED.pl可以得到重叠区域生物信息学文件3.2 运行merge_per_hap.pl可以得到整合了单倍型信息后的文件4.将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信息分析结果。,生物信息学分析结果例证 中国汉族群体LPL基因SNP生物学信息,ECR:Evolutionary Conserved Regions;Tag:标记;转录因子:MYCMAX,NMY;Cluster:调节基因转录的序列簇;CpG:甲基化位点3 splice junction:外显子3端剪切位点;MAF:弱势等位基因频率,六、SNP实验分析技术,基于PCR技术与其它方法相结合的检测方法(获得较普遍的

22、应用)1.1 通量相对较小者:测序、限制性片段长度多态性(restriction fragment length polymorphism,RFLP)、单链构象多态性(single-strand conformation polymorphism,SSCP)、温度梯度凝胶电泳(TGGE)、变性梯度凝胶电泳(DGGE)、随机扩增多态性DNA(RAPD)、连接酶检测反应法(ligase detection reaction,LDR)。1.2 通量相对较大者:变性-高效液相色谱(DHPLC)、Pyrosequencing、Ecotilling、基 因芯片/阵列分析技术(gene chips)、微球法

23、(Illumina)、质谱分析、高分辨溶解曲线分析(High Resolution Melting,HRM)。,2.以分子杂交技术为基础的检测方法(没有获得较普遍的应用)寡核苷酸连接分析(OLA)、动态等位基因特异性杂交(DASH)、等 位基因特异寡核苷酸片段分析(ASO)和突变错配扩增检验(MAMA)。3.以荧光定量PCR为基础检测方法(获得较普遍的应用)TaqMan探针法、SNPlex基因分型法、分子信标(Molecular beacon)和FRET(HybProbe)。4.SNPs的功能性研究手段 比较成熟的对启动子区域内SNPs功能性研究的技术包括:报告基因转染技术。主要用于研究启动子

24、SNPs对于mRNA转录效率的 影响,通过观察转录结局来判断SNPs是否具有功能。报告基因是一 种编码可被检测的蛋白质或酶的基因,是一个其表达产物非常容易 被鉴定的基因。通过把它的编码序列和基因表达调节序列相融合形,染色质免疫沉淀分析(chromatin immunoprecipitation assay,ChiP)。基本原理是在活细胞状态下固定蛋白质DNA复合物,并将 其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方 法沉淀此复合体,特异性地富集目的蛋白结合的DNA片段,通过对目 的片断的纯化与检测,从而获得蛋白质与DNA相互作用的信息。它能 真实、完整地反映结合在DNA序列上的调

25、控蛋白,是目前确定与特定 蛋白结合的基因组区域或确定与特定基因组区域结合的蛋白质的一 种很好的方法。然而,对于功能性研究结果的评价还需要综合SNPs所在序列信息、进化保守性、群体遗传学、实验功能性研究、暴露评价(如基因-环 境交互作用研究)和流行病学证据,最后依据可以获得的各种证据来 作出科学的评判。一般情况下,可将SNPs是否具有功能效应分为三类:功能性、潜在 功能性和非功能性。,优点:方法简单、容易操作、经费要求不高。缺点:样品纯度要求较高和用量大、过分依赖于限制性内切酶的种类 和数量、分析步骤繁琐、工作量大、分型容易出错、通量较小。,5.2 TaqMan探针荧光定量PCR 技术原理:探针

26、只与模板特异性地结合,其结合位点在两条引物之间。探针的5端标记有报告基团(Reporter,R)如FAM、VIC等,3端标记有荧光淬灭基团(Quencher,Q)如TAMRA等。当探针完整的时候,报告基团所发射的荧光能量被淬灭基团吸收,仪器检测不到信号。随着PCR的进行,Taq酶在链延伸过程中遇到与模板结合的探针,其53外切核酸酶活性就会将探针切断,报告基团远离淬灭基团,其能量不能被吸收,即产生荧光信号。在探针的5端使用不同的Report荧光基团,单一PCR中可以检测到多个探针的杂交与相应荧光。只有与模板完全匹配的TaqMan探针在与等位基因发生特异性杂交后,利用Taq酶的5外切酶活性作用使得

27、探针的5Report荧光能够被检测。,TaqMan探针法原理示意图,结果报告示意图,优点:方法简单、容易操作、灵敏,特异性高、可在同一管内检测多重 PCR、避免了荧光染料对PCR反应的影响、效率和准确性高、通量 大、分析和PCR扩增同时进行。缺点:探针设计有一定难度,需要验证效果,探针的合成和双荧光标记成 本高。,5.3 变性-高效液相色谱(DHPLC)原理是利用离子对反向高效液相色谱原理,通过一个DNA分离柱,进行核苷酸片段的分离和分析。将DNA样品注入到DNA分离柱上,在缓冲液中的桥分子三乙基胺(triethylammonium acetate,TEAA)的辅助下而被吸附到固相柱基质上;乙

28、腈(acetonitrile)则可以破坏三乙基胺这一作用。随着缓冲液中乙腈浓度逐渐升高,DNA依次从柱上洗脱下来。在合适的变性温度下,有突变的异源双链要比相应的同源双链柱保留时间短而被先洗脱下来;不同序列的DNA同源双链的柱保留时间也有差异。因此,带有突变序列的样品呈现出异源和同源双链混合物的峰型特点,而不含突变序列的样品则只有同源双链的峰型。,DHPLC能以三种方式操作:1.不变性温度条件下(50),色谱仪类似凝胶电泳仪,可分离分子量不同的双链DNA分子或分析具有长度多态性的片段,类似RFLP分析,也可进行定量RT-PCR及微卫星不稳定性测定(MSI)。2.在充分变性温度条件下(80),单链

29、DNA或RNA分子能被区分,适用于寡核苷酸探针合成纯度分析和质量控制。3.在部分变性的温度条件下,变异型和野生型的PCR产物经过变性复性过程,不仅分别形成同源双链,同时也错配形成异源双链,根据柱子保留时间的不同将同源双链和异源双链分离,从而识别变异型。优点:准确性较高(未知突变大于96%,已知突变大于99%)、灵敏度高(少 至5%的基因型)、操作容易、自动化分析、结果重复性高,速度 快、样品通量高。缺点:DNA分离柱需要定期更换、成本较高、需要先做好PCR扩增。,5.4 高分辨溶解曲线分析(High Resolution Melting,HRM)技术原理在PCR反应前将LC Green荧光染料

30、与反应Buffer、引物、模板DNA混合(使LC Green染料饱和加入,LC Green荧光染料对PCR不会有任何抑制作用)后进行PCR扩增;然后将PCR产物(96孔板或者384孔板)直接放入LightScanner或HR-1仪器中,在一定的温度范围内将PCR扩增产物进行变性,在此期间,仪器的光学检测系统采集密集的荧光信号变化并绘制温度熔解曲线,根据曲线准确区分野生型、杂合突变、纯和突变,软件自动分型。,优点:快速(5分钟)、高通量、准确、灵敏度高、特异性好、操作简便。缺点:LC Green荧光染料价格较高、需要先做好PCR扩增。,5.6 基质辅助激光解吸电离飞行时间质谱(MALDITOF)

31、,原理:通过PCR扩增目标序列,然后加入SNP序列特异延伸引物,在SNP 位点上,延伸1个碱基。将制备的样品分析物与芯片基质共结晶,将该晶体放入质谱仪的真空管,而后用瞬时纳秒(10-9s)强激光激发,由于基质分子经辐射所吸收的能量,导致能量蓄积并迅速产热,从而使基质晶体升华,核酸分子就会解吸附并转变为亚稳态离子,产生的离子多为单电荷离子,这些单电荷离子在加速电场中获得 相同的动能,进而在一非电场漂移区内按照其质荷比率加以分离,在真空小管中飞行到达检测器,离子质量越小,就越快到达。特点:高通量、准确性高、简单、灵活、灵敏度高,分析流程图 1,分析流程图 2,数据截图 1,数据截图 2,5.7 常

32、用SNP检测技术小结,质谱分析法限制性片段长度多态性分析法实时荧光PCR分析法单链构象多态性分析法(SSCP)异源双链分析法(HA)变性梯度凝胶电泳法(DGGE)DNA测序法(DNA sequencing)DNA芯片技术(DNA chip),5.8 飞行时间质谱VSTaqman基因分型VSBeadstation 基因分型.doc,七、SNPs实验分析中的问题,最常见和最严重的问题是基因型分型错误(Genotyping Errors),基因分型错误和影响:一起案例,Gagneux P,Woodruff DS,Boesch C.Furtive mating in female chimpanzee

33、s.Nature.1997 May 22;387(6631):358-359 Gagneux P,Boesch C,Woodruff DS.Microsatellite scoring errors associated with noninvasive genotyping based on nuclear DNA amplified from shed hair.Mol Ecol.1997 Sep;6(9):861-868Retraction:Furtive mating in female chimpanzees.Nature.2001 Nov 29;414(6863):508.,All

34、 types of molecular marker are prone to genotyping error,including sequence data.,1 导致基因分型错误的原因,Nat Rev Genet20056(11)847-859,DNA分子的相互影响,样本质量差,生化和仪器假象,Null allele:a non-amplifying allele that is due to a mutation in the primer target sequence;Allelic dropout:the stochastic non-amplification of an al

35、lele,that is,amplification of only one of the two alleles present at a heterozygous locus;Mistaken allele:an allele that does not correspond to the true allele,excluding the null allele,allelic dropout and false allele.False allele:allele-like PCR-generated artifact;Tm:melting temperature.,人为因素,2 减少

36、基因分型错误及其影响的措施 2.1 通用建议 首先,确定基因分型的可行性。其次,发现理论与实际的出错率以及是否可以耐受。最后,对实验的全过程进行质量控制。2.2 降低分型流程中的错误率 仅熟练的研究科学家或技术人员参与其中。仅使用标准的和有效的操作指南。尽量减少人为因素或操作的影响。系统性的采用适当数量的阳性和阴性对照。运用5%-10%的样本进行盲性重复实验与分析。,2.3 等位基因分型后的错误率控制 常用的手段有:Mendelian consistency和Hardy-Weinberg equilibrium 的检验。用于上述检验的软件有如下几种:,评估出错的影响,测试或计算基因分型的错误率

37、,L/Q,linkage or QTL studies;P,pedigree analysis;PG/D,population genetics or demography.,Nat Rev Genet20056(11)847-859,对包含错误的数据进行再分析,.,2 拟分析的SNPs,必须进行研究群体的频率分布确认 例如LPL基因的rs1800590,九、SNPs数据库使用流程演示,第一步:输入http:/www.ncbi.nlm.nih.gov/,进入数据库主页NCBI主页.doc第二步:选择SNP库,输入基因名或其简称,比如LPL-获得该基因的所有SNP信息LPL-SNP Result

38、s.doc,NCBI数据库运用举例1.利用基因来找SNP,备注:V=Validated(确认)G=Genotype data available(有基因型数据),第六步:按照SNP选择原则,挑选出需要进行研究的SNP位点幻灯片 79,2.利用Marker来找SNP,第一步:输入http:/www.ncbi.nlm.nih.gov/进入数据库主页,第二步:点击SNP,进入dbSNP数据库主页dbSNP数据库主页.doc,第三步:点击here进入检索页面在Between Markers栏目下,输入两个Markers名称后进行检索即可获得介于这两个Markers之间的所有 SNPs信息,比如:输入R

39、H79657和RH45644,点击Submit STS Markers,即可获得位于人类15号染色体上的1577个SNP信息,第四步第五步第六步,操作参见-1.利用基因来找SNP,HapMap数据库运用举例,第一步:输入http:/hapmap.ncbi.nlm.nih.gov/,进入HapMap数据库主页.doc,第二步:点击Data进入数据库浏览页.doc,第三步:点击Generic Genome Browser,进入HapMap数据浏览和下载网页.doc,第四步:在查询窗中输入基因名或染色体区域,在数据窗选择 数据来源库,在保存、查询和其他选择窗中挑选 Download SNP geno

40、type data 或tag SNP data来分别 获取相应的数据。第五步:点击配置,设定参数来获得在CHB群体中的 SNP genotype 或 tag SNP data第六步:选择CHB,rs,Save to Disk三个参数来保存SNP genotype data,然后用HaploView软件进行分析 或选择CHB,Tagger Multimarker*,r20.8,MAF0.05,Save to Disk五个参数来保存tag SNP data,获得的数据可用于实验设计 或发表论文。,思考题 请任意选择一个人类基因,在中国汉族群体中分析该基因拥有的单核苷酸多态性的生物学信息,然后依据获得数据,提出那些单核苷酸多态性位点可能会具有生物学功能。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号