《基因多态性与疾病发生遗传易感性深圳课件.ppt》由会员分享,可在线阅读,更多相关《基因多态性与疾病发生遗传易感性深圳课件.ppt(101页珍藏版)》请在三一办公上搜索。
1、2023/3/27,1,基因多态性与疾病发生遗传易感性,Gene Polymorphism and Genetic Susceptibility to Disease,2023/3/27,2,提 纲,单核苷酸多态性Single Nucleotide Polymorphism基因多态性与疾病发生遗传易感性Gene Polymorphism and Genetic Susceptibility to Disease基因多态性与基因转录调控Gene Polymorphism and Regulation of Gene Transcription展望Future Prospects,DNA Stru
2、cture,2023/3/27,4,基因突变,基因突变(mutation):由于DNA碱基对的置换、插入或缺失而引起的基因结构的变化,亦称点突变。根据基因结构的改变方式,基因突变可分为碱基置换突变和移码突变两种类型:碱基置换突变:由一个错误的碱基对替代一个正确的碱基对的突变叫碱基置换突变。碱基替换过程只改变被替换碱基的那个密码子,也就是说每一次碱基替换只改变一个密码子,不会涉及到其他的密码子。移码突变:基因中插入或者缺失一个或几个碱基对,使DNA的阅读框架(读码框)发生改变,导致插入或缺失部位之后的所有密码子都跟着发生变化,结果产生一种异常的多肽链。,2023/3/27,5,基因突变,根据遗传
3、信息的改变方式,基因突变又可以分为同义突变、错义突变和无义突变三种类型:同义突变:DNA的一个碱基对的改变并不会影响它所编码的蛋白质的氨基酸序列,这是因为改变后的密码子和改变前的密码子是简并密码子,它们编码同一种氨基酸,这种基因突变称为同义突变。错义突变:由于一对或几对碱基对的改变而使决定某一氨基酸的密码子变为决定另一种氨基酸的密码子的基因突变叫错义突变。这种基因突变有可能使它所编码的蛋白质部分或完全失活。无义突变:由于一对或几对碱基对的改变而使决定某一氨基酸的密码子变成一个终止密码子的基因突变叫无义突变。,2023/3/27,6,单核苷酸多态性,单核苷酸多态性(single nucleoti
4、de polymorphism,SNPs):是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每500-1000个碱基对中就有1个,人类30亿碱基中大约有1000万个SNPs。SNP所表现的多态性可以只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition,嘌呤嘌呤或嘧啶嘧啶)或颠换(transversion,嘌呤嘧啶)所引起,也可由碱基的插入或缺失所致。但通常所说的SNP并不包括后两种情况。,2023/3/27,7,单核苷酸多态性,理论上,SNPs可以分二、三和四等
5、位基因,但人类一般为二等位基因(biallelic)。二等位基因有4种不同类型,包括1种转换CT(GA)和3种颠换CA(GT)、CG(GC)、TA(AT)。四种SNPs类型在人类中的发生频率不同,最常见的为CT(GA)转换,约占2/3,其它3种类型发生的频率相同。之所以转换几率高,可能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。,单核苷酸多态性,Example of an SNP comprising a GA substitutionElectropherograms produced by fluorescenc
6、e-based sequencing using an ABI 3700 showing the genomic DNA from an individual homozygous for G at the site of the SNP(a)and an individual homozygous for A(b).The base substitution is denoted by an arrow.,2023/3/27,9,单核苷酸多态性,人类基因组中大约估计每个基因有2个常见的错义突变在公共数据库中至少有500万个SNPs。仅有少量(可能为50,000250,000)SNPs在一定程
7、度上(小到中等度)能反映与疾病发生危险相关的表型。根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间SNPs(Intergenic SNPs,iSNPs)等三类。SNPs在基因组中的分布十分广泛,但不同的区域出现的频率不同。人类单碱基等位基因十分稳定。人类SNPs大部分(85%)是共有的。,2023/3/27,10,单核苷酸多态性,63%Intronic(内含子)24%Locus region(基因座区)11%Untranslated region(非翻译区)1%Nons
8、ynonymous(nsSNPs,错义SNPs)1%Synonymous(同义SNPs)1%Splice site(剪接位点)1%Unknown coding variant(不明编码变异),SNPs分布区域:,2023/3/27,11,单核苷酸多态性,SNPs应用多基因病和复杂性疾病如人类肿瘤、糖尿病、自身免疫性疾病、老年性痴呆等的遗传连锁分析(linkage analysis)及关联分析(association analysis),用于疾病易感基因定位和克隆。“药物基因组学”(pharmacogenomics)研究中用于揭示人群中不同个体对不同药物的敏感性差异的根本原因。法医研究的罪犯身份
9、的鉴别、亲子鉴定等。在器官移植中供体和受体间的配对选择。研究人类起源、进化和群体遗传学特征。,人类基因组SNPs研究所揭示的人种、人群和个体之间DNA序列的差异以及这些差异所表现的意义将对疾病的诊断、治疗和预防带来革命性的变化。,2023/3/27,12,单核苷酸多态性,今后SNP的研究主要包括两个方面:SNP数据库的构建:主要目的是发现特定种类生物基因组的全部或部分SNP。大规模SNP数据库构建只是基因组序列分析中心可以胜任的工作,常规实验室是不太可能进行该工作的。SNP功能的研究:发现SNP只是SNP研究的第一步,而SNP功能的研究才是SNP研究的目的。特定DNA区域的特定SNP在特定群体
10、的序列验证和频率分析以及SNP与特定生理/病理状态关系的研究是SNP研究的主要方面。,2023/3/27,13,提 纲,单核苷酸多态性Single Nucleotide Polymorphism基因多态性与疾病发生遗传易感性Gene Polymorphism and Genetic Susceptibility to Disease基因多态性与基因转录调控Gene Polymorphism and Regulation of Gene Transcription展望Future Prospects,2023/3/27,14,问题,基因选择哪些基因和位点值得研究?相对于全基因组,候选基因研究有何
11、优点?如何将SNP功能信息融入相关性研究中?实验室方面如何选择合适的实验室方法?如何进行质量控制?如何利用公共数据库信息?研究设计和数据分析何种研究设计和分析方法是实现研究重现性所必需?如何处理人群遗传结构上的差异,如单倍体区段、种族差异等?,2023/3/27,15,基因选择,各物种基因数量比较,物 种 基因数量小鼠(Mouse)30,000拟南芥(Arabidopsis)27,000人类(Human)25,000线虫(C.elegans)19,500,2023/3/27,16,基因选择,候选基因(Candidate Genes)候选基因具有对生物学合理性(biological plausi
12、bility)和疾病因果关系(disease causality)作最大化推理(maximizing inferences)的优点。候选基因可根据某一特定疾病发生过程中基因功能信息来加以限制。,2023/3/27,17,基因选择,生物学上的考虑:基于疾病的发病机制(生物学合理性、权威的科学假说等),易感基因(susceptive genes)敏感基因(sensitive genes)生物学通路(biological pathways),Apoptosis Pathway,http:/genome.ucsc.edu,Base Excision Repair Pathway,http:/genom
13、e.ucsc.edu,Nucleotide Excision Repair,http:/genome.ucsc.edu,Double Strand Break Repair Pathway,http:/genome.ucsc.edu,Transcription Coupled Repair Pathway,http:/genome.ucsc.edu,Folate Metabolism Pathway,DNA Damage-Response Pathway,p53 ProteinAccumulation,Binding to Transcription-Replication-Repair Fa
14、ctorsTFIIH(XPB,XPD)and p62 binds to p53PCNA(p21WAF1 and GADD45),Altered ExpressionBAX and FasBcl2,Increased Expression p21WAF1,MDM2,cyclin G,and GADD45,Modified from Harris,1994,2023/3/27,25,基因选择,药物治疗反应(treatment response)基因表达改变(gene expression changes)病人的存活状况(survival status)药物的毒副反应(side effects or
15、 toxicities),这些因素与某一特定药物、后续事件的时序以及剂量等有关。,如在药物遗传学和药物基因组学研究领域,在选择候选基因时可考虑下列因素:,2023/3/27,26,多态性位点选择,复杂疾病的易感性往往是由稀少的变异(rare variants)所决定。牛津大学统计学系的Pritchard在美国人类遗传学杂志上发表了“Are rare variants responsible for susceptibility to complex diseases?”综述阐述了这一观点。nsSNPs或调控SNPs(rSNPs,指可导致基因转录调控改变的SNPs)是人类个体间差异的重要分子基础
16、。未来研究的重要挑战是对rSNPs的识别和功能揭示。,2023/3/27,27,多态性位点选择,选择次序编码区SNPs:外显子(exon)非编码区SNPs启动子区(promoter region)5非翻译区(5-UTR)剪接位点(splice site)3非翻译区(3-UTR)内含子(intron),2023/3/27,28,多态性位点选择,全基因组和基于单倍体型的研究合适的流行病学设计和足够的统计学功效(statistical power)是必需的。尽管全基因组研究不易重复,但仍可识别基因组中与疾病发生存在因果关系的区域(causative regions)。连锁不平衡区段(linkage
17、disequilibrium blocks)存在于整个基因组中,但其长度可因人群遗传学结构上的差异而不同。采用单倍体区段(haplotype block)的信息较单纯基于SNP的分析可提高1550%的功效。,2023/3/27,29,总结,全基因组研究方法在今后的研究中是可行的,但在高通量、数据库以及统计分析方面将面临巨大挑战。候选基因方法在确定特定疾病因果关系上仍然具有重要的意义。单核苷酸多态性的功能学意义是理解和认识流行病学相关性研究生物学基础的关键。在相关性研究的基础上,应该深入探讨SNPs的功能,包括对基因翻译和转录调控等的作用。,2023/3/27,30,实验室研究,高并联(high
18、 parallel):小样本多位点高通量(high throughput):大样本少位点,理想的基因分型方法应包括5-10%重复样本,优化实验通量和质量控制,两种方案:,2023/3/27,31,实验室研究,实验室研究的主要问题是质量控制基因型的错误分类(misclassification)可导致偏倚(bias)常见的实验室问题包括DNA污染、DNA质量或数量不合适、样本/板方向标错、检测误差等。基因分型时应包括盲样重复、阳性对照和空白对照。,对于病例对照研究,病例和对照样本不应分开检测以减少潜在的错误。,2023/3/27,32,实验室研究,基因多态性的检测方法 PCR-RFLP(restr
19、iction fragment length polymorphism):限制性片段长度多态性 PCR-SSCP(single strand conformation polymorphism):单链构像多态性分析 PCR-SSP(Sequence Specific Primers):序列特异引物聚合酶链反应DNA Sequencing:DNA测序PCR-ASO(allele specific oligonucleotide):等位基因特异性寡核苷酸探针法PCR-SSO(sequence specific oligonucleotide):顺序特异寡核苷酸法PCR-荧光法 PCR-finger
20、prints:PCR指纹图法DNA Microarray:DNA微探针阵列,又称基因芯片法AFLP(amplication fragment length polymorphism):扩增基因组DNA限制性片段法DGGE(denaturing gradinent electrophoresis):变性梯度凝胶电泳法RAPD(random amplified polymorphic DNA):随机扩增的多态性DNA法,2023/3/27,33,基因组数据库资源,公共数据库和资源,常用的网址如下:http:/www.ncbi.nlm.nih.gov/SNP(National Center for
21、Biotechnology Information)http:/egp.gs.washington.edu/(NIEHS SNPs Program)http:/snp500cancer.nci.nih.gov/home_1.cfm?CFID=264728&CFTOKEN=86045010(SNP500Cancer)http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi(Pubmed)http:/snp.ims.u-tokyo.ac.jp/index.html(SNPs database from Japan)http:/www.gene.ucl.ac.uk/n
22、omenclature/(HUGO Gene Nomenclature Committee)http:/www.ncbi.nlm.nih.gov/genome/seq/HsBlast.html(Blast search),2023/3/27,34,基因组数据库资源,存在的问题数据库中存在许多错误:所报告的编码区5-16%的SNPs因复制片段(复制子,duplicon)而成为共生同源变异(paralogous variants),因此并非真正的SNPs。有1530%的SNPs没有经过验证(verified),因此可能是不存在的。数据库往往是基于少量的信息因为SNP频率存在种族差异,因此SNP频率
23、如果没有种族类型报告,该数据可能是不可用的。,2023/3/27,35,研究设计和统计分析,疾病遗传易感性的分子流行病学研究:利用生物化学、分子生物学、免疫学、分子遗传学等基础学科的技术和手段,在疾病发病机制方面开展的基因多态性、基因与环境交互作用等相关的研究。常见的研究方法包括病例对照研究、前瞻性队列研究、病例病例研究等。,2023/3/27,36,研究设计和统计分析,以现在确诊的患有某特定疾病的病人作为病例,以不患有该病但具有可比性的个体作为对照,通过询问,实验室检查或复查病史,搜集既往各种可能的危险因素的暴露史,测量并比较病例组与对照组中各因素的暴露比例,经统计学检验,若两组差别有意义,
24、则可认为因素与疾病之间存在着统计学上的关联。一种回顾性的,由结果探索病因的研究方法,是在疾病发生之后去追溯假定的病因因素的方法。分为病例与对照不匹配(unmatching)和病例与对照匹配(matching)两种类型。匹配要求对照在某些因素或特征上与病例保持一致,目的是对两组进行比较时排除匹配因素的干扰:分为频数匹配(frequency-matching)和个体匹配(1:1,1:21:R,一般不超过1:4,否则统计效率下降)。,病例对照研究(Case-Control Study),2023/3/27,37,研究设计和统计分析,病例与对照的基本来源有两个:一个来源是医院的现患病人、医院、门诊的病
25、案,及出院记录,称为以医院为基础的(hospital-based);另一个来源是社区、社区的监测资料或普查、抽查的人群资料,称为以社区为基础的(community-based)。病例的选择主要是确定判断病人的标准和怎样获得这些符合判断标准的病人;对照最好是全人群的一个无偏样本,或是产生病例的人群中全体非患该病的人的一个随机样本,而且也经过相同诊断确认为不患所研究的疾病。,病例对照研究(Case-Control Study),2023/3/27,38,研究设计和统计分析,影响样本大小的因素:病例对照研究样本大小取决于四个参数1.研究因素在对照人群中的暴露率(P0)2.预期暴露于该研究因素造成的相
26、对危险度(RR)或比值比(OR)3.希望达到的检验性水平,即假设检验第I类错误,即假设检验所允许的假阳性错误的概率。4.希望达到的检验把握度(1-),为假设检验第II类错误,即假设检验所允许的假阴性错误的概率。,病例对照研究(Case-Control Study),2023/3/27,39,研究设计和统计分析,样本量估计方法:不同配比方式的样本大小计算方法不同,可用公式计算或从样本量表中查得。需要注意的是:所估计的样本含量并非绝对精确的数值,因为样本含量的估计是有条件的,而这些条件并非是一成不变的。应当纠正样本量越大越好的错误看法。样本量过大,常会影响调查工作的质量,增加负担、费用。病例组和对
27、照组样本含量相等时效率最高。,病例对照研究(Case-Control Study),2023/3/27,40,研究设计和统计分析,如频率匹配的病例对照研究样本量估计N=2A(1-A)(Z+Z)2/(p1-p0)2式中:N为病例组和对照组人数,Z、Z分别为及值相对应的标准正态分布分位数,可查表求得,p0和p1分别为对照组和病例组某因素的估计暴露率。q0=1-p0,q1=1-p1,A=(p0+p1)/2其中p1也可由计算公式求得:p1=(ORp0)/(1-p0+ORp0),也可简化成p1=(ORp0)/1+p0(OR-1)。,2023/3/27,41,研究设计和统计分析,标准正态分布的分位数表或Z
28、(单侧检验)Z(双侧检验)Z(单侧和双侧检验)0.0013.0903.2900.0022.8783.0900.0052.5762.8070.0102.3262.5760.0202.0582.3260.0251.9602.2420.0501.6451.9600.1001.2821.6450.2000.8421.282,2023/3/27,42,研究设计和统计分析,样本量大小估计举例拟进行一项病例对照研究,研究吸烟和肺癌的关系。一般人群吸烟率约为20%,吸烟和肺癌的比值比为2.0,要求=0.05(双侧),=0.10,估计样本大小N。求p1:p1=(20.2)/(1-0.2+20.2)=0.333q
29、0=1-0.2=0.8q1=1-0.333=0.667A=(0.2+0.333)/2=0.267查标准正态分布的分位数表得Z=1.960,Z=1.282N=20.267(1-0.267)(1.960+1.282)2/(0.333-0.2)2=232即每组需要232人。,Cancer,Cancer-free,Case-Control Study,Susceptibility:Diet,Metabolism,DNA damage&Repair,Carcinogenes,Odds ratio(OR)to estimate relative risk probability of developing
30、 cancer,OR=1,no riskOR 1,increased riskOR 1,protective effect,Questionnaire dataBiomarker assays,2023/3/27,44,研究设计和统计分析,以基于医院的肿瘤病例对照研究为例病例:病人应为新诊断、病理学确诊;未经放疗或化疗;无肿瘤病史;无输血史对照:无肿瘤者,可从医疗或保健机构中招募的,与病例无生物学上相关的医疗求助者或病人陪伴着。病例应与对照在年龄、性别、种族和吸烟状况上在频率上相匹配或采用个体匹配。正式的知情同意书、流行病学调查表和血液采集。统计分析:采用t检验、方差检验和多因素 logist
31、ic回归分析等。,2023/3/27,45,研究设计和统计分析,选定暴露于及未暴露于某因素的两组人群,随访观察一定的期间,比较两组人群某种疾病的结局,从而判断该因素与发病或死亡有无关联及关联大小的研究方法。特点属于观察法,需设立对照组。由“因”及“果”,时序合理,检验暴露因素与疾病的因果联系科学性强。最大优点是可以获取相对真实而可靠的资料。但是如果需要观察大量人群,则花费太大。如果疾病的潜伏期很长,则需要观察的时间很长。这些都会影响其可行性。用途检验病因假设:验证某种暴露因素对某种疾病发病率或死亡率的影响,也可同时观察某种暴露因素对人群健康的系统影响。描述疾病的自然史:疾病的自然发展过程,包括
32、疾病的起病(病理发生期)、潜伏期(隐伏期)、临床前期、临床期到结局的全过程。,前瞻性队列(或群组)研究(Cohort Study),Susceptibility:Diet,Metabolism,DNA damage&Repair,Carcinogenes,Cancer,Cancer-free,Genetic predisposition?(遗传易患体质?)Biomarkers for prevention and early detection?,Cohort Study,2023/3/27,47,研究设计和统计分析,又称为单纯病例研究(case only study)或病例系列研究(case
33、 series study)。病例-病例研究是近年来被广泛应用于疾病病因研究中评价基因与环境交互作用的一种方法,该方法仅通过某一疾病患者群体来评价基因型与环境暴露的交互作用,但不能评价二者各自的主效应。有时在一般病例对照研究中不易选择合适的对照,特别是在分子流行病学研究中,从无疾病的对照中去获取某种生物标本也受到医学伦理方面的制约。如果对一种疾病的两个亚型进行对比研究,例如出血型脑卒中与缺血型脑卒中、p53突变阳性基因型的食管癌与p53突变阴性基因型的食管癌或者食管癌的鳞癌与腺癌的比较研究,可以不另外设对照组,而采取两个亚组的直接比较。这种设计可以免除从无病的对照组收集资料特别是生物标本的麻烦
34、,适用于研究两组病因的差异部分,而其相同或近似的危险因素则将被掩盖或低估。,病例-病例研究(Case-Case Study),2023/3/27,48,研究设计和统计分析,应用的前提条件:在正常人群中基因型与环境暴露各自独立发生,而且所研究的疾病为罕见病(此时可用OR来估计RR值)。基本步骤:确定某一患者群体作为研究对象收集病人的一般情况、协变量、环境暴露资料,以及生物标本。采用分子生物学技术检测基因型根据某一基因型的有无将研究对象分为类病例组和类对照组统计分析,计算OR值、P值。判断有无相乘模型的交互作用及显著性意义。若有,进一步判断为正相乘作用还是负相乘作用。,病例-病例研究(Case-C
35、ase Study),Blood Sample Processing and Biomarker Assay Flow Chart,2023/3/27,50,研究设计和统计分析,相关性研究结果可重复吗?遗憾的是,大多数结果不能重复。假阳性报告(false-positive reports):伪相关(spurious associations)假阴性报告(false-negative reports):该研究无足够的效能来识别该相关性人群之间存在的差异(population differences),2023/3/27,51,研究设计和统计分析,在相关性研究结果缺乏一致性时,应采用何种可信度水平
36、?大样本(large sample size)避免出版偏差(avoid publication bias)种族分层(ethnic stratification),2023/3/27,52,研究设计和统计分析,影响相关性研究结果的因素:病因学上的复杂性(etiological complexity)统计效能和采样设计(statistical power and sampling design)人群结构(population structure)数据解释(data interpretation),2023/3/27,53,研究设计和统计分析,数据解释(Data Interpretation)有几种
37、情况:显著关联、无重要关联、无法决定。假阳性报告概率(false positive report probability,FPRP)有助于作出判断FPRP取决于先验概率(prior probability)、统计效能(statistical power)和效能指数(effect size)。,统计效能:指当H0为错时你正确地拒绝H0的概率(significance of the relationship under test)效能指数:是指被检验的两变量之间关系的强度(strength of the relationship under test)。两者均与样本大小有关。,2023/3/27,
38、54,研究设计和统计分析,数据解释(Data Interpretation)当先验概率较高时,那么假阳性报告概率将较低,其关联性将更趋正确。研究者必须选择一个临床或病因学上有意义的效能指数,如相对危险度(relative risk,RR)或比值比(odds ratio,OR)以及先验范围。通常我们计算并比较OR值及其95%可信限(95%confidence interval,95%CI)。,2023/3/27,55,提 纲,单核苷酸多态性Single Nucleotide Polymorphism基因多态性与疾病发生遗传易感性Gene Polymorphism and Genetic Susc
39、eptibility to Disease基因多态性与基因转录调控Gene Polymorphism and Regulation of Gene Transcription展望Future Prospects,启动子与基因转录,Promoter Region,Control sites in DNA provide binding sites for proteins;coding regions are expressed via the synthesis of RNA,2023/3/27,59,基本概念,启动子(promoter):位于结构基因5端上游的一段DNA序列指导全酶(holo
40、enzyme)同模板正确结合活化RNA聚合酶启动基因转录启动子区(promoter region):RNA聚合酶(RNA polymerases)同启动子结合的区域RNA聚合酶:利用DNA模板合成RNA的酶,RNA聚合酶的活性形式(全酶)为15S,由5种不同的多肽链构成,按分子量大小排列分别为(155000),(151000),(7000),(36500)和(11000)。每分子RNA聚合酶除有两个亚基外,其余亚基均只有一个,故全酶为2(450000)。全酶是指酶蛋白及其辅酶构成的有功能的复合物。,The function of RNA polymerase is to copy one st
41、rand of duplex DNA into RNA,2023/3/27,62,基本概念,共有序列(consensus sequence)是指与真实序列相比,启动子每个位置最常出现的理想化碱基序列。即将所有已知启动子排列起来以求其最大相似性。一个序列如果为共有,则每一个特定碱基都理应在相应位置上有分布优势。大多数共有序列间的碱基差异不能超过1-2个。,2023/3/27,63,启动子结构,有多种元件:TATA框、GC框、CATT框、OCT等。结构不恒定:有的有多种框盒如组蛋白H2B;有的只有TATA框和GC框,如SV40早期转录蛋白。它们的位置、序列、距离和方向都不完全相同。有的存在远距离的
42、调控元件,如增强子。这些元件常起到控制转录效率和选择起始位点的作用。不直接和RNA聚合酶结合。转录时先和其它转录激活因子相结合,再和聚合酶结合。,真核生物中有三种不同的RNA聚合酶,因此也有三种不同的启动子,其中以启动子最为复杂,它和原核的启动子有很多不同:,2023/3/27,64,RNA聚合酶的核心酶虽可合成RNA,但不能找到模板DNA上的转录起始位点,只有带因子的全酶才能专一地同启动子结合。RNA聚合酶沿着模板前进,直到终止子,转录产生一条RNA链。通常把基因转录起点前面即5端的序列称为上游(upstream),起点后面即3端的序列称为下游(downstream)。并把起点的位置记为+1
43、,下游的核苷酸依次记为+2,+3,上游方向依次记为-1,-2,-3,,启动子结构,2023/3/27,65,启动子结构,在真核基因中,有少数基因没有TATA框。没有TATA框的真核基因启动子序列中,有的富集GC,即有GC框;有的则没有GC框。GC框位于-80-110bp处的GCCACACCC或GGGCGGG序列。TATA框的主要作用是使转录精确地起始;CAAT框和GC框则主要是控制转录起始的频率,特别是CAAT框对转录起始频率的作用更大。在真核生物中,在转录起始位点上游70-80bp处有CAAT顺序,也称为CAAT盒,是比较保守的共有序列:GCCTCAATCT。,DNA-蛋白质结合研究策略,2
44、023/3/27,67,背景,基因转录实际上是RNA聚合酶、转录调控因子和启动子区各种调控元件相互作用的结果。在基因表达的调控中,转录的起始是关键。常常某个基因是否应当表达决定于在特定的启动子起始过程。启动子区DNA结合蛋白作为转录调控因子,通过与启动子DNA结合以调节基因转录。犹如抗原-抗体特异性结合一样,蛋白质与DNA的结合也是特异的,这是研究启动子区DNA结合蛋白的前提。,DNA-binding and activating functions in a transcription factor may comprise independent domains of the protei
45、n,2023/3/27,69,研究方案,细胞内法(in vivo):以已知启动子DNA序列筛选出与其相结合的蛋白编码基因,通过生物信息分析来确定该蛋白质的名称。优点:更符合生理状态,操作简便,适合大通量筛选,用于寻找未知基因及蛋白质。缺点:一是只能筛选可与启动子DNA特异性结合的蛋白质,但不能检查出精确的蛋白质结合位点;二是特异性略差。常用的有酵母单杂交(Yeast one hybrid)技术、噬菌体表面展示(Phage display)技术等。,2023/3/27,70,研究方案,细胞外法(in vitro):即在体外用重组的已知蛋白质与启动子DNA结合。优点:特异性好,且能够在启动子DNA
46、序列上找到精确的蛋白质结合位点。缺点:效率低,操作复杂,一般不用于寻找未知基因及蛋白质。常用的有EMSA(electrophoretic mobility-shift assay)、DNase I foot-printing assay等。,2023/3/27,71,凝胶迁移率变动试验(EMSA),基本原理为:在凝胶电泳中,由于电场的作用,小分子DNA片段比其结合了蛋白质的DNA片段向阳极移动的速度快。若目的DNA与特异性蛋白质结合,则其向阳极移动的速度受到阻滞,在凝胶放射性自显影上或生物素标记,就可找到DNA结合蛋白。,2023/3/27,72,超级EMSA,超级EMSA,即Super-sh
47、ift assay,是EMSA试验的改进,将DNA与更多的蛋白结合,这样,与特异性蛋白结合的目的DNA移动速度进一步减慢。,由于凝胶迁移率变动试验的特异性好,常用来鉴定其它方法筛选出的结果。显而易见,克隆启动子DNA片段并标记,用该实验就可找到相应的结合蛋白。,2023/3/27,73,EMSA优缺点,优点:简单、快速、敏感缺点:,需已知目标DNA序列DNA序列较短,一般为20-30个核苷酸。体外(非体内)检测方法,EMSA原理,(a)The binding site of interest is synthesized as a short radiolabelled DNA probe w
48、hich can be used to identify both known and novel factors binding to the candidate region.Once bound to DNA,a proteinDNA complex is stabilized when subjected to non-denaturing PAGE,allowing resolution of proteinDNA complexes as discrete bands.(b)The specificity of the interaction may be investigated
49、 by competition experiments in which typically 10-or 100-fold excess unlabelled probe is added,which,in the case of a specific competitor probe,results in progressively less radiolabelled probe bound by the transcription factor protein.,2023/3/27,75,DNase I 足迹试验,足迹试验(foot-printing assay)不仅能找到与特异性DNA
50、结合的目标蛋白,而且能告知目标蛋白结合的碱基部位。足迹试验的方法较多,常用的有DNase I 足迹试验、硫酸二甲酯(dimethylsulfate,DMS)足迹试验,二者原理基本相同。基本原理:蛋白结合在DNA片段上,保护结合部位不被DNase I破坏,这样,蛋白质在DNA片段上留下了“足迹”,在电泳凝胶的放射性自显影图片上,相应于蛋白质结合的部位没有放射性标记条带。,Principle of the DNase I foot-printing assay,(含乳糖操纵子DNA),(乳糖阻遏物),Principle of the DNaseI foot-printing assay,2023/