《第二十五章基因结构分析的基本策略.ppt》由会员分享,可在线阅读,更多相关《第二十五章基因结构分析的基本策略.ppt(78页珍藏版)》请在三一办公上搜索。
1、第二十五章基因结构分析的基本策略,Basic strategy for analyzing gene structure,主要内容:第一节 基因序列结构的生物信息学检索和比对 分析第二节 基因转录起始点的鉴定第三节 启动子的结构及功能分析第四节 编码序列结构分析,第一节 基因序列结构的生物信息学检索和比对分析,就是在数据库中对基因序列或DNA序列进行 比对分析,以其能够推测出其结构、功能及在进化上的联系.比对方法:1.双重比对 2.多序列比对,序列比对目的:判断两个或多个序列间是否具有足够的相似性从而判断二者之间是否具有同源性,直接的数量关系,进化上曾具有共同祖先,基因或DNA序列比对,序列比
2、对的结果:取代插入缺失,Mouse:GGKDSCQGDSGGPVVCNG-QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANCrayfish:GGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV-,缺失?,保守序列,保守序列:可能是共同进化的标志可能并不代表功能的重要性,插入?,当两个序列非常相似时,是否一定说明它们具有相似的功能?,NCBI数据库,NCBI首先创建GenBank数据库,于1991年开发了Entrez数据库检索系统,该系统整合了GenBank、EMBL、PIR和SWISS-PROT等数据库
3、的序列信息以及MEDLINE有关序列的文献信息,并通过相关链接,将他们有机地结合在一起NCBI还提供了其他数据库,包括在线人类孟德尔遗传(OMIM)、三维蛋白结构的分子模型数据库(MMDB)、人类基因序列集成(UniGene)、人类基因组基因图谱(GMHG)、生物门类(Toxonomy)等数据库,1.各种数据库的介绍,(1)Nucleotide,该数据库由国际核苷酸序列数据库成员美国国立卫生研究院GenBank、日本DNA数据库(DDBJ)和英国Hinxton Hall的欧洲分子生物学实验室数据库(EMBL)三部分数据组成三个组织每天交换各自数据库中的新增序列实现数据共享,(2)Genome,
4、即基因组数据库,提供了多种基因组、完全染色体、重叠序列图谱以及一体化基因物理图谱,(3)Structures,即结构数据库或称分子模型数据库(MMDB),包含来自X线晶体学和三维结构的实验数据,NCBI已经将结构数据交叉链接到书目信息、序列数据库和NCBI的Taxonomy中运用NCBI的3D结构浏览器和Cn3D,可以很容易地从Entrez获得分子的分子结构间相互作用的图像,(4)Taxonomy,即生物学门类数据库,可以按生物学门类进行检索或浏览其核苷酸序列、蛋白质序列、结构等,(5)PopSet,包含研究一个人群、一个种系发生或描述人群变化的一组组联合序列PopSet既包含了核酸序列数据又
5、包含了蛋白质序列数据,(7)文献数据库,PubMed:生物医药科学的检索系统 OMIM:孟德尔遗传学数据库是人类基因和基因疾病的目录数据库其他:书目,杂志,文章引用匹配等,该数据库包括原文信息、图片和参考信息,同时还可以链接到Entrez系统MEDLINE数据库中相关文献和序列信息,2.NCBI数据库检索,在检索框中输入检索词,检索词间默认逻辑关系为AND,检索规则基本同PubMed,可以通过下拉菜单选择记录的显示格式,通常选择GenBank Report格式或FASTA Report格式。当选择GenBank Report格式后,屏幕显示较完整的基因记录,包括:基因位点(Locus)、基因定
6、义(Definition)、基因存取号(Accession)、核酸编号(NID)、关键词(Keywords)、来源(Source)、组织分类(Organism)、参考文献(Reference)、著者(Author)、题目(Title)、期刊(Journal)、Medline存取号(Medline)、序列特征(Features)、基因(Gene)、CDS(cDNA)、等位基因(Allele)对等的肽(Mat-Peptide)、计算碱基数(Base Count)、原序列(Origin)。而FASTA Report格式仅包括检出序列的简要特征描述。,例如:人EPO基因序列检索,输入关键词,选择合适的
7、程序,向下拉寻找符合目标的条目,点击此条打开连接,向下拉寻找关注的内容,凡是连接的地方都可以点击查看,可以直接拷贝保存相关内容,Entrez:是一个用以整合NCBI数据库中信息的搜寻和检索工具,3.NCBI数据库搜索工具,BLAST:是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段,NCBI提供的附加软件工具有:开放阅读框寻觅器(ORF Finder),电子PCR,和序列提交工具,Sequin和BankIt,Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力,Entrez:,BLAST:,BLAST程序,点击核酸序列blast,在框内输入序列:,选
8、择搜索条件:,选择特殊程序:,比较两个序列之间的相似性:,以上仅简介了NCBI相关数据库及工具软件关于其他数据库及软件工具等信息见书中第二十五章表1-5。,第二节 基因转录起始点的鉴定,主要内容:一、基因转录起始点的序列特征二、基因转录起始点的序列分析,一、基因转录起始点的序列特征,1.真核基因及其调控元件,II 型启动子的TSS:没有明确的保守序列有一种趋势,即mRNA 的第一个碱基是A,其侧翼碱基倾向于是嘧啶与mRNA第一个碱基对应的位置标记为-1区-3+5区域被称作起始子(initiator),2.转录起始点(TSS),Py2CAPy5,二、基因转录起始点的序列分析,思考:转录起始点(T
9、SS)位于基因编码序列的5端基因编码区是指能体现在多肽链中的核苷酸序列多肽链是以mRNA为模板经翻译合成的,因此,分析鉴定TSS的方法都是以cDNA为切入点,1.cDNA克隆测序,AAAAAn,AAAAAn,mRNA,反转录酶,AAAAAn,Oligo(dT)15-18,cDNA第一链,CCCCC,cDNA第一链,nCCCC,nGGGG,cDNA第二链,克隆扩增,5端测序分析,反转录酶的末端转移酶活性Oligo(dG)15-18,mRNA,与线性载体相连接,要求:cDNA的5端完整无缺,2.cDNA末端快速扩增技术(RACE),传统的RACE:,mRNA,cDNA,mRNA,-5,3-,反转录
10、酶,Oligo(dT)15-18,末端转移酶,dGTP,nGGGGG,锚定PCR扩增,nGGGGG,nCCCCC,锚定引物,特异引物,PCR产物,Deep-RACE:,用寡核苷酸替代mRNA的5端帽结构以及发光标记巢氏PCR引物实现高通量鉴定转录起始点,5-p 帽,mRNA,牛小肠磷酸酶(CIP),5-帽,烟草酸焦磷酸酶(TAP),5-,将5-RACE adaptor(寡核苷酸)加到脱帽RNA分子上,5-RACE adaptor(寡核苷酸),反转录酶10nt 随机引物,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,长短不
11、同的cDNA,随机引物,用10nt随机引物与5-RACE引物进行PCR扩增,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,5-RACE adaptor,PCR产物,随机引物,以5-RACE引物和5端甩尾的基因特异性反向引物进行巢氏PCR,5-RACE adaptor,以5-RACE发光标记引物对PCR混合物直接进行一次性测序,分析基因转录起始点,3.连续分析基因转录起始点,在RACE的基础上,通过在转录本5 端引入一个特殊的II型限制性核酸内切酶识别位点,实现了基因5 端短片段串联连接产物一次测序分析多个基因转录起始点的目的主要有两种方法:5 端连续
12、分析基因表达(5-end serial analysis of gene expression,5 SAGE)帽分析基因表达(cap analysis gene expression,CAGE),(1)5 SAGE,5SAGE是在PCR过程中将MmeI酶切位点引物cDNA的5端,通过酶切和连接获得不同短片段重复序列,并对重复序列进行测序获得大量片段序列信息 不同序列的短片段代表不同基因的转录起始点(TSS),MmeI:是一种特殊的II型限制性核酸内切酶识别的序列不是回文结构,而是不对称的DNA序列5-TCCRAC-3(R代表G或A)在识别位点下游1820碱基处切开双链DNA,Gppp,AAAA
13、AAAAn,mRNA,用BAP和TAP处理,AAAAAAAAn,p,在RNA的5端加上寡核苷酸帽,AAAAAAAAn,XhoI,MmeI,反转录酶,RT,AAAAAAAAn,cDNA,PCR,Biotin-标记引物,随机引物,Biotin,MmeI,酶切消化,20 mer,亲和素,用亲和素-生物素,可以将5-端片段与其他片段分离开,20 mer,连接,20 mer,PCR扩增,XhoI,酶切消化,自身连接,串联体,测序分析,(2)CAGE,CAGE与5SAGE非常相似所不同的是:CAGE不需要在RNA上加接头,而是用oligo(dT)引物先进行第一链cDNA的合成然后通过捕获帽结构,将含有Mm
14、eI和另一内切酶位点如XmaJI的linker加到单链全长cDNA的3末端,AAAAAAn,Cap,mRNA,反转录酶,Oligo(dT)1518,AAAAAAn,Cap,TTTTTTTn,cDNA,捕获5-帽结构,单链linker,连接,TTTTTTTn,Biotin,cDNA第二链的合成,TTTTTTTn,AAAAAAn,MmeI,XmaJI,MmeI,酶切,亲和素,20 mer,用亲和素-生物素,可以将5-端片段与其他片段分离开,连接第二个linker,XbaI,XmaJI,XmaJI,Xbal,酶切消化,PCR(用linker1和linker2作引物),Linker 1,Linker
15、2,纯化,串联连接,克隆,20 mer,XmaJI和XbaI是同尾酶:XmaJI:CCTAGGXbaI:TCTAGA,串联体,测序分析,第三节 启动子的结构及功能分析,主要内容:一、启动子的结构分析二、启动子的功能分析,启动子(promoter)是一段能被蛋白质识别的、参与特定基因转录调控的DNA序列II型启动子通常位于结构基因的上游共通序列(consensus sequence)是其特征性序列,共通序列和启动子所处的位置是研究启动子的重要线索,共通序列,例如:原核基因的共通序列:-10区:Pribnow box(T77A76T60A61A56T82序列)-35区:T69T79G61A56C5
16、4A54 序列 真核基因的共通序列:真核基因启动子在-50区域附近(大约5%30%基因启动子在-25-30区域)有TATA box(TATAAA序列),TATAAT,TTGACA,一、启动子的结构分析,主要方法:利用PCR技术克隆启动子利用核酸-蛋白质相互作用方法研究启动子生物信息学预测启动子,(一)利用PCR技术克隆启动子,特异性基因序列,基因上游序列,基因组DNA,根据基因序列合成一条反向引物正向引物用随机引物,PCR扩增,随机引物,特异引物,克隆及测序分析,注意:真核基因有内含子,应该根据mRNA序列设计特异性引物特异性引物尽可能靠近基因的5端,1.根据已知基因序列直接进行PCR扩增,2
17、.利用TSS钓取启动子,AAAAAAn,Cap 5-,mRNA,反转录,AAAAAAn,TTTTTTn,cDNA,插入载体,克隆扩增,Cap 5-,以基因特异引物与载体引物配对,PCR扩增,5-,测序分析基因转录起始点序列,以TSS序列为引物,基因组序列为模板,与随机引物配对进行TSS上游序列的PCR扩增,3.利用环状PCR钓取启动子,基因组DNA,酶切消化,基因组DNA片段,直接环化连接,加上接头后环化连接,根据基因上游序列设计一对反向互补引物,PCR扩增,根据接头序列设计引物,PCR扩增,克隆测序分析,克隆测序分析,加接头环化PCR不依赖特异基因序列可用于筛选启动子,接头,(二)利用核酸-
18、蛋白质互作方法研究启动子,启动子是一段能被蛋白质识别和结合的DNA序列,因此,能够检测核酸-蛋白质相互作用的研究方法都可以用于启动子的研究中,主要方法:足迹法(酶足迹法,化学足迹法)电泳迁移率变动实验(EMSA)染色体免疫沉淀(ChIP),1.用足迹法研究启动子,足迹法(Footprinting)利用DNA电泳条带连续性中断的图谱特点判断与蛋白质结合的DNA区域,基本流程:,DNA与蛋白质相互作用,切割DNA,凝胶电泳,分析电泳图谱,(1)酶足迹法(Enzymatic footprinting),利用能切割DNA的酶处理DNA-蛋白质混合物,然后通过电泳进行分析,DNase I足迹法(DNas
19、e I footprinting),是一种利用DNase I 随机切割双链DNA,从而确定DNA结合蛋白在DNA上结合位点的方法,核酸外切酶III足迹法(Exonucleoase III footprinting),是利用核酸外切酶III(Exo III)的35外切酶活性从3末端切割双链DNA的特性,确定蛋白质在DNA上的结合位点的常用方法,DNase I 足迹法,dsDNA,单链末端标记,DNA结合蛋白,DNase I,酶切消化(控制反应时间),产生长短不同的片段但蛋白质结合区被保护,蛋白质结合区,M,No-pro,Pro-DNA,对在凝胶上出现空白区域的DNA进行克隆测序,即可确定结合蛋白
20、质的DNA序列,变性凝胶电泳,(2)化学足迹法(Chemical footprinting),是利用能切断DNA骨架的化学试剂处理DNA-蛋白质复合物,从而通过化学试剂无法接近结合蛋白质的DNA区域而确定DNA的蛋白质结合位点主要方法:羟自由基足迹法 体内足迹法,1)羟自由基足迹法(Hydroxyl radical footprinting),化学试剂,羟自由基,利用化学试剂产生的羟自由基攻击DNA分子表面脱氧核糖骨架使DNA断裂当DNA结合蛋白将脱氧核糖遮盖时,自由羟基无法攻击而使这个区域的DNA受到保护,电泳图谱上出现空白区的地方就是结合蛋白质的DNA,变性凝胶电泳,2)体内基足迹法(In
21、 vivo footprinting),用化学试剂对活细胞进行体内处理,使DNA在细胞内受到化学修饰,然后裂解细胞,用化学法或酶法进行足迹实验。,甲基化干扰实验(Methylation interference assay)是利用化学试剂如硫酸二甲酯(Dimethyl sulfate,DMS)对活细胞DNA进行甲基化修饰,从而干扰蛋白质与DNA的结合。,乙基化干扰实验(Ethylation interference assay)是利用化学试剂对活细胞DNA进行乙基化修饰,从而干扰蛋白质与DNA的结合。,化学试剂,提取DNA,DNase I 或化学试剂,变性凝胶电泳分析,切割DNA,化学修饰对蛋
22、白质与DNA的结合有干扰,因此,体内足迹实验也叫干扰实验电泳图谱需与未修饰的DNA样品进行比较,在未修饰样品中出现空白区的位置是体内发生化学修饰的DNA区域,正常对照,化学修饰,提取DNA,2.用电泳迁移率变动实验研究启动子,电泳迁移率变动实验(Electrophoretic mobility shift assay,EMSA)是利用结合蛋白质的DNA片段在凝胶中迁移滞后的特点,通过电泳分离研究核酸-蛋白质互作的方法又称为凝胶阻滞实验(Gel retardation assay),细胞蛋白质提取物,标记的DNA片段,蛋白质与DNA结合,蛋白质-DNA复合物电泳迁移滞后,凝胶电泳,显影,滞后条带
23、表明DNA是与蛋白质结合的区域,3.用染色体免疫沉淀技术研究启动子,染色体免疫沉淀(Chromatin immunoprecipitation,ChIP)是在保持蛋白质与染色体DNA结合的同时,将染色体切割成小片段并沉淀下来,非变性ChIP:是先用核酸酶处理细胞核,将染色体消化成碎片,然后用合适的抗体将结合有蛋白质的染色体片段通过免疫沉淀选择出来,再以PCR或核酸杂交技术对DNA序列进行分析 变性ChIP:是先用甲醛处理细胞,使蛋白质与DNA在细胞内发生交联,然后分离染色体并进行剪切,用特异性抗体与DNA结合蛋白相结合,以沉淀法分离DNA-蛋白质复合体,前面章节已介绍,这里不再详述,(三)生物
24、信息学预测启动子,真核基因组的测序正在以不断增长的速度进行着,目前已经可以获得大约50个完整真核生物基因组的序列信息,预计在未来几年内将会完成更多的基因组测序工作对基因组注释工作中最难的就是精确鉴定和描绘启动子,因此,启动子的预测就显得非常重要,预测启动子的切入点启动子的结构特征启动子在染色体上的位置,1.启动子的结构特征,典型启动子核心启动子:一般在TSS上游-35区域以内近端启动子:一般涉及TSS上游几百个碱基远端启动子:一般涉及TSS上游几千个碱基 含有增强子或沉默子,一些特征性的结构 TSS附近的CG岛经常出现在启动子中共通序列(consensus sequence),2.启动子的预测
25、分析,EPD(Eukaryotic promoter databases)TRRD(Transcription regulatory regions databases)基因转录起始点数据库(DBTSS),启动子数据库,这些数据库主要通过计算机识别、判断及分析,在数据库中寻找启动子的特异性特征结构。,二、启动子的功能分析,启动子通常是基因上游参与基因转录调控的DNA序列。由于启动子中的顺式作用元件在基因的特异性表达中发挥重要作用,因此,可以通过连接报告基因研究启动子的功能。,1.报告基因(Reporter gene),是研究者们为了制造一种可在细胞培养条件下或动植物体内作为筛选标志的易检测信号
26、,通过分子生物学操作将发光蛋白或酶的编码基因附加到一个感兴趣基因上或插入基因调控序列下游,从而监测感兴趣基因的表达或分析基因调控序列的活性。,常用的报告基因,荧光蛋白编码基因:绿色荧光蛋白(GFP)红色荧光蛋白(dsRed)蛋白酶:荧光素酶(luciferase)-半乳糖苷酶,在蓝色光源照射下发绿光,能催化荧光素(luciferin)发生氧化反应发光,能使细菌在X-gal存在条件下变成蓝色,2.报告基因的应用,监测基因的转染效率 报告基因与目的基因分别插入各自启动子下游,实现报告基因的组成性表达模式监控目的基因的表达 报告基因与目的基因融合共同受控于一个启动子,报告基因的表达即代表目的基因的表
27、达研究启动子的活性 报告基因插入被研究启动子下游,通过观察报告基因的表达情况推测启动子活性,启动子捕获技术(promoter trapping):是一种研究启动子活性的筛选方法基本流程:构建启动子捕获载体观察报告基因的表达,报告基因,MCS,ori,候选启动子序列,插入MCS,转染细胞,观察报告基因的表达,启动子捕获载体,第四节 编码序列结构分析,编码序列(coding sequence):通常是指能体现在蛋白质氨基酸序列中的基因信息,主要内容一、基因编码序列的结构特征二、基因编码序列的结构分析,一、基因编码序列的结构特征,基因的编码序列具有一些特征性序列比如:开放阅读框架蛋白质翻译的起始密码
28、子和终止密码子真核基因的外显子(编码序列)和内含子(非编码序列)之间有特殊序列,(一)开放阅读框架,开放阅读框架(open reading frame,ORF)是指生物基因组中含有能潜在编码蛋白质的一段核苷酸序列 在基因序列中,ORF位于起始密码子(start codon)和终止密码子(stop codon)之间,密码子:是由三个核苷酸组成的DNA序列,也称作三联密码子生物体基因组中总共有64种密码子,其中三个终止密码子,61个编码氨基酸的密码子,分析一段DNA序列中是否存在ORF:从理论上说,一般需要对双链DNA序列的6种阅读框架进行分析,每一条链分析三种阅读框架 例如:,1)5-UCU A
29、AA AUG GGU GAC-3(其中AUG是起始密码子)2)5-U CUA AAA UGG GUG AC-33)5-UC UAA AAU GGG UGA C-3(其中UAA是终止密码子),只有真正的ORF可以不遇到终止密码子,(二)mRNA选择性剪接的序列特征,mRNA的选择性剪接(alternative splicing):是指基因外显子转录产物RNA以不同方式进行切割再连接的过程经剪接所产生的mRNA可以翻译成不同的蛋白质,从而导致一个基因可以编码一个以上蛋白质,真核基因的内含子在与外显子交界区域有共通序列(consensus sequences):内含子的5端有GU序列,3端有AG序列
30、,(三)基因外显子的序列特征,基因外显子可以被分成三部分能够被翻译成蛋白质的编码区5-非翻译区(5UTR)3-非翻译区(3UTR),有作为蛋白质翻译起始重要元件的Kozak序列:由起始密码子AUG及其周围序列组成,3UTR位于终止密码子下游,含有poly A尾的加尾信号AATAAA序列,二、基因编码序列的结构分析,基因的编码序列是指能体现在成熟mRNA中的核苷酸序列,因此,与mRNA互补的cDNA成为研究编码序列的主要切入点.,主要方法:cDNA文库的编码序列筛选RNA剪接分析编码序列用数据库分析编码序列,高通量分析RNA剪接的方法主要有三种:基于DNA微点阵分析、交联免疫沉淀(CLIP)和体外报告基因测定法,对各种方法所获得的cDNA片段的序列在基因数据库中进行同源性比对,通过染色体定位分析、内含子/外显子分析、ORF分析及表达谱分析等,小结:,基因结构分析的切入点已经从一个基因的克隆测序,发展到如今在基因组范围的高通量筛选,因此,研究策略也发生了变化,基因数据库在不知不觉中占据了重要地位。基因结构特点成为基因组范围内高通量扫描基因的重要靶标,基因的转录起始点、启动子以及编码序列是基因的重要结构特征,