《核酸序列分析》课件.ppt

资源描述

《《核酸序列分析》课件.ppt》由会员分享，可在线阅读，更多相关《《核酸序列分析》课件.ppt（31页珍藏版）》请在三一办公上搜索。

1、第四章核酸序列分析,4.1 DNA序列分析和基因结构,DNA序列分析的目的意义在DNA序列中，除了基因之外，还包含许多其它信息，这些信息大部分与核酸的结构特征相关联，通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点，如启动子（Promoter）、基因终止序列（Terminator sequence）、剪切位点（Splice site）等。DNA序列分析就是在获得DNA原始序列的基础上，快速寻找基因，找出基因的位置及其功能位点，这对于基因的结构和功能研究，揭示生命奥秘具有重要意义。,UTR，非翻译区域（untranslated regions）,基因

2、结构原核生物基因结构,真核生物基因结构,基因不连续性：基因的编码序列在DNA分子上是被不编码的序列隔开而不连续排列，绝大多数真核生物基因是不连续的，由内含子（intron）和外显子（exon）组成。,发现重复元素,数据库搜索,分析功能位点,综合分析,基本的DNA序列分析方案,遮蔽重复序列,序列重复现象在原核、真核生物DNA中都存在，真核生物更普遍。有种属特异性，基因组越大重复序列含量越丰富。分为轻度重复序列、中度重复序列、高度重复序列等类型。,一般来说，在进行任何DNA序列的基因分析之前,最好把散布和简单的重复序列找出来并从序列中除去。虽然这些重复序列可能正好覆盖了由RNA聚合酶转录的部分区域

3、，它们几乎不会覆盖启动子和外显子编码区。重复序列还常常会搅乱其它分析，特别是在数据库搜索中，由于重复序列的存在，可能得到许多同样的结果，这些结果的得分很高，使解释数据库搜索结果变得复杂、困难。,相关资源CENSOR http:/censor/RepeatMasker http:/-bin/WEBRepeatMasker Repbase 这些网站上的在线程序可帮助识别并去除重复序列。,同源性检索,一般来说，数据库相似性搜索是进行基因辨识的最初手段，也是DNA序列分析的最基本步骤。在同源性检索中，通过查询DNA数据库来判断查询序列是否与已知基因的序列相同或相似。例如，如果通过搜索发现待分析的序列与

4、已知蛋白质编码序列相似，则可以推测待分析的序列是基因序列。,基因分析,序列翻译与开放阅读框（ORF）预测,序列翻译指利用计算机程序将核酸序列按照三联体密码规则翻译成蛋白质序列，还可以将氨基酸序列倒翻成核酸序列。阅读框（reading frames）对于任何给定的单链核酸序列，根据密码子的起始位置，可以按照三种方式进行解释，这三种阅读顺序称为阅读框。,双链DNA序列有6个可读框,开放阅读框（open reading frames，ORF）以起始密码子（通常为ATG）开始，以终止密码子（TAA、TGA或TAG）结束（但不包括终止密码子），中间由一系列密码子组成的序列区域，它决定了所编码蛋白质的氨

5、基酸顺序。DNA序列分析中基因识别的目的之一就是进行开放阅读框（ORF）的寻找和预测。,ORF辨别的基本方法（1）利用编码区所具有的独特信号，比如起始密码子、终止密码子等进行识别检查终止密码子的出现频率基本思想：如果能够找到一个比较长的序列，其相应的密码子序列不含终止密码子，则这段序列可能就是编码区域。基本算法：扫描给定的DNA序列，在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后，回头寻找起始密码子。这种算法过于简单，不适合于处理短的ORF或者交叠的ORF。,分析各种密码子出现的频率基本思想：每种氨基酸是由相应个数密码子编码的，例如，亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密

6、码子。将一个随机均匀分布的DNA序列翻译成氨基酸序列，理论上说各氨基酸在序列中出现的比例应该符合氨基酸的密码子数目，如上述3种氨基酸出现的比例应该为6:4:1。但是在真实的氨基酸序列中，上述比例并不正确，这说明DNA的编码区域并非随机。基本算法：假设在一条DNA序列中已经找到所有的ORF，那么可以利用密码子频率进一步区分编码ORF和非编码ORF，利用这种方法，可以计算一个ORF成为编码区域的可能性。,（2）利用编码区与非编码区的碱基组成不同进行识别由于蛋白质中20种氨基酸出现的概率不同，每种氨基酸的密码子兼并度不同，同一种氨基酸的兼并密码子使用频率不同等原因，造成单个碱基的组成比例和多个碱基

7、的组成方式在不同的物种中呈现出不同的规律。因此，可通过统计分析识别编码序列。,（3）利用经验规律进行识别若在起始密码子上游发现了核糖体结合位点，则可肯定找到一个ORF。利用Kozak规则识别翻译起始位点 Kozak规则是研究第一个ATG侧翼序列的碱基分布所满足的统计规律，若将第一个ATG中的碱基A，T，G分别标为1，2，3位，则Kozak规则可描述如下：第4位的偏好碱基为G；ATG的5端约15bp范围的侧翼序列内不含碱基T；在-3，-6和-9位置，G是偏好碱基；除-3，-6和-9位，在整个侧翼序列区，C是偏好碱基。Kozak规则是基于已知数据的统计结果，不见得必须全部满足，一般来说，满足前两

8、项即可。,应用程序 ORF finder（）简单的在线基因查找程序，可对任何序列执行6个可读框的翻译，用户可自由选择义多肽的最小长度和所用的遗传编码规则。主要适合寻找基因分布密集并且无内含子的核酸序列。GetOrf（http:/）Plotorf（=plotorf）GENSCAN商业软件,基本思路：找出基因两端的功能区域:转录启动区（启动子）、终止区在启动区下游位置寻找翻译起始密码子转录剪切分析,探查DNA中的功能性位点,启动子分析启动子是DNA分子可以与RNA聚合酶特异结合的部位，也就是使转录开始的部位。识别出启动子对于基因辨识十分重要，启动子一般可分为两类:(1)一类是RNA聚合酶可以

9、直接识别的启动子。(2)另一类启动子在和聚合酶结和时需要有蛋白质辅助因子（转录因子）的存在。,启动子分析方法：利用模型描述几种转录因子结合部位定向及其侧翼结构特点，然后进行其它DNA序列的启动子预测的启发式方法；根据启动子与转录因子结合的特性，从转录因子结合部位的密度推测出启动子区域，这方法存在较高的假阳性；根据启动子区自身的特征来进行测定，这种方法的准确性比较高。同时，还可以结合是否存在CpG岛，而对启动子预测的准确性做出辅助性的推测。启动子预测软件有：PromoterScan;Promoter 2.0;NNPP;EMBOSS Cpgplot;CpG Prediction,(=5999&pi

10、d=57914&page=1&extra=page%3D1#pid57914)http:/bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html#databaseshttp:/http:/www.gene-,内含子剪接位点的识别选择性剪接是指选择性地对前体mRNA不同的剪接位点的组合的剪接方式。通过选择性剪接，由一条前体mRNA可生成多条的成熟mRNA。剪接连接点是指在切断和重接位点处的两旁的顺序。GT-AG法则：所有内含子序列 5 端起始的两个核苷酸总是 GT，3端的最后两个核苷酸始终是 AG，这就是RNA剪接的信号。,基本思路：(1)

11、寻找基因剪切位点，形成外显子和内含子的边界剪切给体（donor）位点-“GT”受体（acceptor）位点-“AG”,(2)搜集候选外显子，连接形成候选基因候选基因位于给定的DNA序列，并满足下列一致性条件：a 所有外显子加起来的长度是3的整数倍；b 在各个外显子内部（除最后一个外显子的最后一个密码子），没有终止编码；c 第一个内含子-外显子边界是翻译起始编码，而最后一个外显子-内含子边界是终止编码。(3)构建位点图从起点到终点的任何一条路径代表一个可能的基因结构。,(4)求最优路径计算外显子、内含子度量，赋予每一条子途径一个权值；计算剪切位点度量，赋予每个节点权值。利用DNA、RNA

12、和蛋白质数据库中的同源信息进行搜索，寻找相似体，从而综合评价出最可能的外显子组合。,基因搜索及内含子分析相关资源,其它基因分析方法EST策略的电子克隆表达序列标签（Expressed Sequence Tag，EST）是从一个随机选择的cDNA 克隆进行5端和3端单一次测序获得的短的cDNA 部分序列，代表一个完整基因的一小部分，一般长200-600个核苷酸对。一个全长的cDNA分子可以有许多个EST，但特定的EST有时可以代表某个特定的cDNA分子。首先对获得的EST数据进行同源性性分析，两端有重叠的共有序列的EST可以组装成一个叠连群，直到装配成全长的cDNA序列，然后再进行ORF和相关

13、功能位点的判定，这样就等于是克隆了一个基因的编码序列。还可以将EST作为一种标记序列定位在基因组，从而明确这个cDNA的基因组结构，包括外显子、内含子等。EST数据库：http:/,基因分析方法存在的问题：（1）目前的方法仅仅识别蛋白质编码基因转录信号（2）现有的许多方法仅检测单个基因部分基因、多重基因（3）基于同源分析的方法是保守的不可能发现新的基因（4）忽视关于基因结构的生物学知识基因表达的真实分子机制,常用的基因分析软件,商业软件包 GCG与Staden同属软件包，就是大量单个完成不同功能的软件的集合。使用时，单个软件可以互相调用、协同工作，也可以只使用单一一个软件完成某项操作。GCG

14、和Staden都可执行数百种任务，如序列比对，数据库搜索和查询，研究生物进化，序列装配，寻找基因及模式识别，RNA指纹及限制性内切酶图谱，引物设计，蛋白质motif分析，DNA/RNA二级结构分析，翻译等等。GCG与Staden的主要区别就在于，GCG有网络功能，用户不必在其本地机上装载GCG。而Staden到目前为止还不支持网络用户。,免费软件包（1）同源性搜索 BLAST、FASTA（2）未知序列分析软件重复序列分析 CENSOR、RepeatMasker编码区统计特性分析工具常见的编码区统计特性分析工具将多种统计分析技术组合起来，给出对编码区的综合判别。著名的程序有GRAIL和GenM

15、ark等，GRAIL提供了基于Web的服务。网址是：剪接位点分析 GENESCAN、NetGene,翻译起始/终止位点分析对于真核生物，如果已知转录起始点，并且没有内含子打断5非翻译区的话，“Kozak规则”可以在大多数情况下定位起始密码子。对于原核生物，关键是核糖体结合点的定位，可根据Shine-Dalgarno序列的特点进行。PolyA和翻译终止信号不象起始信号那么重要，但也可以辅助划分基因的范围。启动子识别识别出启动子对于基因辨识十分重要。常用软件有Promoter Scan II、PromoterInspector、Dragon Promoter Finder 等。但是预测过程中遗

16、漏和假阳性都比较严重，仍需挖掘新的算法和软件。tRNA基因的识别 tRNA基因识别比编码蛋白质的基因识别简单，常用工具tRNAscan-SE(http:/-SE/)。常用工具软件 EBI整理的生物软件目录biocatalog()，包含有近千个软件，其中包括常用的引物设计软件Primer Premier和酶切位点设计软件WEBcutter等，基本上是最全的专业软件目录。,引物设计软件原理引物通常是指与模版DNA的特定位置互补的寡核苷酸。(1)择合适的靶序列：设计引物之前，必须分析待测靶序列的性质，选择高度保守、碱基分布均匀的区域进行引物设计。(2)长度：一般来说，寡核苷酸引物长度为1530bp

17、。(3)Tm 值：引物的Tm 值一般控制在5560，尽可能保证上下游引物的Tm 值一致，一般不超过2。若引物中的G+C 含量相对偏低，则可以使引物长度稍长，而保证一定的退火温度。(4)G+C含量：有效引物中（G+C）的比例一般为4060。(5)碱基的随机分布：引物中四种碱基的分布最好是随机的，不存在聚嘌呤和聚嘧啶，尤其在引物的3端不应超过3 个连续的G 或C。(6)引物自身：引物自身不存在连续4 个碱基以上的互补序列，如回文结构，发夹结构等，否则会影响到引物与模板之间的复性结合，尤其避免3末端的互补。,引物设计的基本过程(1)获得目标序列可从实验获取或者核酸数据库查询得到。(2)同源性比较A、在线的两两比较，如。B、采用软件进行两两或多序列比较，如OMIGA,PCGENE。(3)引物设计软件进行设计与筛选如Primer Premier 5.0 软件,限制性酶切位点分析软件酶切位点（Restriction Enzyme cutting site）：DNA上一段碱基的特定序列，限制性内切酶能够识别出这个序列并在此将DNA酶切成两段。限制性内切酶图谱：是指DNA链上某些限制性内切酶酶切位点的分布情况。分析方法：在线分析如，NEBcutter程序（）WEBcutter程序（）(1)利用常规生物软件的酶切位点分析功能进行分析如，DNAssist2.2、DNAMAN、DNAclub,

展开阅读全文