《生物信息学序列分析ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学序列分析ppt课件.ppt(81页珍藏版)》请在三一办公上搜索。
1、第7章 序列分析,2,一、初级序列分析序列的组成/分子量/等电点分析,碱基组成,DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的,但几乎所有的研究都证明碱基是以不同频率分布的。,表1包含了9个完整DNA分子序列的资料,表2的数据来自两个胎儿球蛋白基因(Gr和Ar),每个基因具有三个外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”,基因间区域是指两个基因间的其余序列。,表1 九种完整DNA序列的碱基组成,表2 人类胎儿球蛋白基因不同区段的碱基组成,7,
2、8,序列组成分析,9,A/G/C/T的组成,尤其是G+C含量的预测(进化?探针设计?),10,11,序列组成分析,12,序列组成分析,13,蛋白分子量和等电点,14,蛋白分子量和等电点,15,蛋白分子量和等电点,16,蛋白质分子量/等电点预测 online Compute pI/MW,http:/us.expasy.org/tools/pi_tool.html,17,酶切位点分析,只要进行基因工程利用必须用到各种限制性内切酶如 GGATCC BamHI,18,进行酶切位点分析的时候,对于构建载体,我们需要知道的信息是你的序列中有/没有某个酶的位点?为什么?如果答案是“有”,是什么情况?“没有”
3、又是什么情况?,Plasmid vector,Sac I,XbaI,Hind III,Hind III,Xba I,Cloning site,SacI,19,20,二碱基相邻频率,分析DNA序列的主要困难之一是碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积,例:鸡血红蛋白链的mRNA编码区的438个碱基,图1 鸡球蛋白基因编码区的DNA序列 (GenBank:CHKHBBM,记录号J00860),表3 图1鸡球蛋白基因序列的相邻碱基分布,在编码区,存在某种约束来限制DNA序列编码氨基酸。在密码子水平上,这一约束与碱基相邻频率有关。 表4列出了遗传密码和图1序列中各密码子数
4、量。尽管数目很小,难以作出有力的统计结论,但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。 表4还清楚地表明,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,因而对第3位置上碱基的约束要比第 2位碱基小得多。,表4 64种可能的碱基三联体密码子及相应的氨基酸数(据图1序列),相邻碱基之间的关联将导致更远碱基之间的关联,这些关联延伸距离的估计可以从马尔科夫链(Markov chain)理论得到(Javare和Giddings,1989),27,什么是HMM?Hidden Markov Models (HMMs, 隐马尔可夫模型)
5、最早是在上个世纪60年代末70年代初提出来的一种概率论模型。进入80年代以后,逐渐被利用在各个领域。主要的应用领域:语音识别系统。生物学中的DNA/protein序列的分析。机器人的控制。文本文件的信息提取。,28,什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于其后的核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其基本原理基于任何一个序列的出现都不是独立的。,密码子偏好性分析,密码子是核酸携带信息和蛋白质携带信息间对应的基本原则, 是生物体内信息传递的基本环节。在生物的遗传密码中, 除色
6、氨酸和甲硫氨酸只有一个密码子外, 其余氨基酸都有一个以上的简并密码子。对同一物种, 不同蛋白编码密码子在基因中出现的频率不同; 就同一种氨基酸而言, 编码该氨基酸的不同密码子的比率在不同的蛋白中也有差异, 因此生物体基因对简并密码子的选择具有一定的偏爱性。,同义密码子(Synonymous Codons):编码同一氨基酸的密码子。在蛋白质编码过程中, 某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子, 这种现象称为同义密码子的使用偏性(Synony mous Codon Usage Bias)研究密码子使用偏性的意义:(一)作为预测真核生物核糖体在细胞内定位的一种手段 ,通过比较核基
7、因编码的核糖体蛋白和线粒体基因编码的核糖体蛋白上密码子使用模式的差异来预测未知蛋白的基因所在基因组位置。,(二)通过密码子使用偏好性的研究,可以判定一些最优密码子,针对这些密码子设计基因工程表达载体可以提高目的基因的表达量 。(三)利用密码子使用偏好性和某种功能的关联程度对某些未知功能基因进行预测,利用已知的密码子偏好知识对未知表达水平的基因进行判定,初步判断该基因的表达水平高或低。(四)利用编码区和非编码区的基因组特征差异进行全基因组扫描,发现新基因。,由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993)
8、和最优密码子使用频率FOp(Lavnerand Kotlar2005) 等。多种多样的技术和方法促进了密码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致,特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才能确保结果的正确性。,计算同义密码子相对使用度(Relative synonymous codon usage, RSCU)在genebank中取出序列后,用codonw进行在线分析,同义密码子相对使用度(Relative synonymous codon usage, RSCU):它是指对于某一特定的密码子
9、,在编码对应氨基酸的同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然 。其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1n)x代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。,结果如下:利用rscu计算密码子Franction和Frequency。Franction:各个密码子在编码该氨基酸的密码子中所占的比例。Frequency:该密码子在编
10、码总基因密码子中出现的频率。,如图,结果如下:,同样,可计算出密码子适应指数:Sequence: AY047586.1 CAI: 0.109 用chips计算出有效密码字数:# CHIPS codon usage statistics Nc = 48.082 密码子适应指数( Codon adaption index , CAI )该指数以一组具高表达水平的基因为参考, 测量某一个基因的密码子偏好情况和这些高表达基因密码子偏好情况的接近程度, 如果一个基因完全使用高表达基因中所用的密码子, 则其 C AI 值为 1。目前这个指数已被广泛用来预测基 因 的表达水平。有效密码子数 ( Effect
11、ive Number of Codon ,Nc)C AI 测量的是某个基因所用的密码子与高表达基因所用密码子的接近程度 。 和 C AI 不同 ,Nc测量的是某个基因的密码子偏好程度 , 如果一个基因平均使用每一个密码子 ,则其 Nc 为 61 ,如果一个基因只使用每组同义密码子中的一个 ,则其 Nc 为 20 。理论上讲 ,一个具有低 C AI 的基因也可以同时具有低 Nc 值 ,换句话说 , 该基因具有较强的密码子偏好性 ,只不过其偏向的并不是高表达基因所用的密码子 。,GC 和 GC3sG C 测量的是基因中 G 和 C 的含量 。G C 3s 则计算密码子第三个碱基中出现 G 或 C
12、的频率 。一般认为这两个因素对基因的密码子选择有重要影响。 GC content不同物种GC含量变化很大识别基因水平转移,判断外源基因GC skew(G-C)/(G+C)%预测细菌或古细菌复制起点,三同向重复序列分析,除了分析整个序列碱基关联程度的特征外,我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按:,计算字
13、码值。这些值的取值范围为1到4k,例如:5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。,序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如,在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复;以每
14、一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。,表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin, 1983),四、RNA二级结构预测,尽管现有一些RNA折叠程序可以预测RNA二级结构,但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区,但对给定的RNA分子来说,这一结果的生物学意义究竟有多大,还是一个未知数。即使有此局限性,二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。,在线的有:mfold http:/mfold.rna.albany.edu/?q=mfoldRNAfold http:/
15、rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi SFold http:/sfold.wadsworth.org/cgi-bin/index.pl,离线软件有 RNAstructure,五、从序列中寻找基因,1.基因及基因区域预测,基因按其功能可分为结构基因和调控基因:结构基因可被转录形成mRNA,并进而转译成多肽链;调控基因是指某些可调节控制结构基因表达的基因。在DNA链上,由蛋白质合成的起始密码开始,到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列,除了细菌和病毒的DNA中ORF是连
16、续的,包括人类在内的真核生物的大部分结构基因为断裂基因,即其编码序列在DNA分子上是不连续的,或被插入序列隔开。断裂基因被转录成前体mRNA,经过剪切过程,切除其中非编码序列(即内含子),再将编码序列(即外显子)连接形成成熟mRNA,并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列,但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。,一种典型的真核蛋白质编码基因的结构示意图。其编码序列(外显子)是不连续的,被非编码区(内含子)隔断。,所谓基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。 不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些
17、预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识,预测出可能的完整基因,基因区域的预测是一个活跃的研究领域,先后有一大批预测算法和相应程序被提出和应用,其中有的方法对编码序列的预测准确率高达90%以上,而且在敏感性和特异性之间取得了很好的平衡,预测方法中,最早是通过序列核苷酸频率、密码子等特性进行预测(如最长ORF法等),随着各类数据库的建立和完善,通过相似性列线比对也可以预测可能的基因。同时,一批新方法也被提了出来,如隐马尔可夫模型(Hidden Markov Model,HMM)、动态规划法(dynamic programming)、法则系统(ruled-based
18、 system)、语言学(linguistic)方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树(decision tree)、拼接列线(spliced alingment)、博利叶分析(Fourier analysis)等。 下表列出了claverie(1997)对部分程序预测基因区域能力的比较结果,表中同时列出了相应算法和程序的网址。,目前基因区域预测的各种算法均存在以下2个问题,(1)目前算法对基因中的非编码区和基因间序列不加任何区别,所以预测出的基因仍然是不完全的,对5和3非编译区(UTR,untranslated region)的预测基本
19、上还是空白;,(2)目前大多数算法都是基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列,而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练,由于训练所用的序列毕竟是有限的,所以对那些与学习过的基因结构不太相似的基因,这些算法的预测效果就要大打折扣了,要解决以上两个问题,需要对基因结构进行更深入的研究,寻找隐藏在基因不同结构中的内在统计规律。,2发现基因的一般过程,从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次,第一步:获取DNA目标序列, 如果你已有目标序列,可直接进入第2步;, 可通过PubMed查找你感兴趣的资料;通过GenBank或EMBL等数据库查找
20、目标序列,第二步:查找ORF并将目标序列翻译成蛋白质序列,利用相应工具,如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等,查找ORF并将DNA序列翻译成蛋白质序列,第三步:在数据库中进行序列搜索,可以利用BLAST进行ORF核苷酸序列和ORF翻译的蛋白质序列搜索,第四步:进行目标序列与搜索得到的相似序列的整体列线(global alignment),虽然第三步已进行局部列线(local alignment)分析,但整体列线有助于进一步加深目标序列的认识,进行多序列列
21、线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行,第五步:查找基因家族,第六步:查找目标序列中的特定模序, 分别在Prosite、BLOCK、Motif数据库进行profile、模块(block)、模序(motif)检索;, 对蛋白质序列进行统计分析和有关预测,第七步:预测目标序列结构,可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构
22、,第八步:获取相关蛋白质的功能信息,为了了解目标序列的功能,收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索,第九步:把目标序列输入“提醒”服务器,如果有与目标序列相似的新序列数据输入数据库,提醒(alert)服务会向你发出通知。可选用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器,六、基于编码区特性:最长ORF法,基因区域或蛋白质编码区的识别,特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个读框全部翻译出来,然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现
23、,预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:,一类是基于编码区所具有的独特信号,如始起密码子、终止密码子等;,二是基于编码区的碱基组成不同于非编码区,这是由于蛋白质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的;,三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。前二类方法主要是利用编码区的特性来寻找,下面对这二类方法做简单描述,最长ORF法:在细菌基因组中,蛋白质编码基因从起始密码ATG到终止密码平均有100bp,而300bp长度以上的ORF平均每36Kb才出现一次,所以只要找出序列中最长的ORF(300b
24、p)就能相当准确地预测出基因,利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法,如GCG(Genetic Computer Group 研制,一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法,CpG岛:CpG岛(CpG island)一词是用来描述哺乳动物基因组DNA中的一部分序列,其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超
25、过4种碱基总和的50%,即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现,几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛,其序列可能包括基因转录的启动子及第一个外显子。因此,在大规模DNA测序计划中,每发现一个CpG岛,则预示可能在此存在基因。另外,AT含量也可以作为编码区的批示指标之一,61,七、基因结构分析/启动子序列分析,62,1)基因结构分析: 了解基因的内含子/外显子排列方式;例子1: 水稻6PGDH基因进化分析的结果表明其可能来源于内共生(基因结构分
26、析表明其没有内含子). 例子2:NHX基因,63,1)基因结构分析:,Genomic DNA,cDNA,64,用softberry预测基因结构 http:/www.bio-,65,什么是HMM?对于给定的核苷酸序列,我们在位置p处出现的概率依赖于它后核苷酸序列。即任何一个核苷酸的出现并不是完全独立的。对于基因识别而言,HMM可以分为2种:按内容搜索:即根据核苷酸和密码子在编码区内的分布规律来确定蛋白质的编码区;按信号搜索:即通过分析编码区周围的信号(启动子终止子各种cis-element等来确定蛋白质的编码区。大家只要知道HMM是目前生物信息学中应用非常广泛的概率论模型,广泛应用于基因识别,其
27、基本原理基于任何一个序列的出现都不是独立的。,66,一个例子: 用softberry预测基因结构,67,2)启动子序列分析: 什么是启动子?启动子序列,一般在TSS之前2000bp,了解哪个位点是TSS,哪个是起始ATG?,TSS,ATG,TATA,promoter,69,2)启动子序列分析: 所以,我们必须得到TSS的位置.如何通过生物信息学方法确定TSS? 首先截取包括ATG之前3000bp和基因的序列采用以下两种方法 1)软件预测,如Softberry; 2)搜索EST数据库;,70,分析的目的:2)首先找到ATG前面约3000: 如何通过生物信息学方法确定TSS? 以AF486280为例.首先要找到包含AF486280的基因组序列.,71,2)首先截取ATG之前3000bp序列以AF486280为例.首先要找到包含AF486280的基因组序列.,72,73,74,75,76,77,78,方法一: 用softberry预测.,79,方法二: 用Fruitfly网站的promoter预测程序预测.,80,81,回顾和讨论:,什么是HMM?如何进行基因结构的预测?Promoter的位置在哪里?什么是TSS, 为什么要预测TSS?预测TSS有哪些方法?,