基因组信息分析课件.ppt

上传人:小飞机 文档编号:1720852 上传时间:2022-12-16 格式:PPT 页数:151 大小:4.10MB
返回 下载 相关 举报
基因组信息分析课件.ppt_第1页
第1页 / 共151页
基因组信息分析课件.ppt_第2页
第2页 / 共151页
基因组信息分析课件.ppt_第3页
第3页 / 共151页
基因组信息分析课件.ppt_第4页
第4页 / 共151页
基因组信息分析课件.ppt_第5页
第5页 / 共151页
点击查看更多>>
资源描述

《基因组信息分析课件.ppt》由会员分享,可在线阅读,更多相关《基因组信息分析课件.ppt(151页珍藏版)》请在三一办公上搜索。

1、,第5章基因组信息分析,5.1 关于遗传语言5.2 原核基因组特点5.3 真核基因组特点5.4 基因组序列分析5.5 基因识别方法5.6 非编码区与分析和调控 元件建模,第5章5.1 关于遗传语言,第一部分:搜索遗传语言;原核、真核基因组特点,第一部分:,1、基因组DNA的奥秘 遗传信息存贮在4种字符组成的核酸序列中 “天书”用遗传语言书写的人类遗传蓝本包含的信息量巨大更重要的是目前人类对它了解甚少天书中只有4个字符(碱基A、T、G、C)既没有段落,也没有标点符号是一个长度为3109的一维序列。,1、基因组DNA的奥秘,科学家对这本天书了解最多的部分就是遗传密码或者说掌握了DNA对蛋白质编码的

2、规律 关于密码子(1)密码子的使用是非随机的 如果密码子的第一、第二位碱基是A、U, 那么第三位将尽可能使用G、C;反之亦然。 如果三位都用G、C,则配对容易,分解难; 三位都用A、U,则相反。 一般地说,高表达的基因,要求翻译速度快, 要求密码子和反密码子配对快、分手也快。,科学家对这本天书了解最多的部分就是遗传密码,(2)密码子的使用有一定的统计规律 对同义密码子的使用存在着偏爱不同种属偏爱的密码子不同 人类基因组:密码子第三位取A、U的情况占90%而第三位取G、C仅占10%密码子的使用偏性与基因功能、蛋白质结构相关,(2)密码子的使用有一定的统计规律,(3)密码子中的密码 三个碱基的位置

3、与所编码的氨基酸性质存在着联系例如:芳香族氨基酸以U作为第一位碱基中间位置碱基的性质与氨基酸是亲疏水性相关疏水氨基酸的密码子,其第二位碱基是U亲水氨基酸的密码子,其第二位碱基是A第二位碱基是G、C的密码子所编码的氨基酸亲水性、疏水性居中。,(3)密码子中的密码,基因组信息人类基因组: 编码区域只占1%-3%对于非编码序列,尚不清楚其含义或功能非编码区域对于生命活动具有重要的意义 包括内含子、简单重复序列、移动元件、伪基因 重复序列: 卫星(satellite)DNA小卫星(mini-satellite)DNA微卫星(micro-satellite) 顺式调控元件:启动子、增强子、沉默子,基因组

4、信息,2、探索遗传语言 用语言学的方法进行研究自然语言计算机程序设计语言遗传语言二进制序列0、1的长程关联性分析结果:编码区域 自然语言非编码区域 程序设计语言蛋白质编码区域所包含的信息相当于待加工的“数据”数据经过加工处理以后产生对应的蛋白质;而非编码区域则相当于“程序”或“指令”,确定如何在时间和空间方面控制基因的表达和蛋白质的合成,2、探索遗传语言,用密码学方法进行研究是否存在其它密码?调控信息密码?蛋白质结构的密码? 编码在DNA上的一维程序如何在四维时空中控制生命体的生长发育,用密码学方法进行研究,3、关于生物复杂性生物的复杂性不仅仅是基因的数目人类基因约为30000个线虫有2000

5、0个基因,230000/220000=210000103000,3、关于生物复杂性230000/220000=210000,4、基因组计划带来的希望 实验数据的积累速度在迅速地增加 计算机科学和技术也在不断地发展,4、基因组计划带来的希望,单个基因组分析基因序列基因功能基因的表达调控基因产物基因多态性,单个基因组分析,比较基因组分析物种关系物种进化物种起源,比较基因组分析,基因组信息分析课件,人、鼠基因组比较,人基因组 鼠基因组 鼠染色体上的颜色和数字代表在人染色体上对应的片段.,老鼠约75%的基因与人类相同。,人、鼠基因组比较 人基因组,SARS 基因组(Severe Acute Respi

6、ratory Syndrome),SARS 基因组,全基因组核酸搜索结果,全基因组核酸搜索结果,分段核酸搜索结果,分段核酸搜索结果,全基因组蛋白质搜索结果,全基因组蛋白质搜索结果,原核基因组特点,原核生物的遗传物质大都是环状DNA,它们基因组存在固有的特点,可以利用这些特点分辨物种,识别基因。,原核基因组特点 原核生物的遗传物质大都是环状DNA,它,长开放阅读框,开放阅读框(open reading frame) :结构基因内从起始密码子开始到终止密码子的一段核苷酸区域,其间不存在任何终止密码,可编码完整的多肽链,这一区域被称为开放阅读框。ORF表明该区域可能对应于一个原核生物基因的编码序列。

7、,长开放阅读框 开放阅读框(open reading f,长开放阅读框,绝大部分原核生物蛋白质的长度大于60个氨基酸在大肠杆菌E.coli中,蛋白质编码区域平均长度为316.8个密码子,不到1.8%的基因的长度小于60个密码子,长开放阅读框绝大部分原核生物蛋白质的长度大于60个氨基酸,原核基因分析的简单原则,若终止密码子出现在非编码核酸序列中,大约每21个密码子出现一次(3/64).如果所有的密码子在随机的核酸序列中以相同的频率出现,则不含终止密码子且长度为N个密码子的序列出现的几率为(61/64)N .长度为N的ORF的95%显著性置信度等价于5%“随机”命中的可能性,即(61/64)N=0

8、.05,这里N等于60,表示典型长度的ORF中密码子的数目。,原核基因分析的简单原则若终止密码子出现在非编码核酸序列中,大,高基因密度,原核基因组中的基因密度非常高 完全测序的细菌和古细菌的基因组数据表明,其中85到88的核酸序列与基因的编码直接相关。 在大肠杆菌(E.coli)中总共有4,288个基因,平均编码长度为950bp,而基因之间的平均间隔长度只有118bp。,高基因密度 原核基因组中的基因密度非常高,简单的基因结构,原核基因为连续基因,其编码区是一个完整的DNA 片段。,简单的基因结构 原核基因为连续基因,其编码区是一个完整的DN,GC含量,碱基G、C相对于A、T的丰度很早就被看作

9、是区分细菌基因组的特征之一 .不同的原核生物中,GC含量(GC content)从25%到75%,变化非常大。 大部分细菌是通过从其它生物体大规模获得基因(长度为几万甚至几十万个核苷酸)而进化的(水平转移).简而言之,许多细菌基因组表现为具有不同GC含量的区域的组合物,这些区域反映了细菌的进化历史。,GC含量 碱基G、C相对于A、T的丰度很早就被看作是区分细菌,真核基因组特点,基因组规模大非编码序列大基因结构复杂基因转录调控方式复杂可变剪接CpG岛 等值区 密码子使用偏性,真核基因组特点基因组规模大,基因组规模,真核细胞的细胞核中一般有多条线性染色体,而且通常包含每条染色体的双拷贝。 人的基因

10、组总长度超过30亿对碱基,而大肠杆菌的基因组只有500多万个碱基。,基因组规模 真核细胞的细胞核中一般有多条线性染色体,而且通常,非编码序列巨大,真核生物具有复杂的基因组结构。编码区域在人类基因组所占的比例不超过3%。其余97%是非编码序列,而在非编码序列中,各种重复序列占了很大一部分。,非编码序列巨大真核生物具有复杂的基因组结构。,基因结构复杂,基因结构复杂,基因转录调控方式复杂,真核基因的表达涉及多种RNA聚合酶。与原核生物只使用一种由多个蛋白聚合而成的RNA聚合酶不同,真核生物至少使用由8到12个蛋白组成的三种不同类型的RNA聚合酶。RNA 聚合酶I和III负责转录生成RNA分子,这些分

11、子本身执行重要的功能,在所有的真核细胞中需要始终保持相当恒定的水平。RNA聚合酶II专门负责转录编码蛋白质的基因。 RNA聚合酶II识别的启动子序列的多样性反映了区别基因的复杂程度,即在特定类型的细胞中和在特定的时间,区别哪些基因该表达而哪些基因不该表达。,基因转录调控方式复杂 真核基因的表达涉及多种RNA聚合酶。,可变剪接,估计有20%或更多的人类基因因为可变剪接(alternative splicing)而产生两种或多种不同的mRNA序列 .有一个人类的基因已经被证明,相同的原始转录物可以产生64种不同的mRNA,可变剪接 估计有20%或更多的人类基因因为可变剪接(alte,CpG岛,真核

12、生物基因组的GC含量的差别没有在原核生物间观察到的那么明显,但是CG两联核苷酸(常称作CpG,以表明连接两个核苷酸的磷酸二脂键)的出现频率仅为其随机出现的频率的20%,而没有发现其它核苷酸对有异常的出现频率。,CpG岛 真核生物基因组的GC含量的差别没有在原核生物间观察,CpG岛,许多人类基因5-端的12kb片段中发现CpG岛(CpG island),此处CpG的密度达到随机预测的水平。 人类基因组全长序列的分析结果表明,大约有45,000这样的岛,并且有一半左右与已知的管家基因(housekeeping gene,指在所有组织和在发育的所有阶段都高水平表达的基因)是有关联的,其余的CpG岛有

13、许多似乎是和组织特异性基因的启动子相关联的。CpG岛很少出现在不含基因的区域和那些发生多次突变的基因中。,CpG岛许多人类基因5-端的12kb片段中发现CpG岛(,基因组信息分析课件,等值区,定义:具有一致碱基组成的长区域 特征 :等值区基因组序列的长度超过1,000,000对碱基虽然不同的等值区其GC含量差别显著,但同一等值区的GC含量始终相对均衡 人类基因组大约可以划分为五个不同类型的等值区:a) L1和L2,平均GC含量分别为39%和42%(欠GC) b) H1、H2和H3,GC含量平均值分别为46%、49%和54% (丰GC),等值区 定义:具有一致碱基组成的长区域,密码子使用偏性,每

14、个氨基酸至少对应1种密码子,最多有6种对应的密码子 不同物种、不同生物体的基因密码子使用存在着很大的差异(酵母精氨酸偏好AGA,果蝇偏好CGC)从生物学基础来看,不同的密码子使用模式的形成可能与基因的GC含量有关。,密码子使用偏性 每个氨基酸至少对应1种密码子,最多有6种对应,基因组序列分析,DNA序列分析基因序列基因表达调控信息 寻找基因牵涉到两个方面的工作 :识别与基因相关的特殊序列信号预测基因的编码区域结合两个方面的结果确定基因的位置和结构 基因表达调控信息隐藏在基因的上游区域,在组成上具有一定的特征,可以通过序列分析识别这些特征。,基因组序列分析 DNA序列分析,5.4.1 基因组序列

15、分析步骤和分析结果评价,在DNA序列中,除了基因之外,还包含许多其它信息,这些信息大部分与核酸的结构特征相关联,通常决定了DNA与蛋白质或者DNA与RNA的相互作用。存放这些信息的DNA片段称为功能位点如启动子(Promoter)、基因终止序列(Terminator sequence)、剪切位点(Splice site)等。,5.4.1 基因组序列分析步骤和分析结果评价在DNA序列中,,发现重复元素,数据库搜索,分析功能位点,序列组成统计分析,综合分析,一个基本的DNA序列分析方案,发现重复元素数据库搜索分析功能位点序列组成统计分析一个基本的,功能序列分析的准确性来自于对“功能序列”和“非功能

16、序列”的辨别能力。两个集合: 训练集(training set)用于建立完成识别任务的数学模型。测试集或控制集(control set)用于检验所建模型的正确性。用训练集中实例对预测模型进行训练,使之通过学习后具有正确处理和辨别能力。然后,用模型对测试集中的实例进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,功能序列分析的准确性来自于对“功能序列”和“非功能序列”的辨,收集已知的功能序列和非功能序列实例(这些序列之间是非相关的 ),训练集(training set),测试集或控制集(control set),建立完成识别任务的模型,检验所建模型的正确性,对预测模型进行训练,使

17、之通过学习后具有正确处理和辨别能力。,进行“功能”与“非功能”的判断,根据判断结果计算模识别的准确性。,识别“功能序列”和“非功能序列”的过程,收集已知的功能序列和非功能序列实例训练集测试集或控制集建立完,Sn 敏感性Sp特异性Tp是正确识别的功能序列数,Tn为正确识别的非功能序列数,Fn是被错误识别为非功能序列的功能序列数,Fp是被错误识别为功能序列的非功能序列数。,Sn 敏感性,敏感性和特异性的权衡,对于一个实用程序,既要求有较高的敏感性,也要求有较高的特异性。如果敏感性很高,但特异性比较低,则在实际应用中会产生高比率的假阳性;相反,如果特异性很高,而敏感性比较低,则会产生高比率的假阴性。

18、对于敏感性和特异性需要进行权衡,给出综合评价指标。,敏感性和特异性的权衡对于一个实用程序,既要求有较高的敏感性,,对于一个识别程序准确性可按下式进行综合评价:另一个综合评介指标为相关系数,其计算计算公式为:,对于一个识别程序准确性可按下式进行综合评价:,选择训练集和测试集在检测算法的可行性时,需要从已知的数据中按照不同的方式选择训练集和测试集 测试集的构成非常关键在不同的测试集上进行测试可能会得到不同的准确性结果,甚至准确性相差很大。 建立标准的功能序列测试集合。如基因转录剪切位点的测试集合、编码区域的测试集合等。,选择训练集和测试集,5.4.2 核苷酸关联分析,对于一个给定的基因组,最简单的

19、计算就是统计DNA序列中各类核苷酸出现的频率。对于随机分布的DNA序列,每种核苷酸的出现是均匀分布的出现频率各为0.25。而真实基因组的核苷酸分布则是非均匀的,5.4.2 核苷酸关联分析对于一个给定的基因组,最简单的计算,酵母基因组核苷酸出现频率,核苷酸 频率 A0.3248693727808 C0.175,在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对原则,A和T、C和G的出现频率相同。如果仅统计一条链,则虽然A和T、C和G的出现频率不同,但是非常接近。,在统计过程中,如果同时计算DNA的正反两条链,则根据碱基配对,M.jannaschii单链核苷酸出现频率,核苷酸 频率 A0

20、.344C0.155G0.157T0.34,基因和其它功能区域在正反两条链上出现的可能性通常一样,核苷酸出现频率也不应该有偏差,正反两条链在信息的组织结构方面不应该有差别,单链上A和T、C和G的出现频率相近。,正反两条链碱基互补的原则,单链上A和T、C和G的出现频率相近的解释,基因和其它功能区域核苷酸出现频率也不应该正反两条链在信息的单,两联核苷酸频率,不同基因组中两个连续核苷酸出现的频率也是不相同的4种核苷酸可以组合成16种两联核苷酸,两联核苷酸频率 不同基因组中两个连续核苷酸出现的频率也是不相,酵母基因组两联核苷酸频率表,对酵母基因组两联核苷酸的统计结果其中核苷酸对出现频率最高的达到0.1

21、19而出现频率最低的只有0.028,酵母基因组两联核苷酸频率表对酵母基因组两联核苷酸的统计结果,令: Pij 代表两联核苷酸(i,j)的出现频率 Pi 代表核苷酸i的出现频率 则 : Pij= Pij/(PiPj) 的值反应核苷酸i和j的关联关系 如果Pij=1,则在两个连续的位置上,核苷酸i和j的出现是相对独立的。,关联性分析,令:关联性分析,对于酵母基因组 PA=0.3248 PAA=0.1193 PAA =0.1193/(0.3248*0.3248) =1.131 1 表明在两个连续位置上“A”的出现不是独立的,而是相关的。,关联性分析,关联性分析,同样,对于相隔一定距离k(k代表核苷酸

22、个数)的两个核苷酸,也可能具有一定的相关性。假设Pij(k)代表核苷酸j出现在核苷酸i之后第k个位置的频率,则可定义一个反应统计相关性的互信息I(k) I(k)值得大小实际上反应了距离为k的两个核苷酸之间的相关性的程度,同样,对于相隔一定距离k(k代表核苷酸个数)的两个核苷酸,也,三联核苷酸基因密码子,在进行编码区域识别时,常常需要对三联核苷酸进行统计分析,这实际上是分析密码子的使用偏性。由于密码子的简并性(degeneracy),每个氨基酸至少对应1种密码子,最多有6种对应的密码子。在基因中,同义密码子的使用并不是完全一致的。不同物种、不同生物体的基因密码子使用存在着很大的差异,三联核苷酸基

23、因密码子 在进行编码区域识别时,常常需要对三,基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达的生理功能有着密切的联系 蛋白的三级结构与密码子使用概率有密切的关系通过对密码子的聚类分析,可以很清晰地将具有不同三级结构蛋白质的编码基因分成不同的类,而具有相似三级结构蛋白的编码基因则大致聚在同一类中,从而证明基因密码子的使用偏性与蛋白质三级结构具有密切的相关性。 在不同物种中,类型相同的基因具有相近的同义密码子使用偏性对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小,基因密码子的使用与基因编码的蛋白的结构和功能有关,与基因表达,针对酵母第一染色体的分析结果,针对酵母第一染色体

24、的分析结果,第二部分,基因识别,第二部分基因识别,基因识别,基因识别是生物信息学领域里的一个重要研究内容 基因识别问题,在近几年受到广泛的重视 当人类基因组研究进入一个系统测序阶段时,急需可靠自动的基因组序列翻译解释技术,以处理大量已测定的但未知功能或未经注释的DNA序列,基因识别基因识别是生物信息学领域里的一个重要研究内容,原核基因识别重点在于识别编码区域,原核基因识别,非翻译区域(untranslated regions, UTR) 编码区域两端的DNA,有一部分被转录,但是不被翻译,这一部分称为非翻译区域 5UTR-基因上游区域的非翻译区域 3UTR-基因下游区域的非翻译区域,非翻译区域

25、(untranslated regions, UT,对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的起始位置,可以按照三种方式进行解释。例如,序列ATTCGATCGCAA这三种阅读顺序称为阅读框(reading frames),CAA,A,ATT,CGA,TCG,A,TTC,GAT,CGC,AA,AT,TCG,ATC,GCA,(1),(3),(2),对于任何给定的核酸序列(单链DNA或mRNA),根据密码子的,一个开放阅读框(ORF,open reading frame)是一个没有终止编码的密码子序列。原核基因识别任务的重点是识别开放阅读框,或者说识别长的编码区域。,一个开放阅读框

26、(ORF,open reading frame,基于基因密码子特性的识别方法辨别编码区域与非编码区域的一种方法是检查终止密码子的出现频率 终止密码子出现的期望次数为: 每21个( 64/3)密码子出现一次终止密码子,基于基因密码子特性的识别方法,基本思想:如果能够找到一个比较长的序列,其相应的密码子序列不含终止密码子,则这段序列可能就是编码区域。基本算法:扫描给定的DNA序列,在三个不同的阅读框中寻找较长的ORF。遇到终止密码子以后,回头寻找起始密码子。这种算法过于简单,不适合于处理短的ORF或者交叠的ORF。,基本思想:,识别编码区域的另一种方法是分析各种密码子出现的频率,将一个随机均匀分布

27、的DNA序列翻译成氨基酸序列,则在氨基酸序列中上述3种氨基酸出现的比例应该为6:4:1,例如,亮氨酸、丙氨酸、色氨酸分别有6个、4个和1个密码子,但是在真实的氨基酸序列中,上述比例并不正确,这说明DNA的编码区域并非随机序列,识别编码区域的另一种方法是分析各种密码子出现的频率 将一个随,假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码子频率进一步区分编码ORF和非编码ORF马尔柯夫链模型利用这种方法,可以计算一个ORF成为编码区域的可能性。,假设在一条DNA序列中已经找到所有的ORF,那么可以利用密码,一个简单的统计模型假设相继的密码子是独立的,不存在前后依赖关系。 令fabc代表

28、密码子abc在编码区域出现的频率给定序列a1,b1,c1, a2,b2,c2, an+1,bn+1从密码子a1b1c1开始的阅读框,其n个密码子的出现概率为,一个简单的统计模型,第二种和第三种阅读框n个密码子出现的概率分别为,基因组信息分析课件,第i个阅读框成为编码阅读框的概率计算:算法:在序列上移动长度为n的窗口,计算Pi根据Pi的值识别编码的阅读框,第i个阅读框成为编码阅读框的概率,基于编码区域碱基组成特征的识别方法编码序列与非编码序列在碱基组成上有区别单个碱基的组成比例多个碱基的组成通过统计分析识别编码序列,基于编码区域碱基组成特征的识别方法,分析实例,分析实例,基因组信息分析课件,2、

29、真核基因识别问题,真核基因远比原核基因复杂:一方面,真核基因的编码区域是非连续的,编码区域被分割为若干个小片段。另一方面,真核基因具有更加丰富的基因调控信息,这些信息主要分布在基因上游区域。,2、真核基因识别问题 真核基因远比原核基因复杂:,基因组信息分析课件,基因组信息分析课件,基因识别基本思路 找出基因两端的功能区域:转录启动区 终止区 在启动区下游位置寻找翻译起始密码子 识别转录剪切位点剪切给体位点剪切接受体位点,基因识别基本思路,各种不同的方法有不同的适应面,而不同的方法有时可以结合起来以提高基因识别的准确率。关键问题是如何提高一个识别算法的敏感性(sensitivity,Sn)和特异

30、性(specificity,Sp)。,基因组信息分析课件,3、基因识别的主要方法,两大类识别方法:从头算方法(或基于统计的方法)根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子、内含子及基因间区域 基于同源序列比较的方法利用数据库中现有与基因有关的信息(如EST序列、蛋白质序列),通过同源比较,帮助发现新基因。最理想的方法是综合两大类方法的优点,开发混合算法。,3、基因识别的主要方法两大类识别方法:,4、编码区域识别,两类方法 :基于特征信号的识别 内部外显子剪切位点5端的外显子一定在核心启动子的下游3端的外显子的下游包含多聚信号和终止编码 基于统计度量的方法 根据密码子使用倾

31、向双联密码统计度量等,4、编码区域识别两类方法 :,在一个基因中,第i个(i=1,64)密码子相对使用倾向RSCUi的定义如下:Obsi是该基因中第i个密码子实际出现的次数Expi是对应密码子期望的出现次数aai是统计的第i个密码子出现的次数syni是所有与第i个密码子同义密码子出现的次数RSCU大于1表示相应密码子出现的次数比期望次数高,而小于1则表示出现次数相对较少。,(5-66),(5-65),密码子使用倾向,在一个基因中,第i个(i=1,64)密码子相对使用倾向RS,设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量IF6(i,j)定义为: fk是从第k位开始的双联密码的频率

32、Fk是该双联密码随机出现的频率,(5-67),双联密码统计度量,设一段DNA序列为S,从S的第i位到第j位的双联密码统计度量,通过相似搜索发现编码区域或者外显子 EST(Expressed Sequence Tags)cDNA 蛋白质序列,通过相似搜索发现编码区域或者外显子,目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过程同时考虑序列特征信号和统计度量GRAIL用人工神经网络识别编码区域,目前大多数预测程序都将数据库相似性搜索的信息结合进基因预测过,人工神经网络的概念,4、别名人工神经系统(ANS)神经网络(NN)自适应系统(Adaptive Systems)、自适应网(Adap

33、tive Networks)联接模型(Connectionism)神经计算机(Neurocomputer),人工神经网络的概念4、别名,ANN 具有学习(Learning)能力,人工神经网络可以根据所在的环境去改变它的行为自相联的网络异相联的网络:它在接受样本集合A时,可以抽取集合A中输入数据与输出数据之间的映射关系。“抽象”功能。不同的人工神经网络模型,有不同的学习/训练算法,ANN 具有学习(Learning)能力 人工神经网络可以根,基本特征的自动提取,由于其运算的不精确性,表现成“去噪音、容残缺”的能力,利用这种不精确性,比较自然地实现模式的自动分类。普化(Generalization

34、)能力与抽象能力,基本特征的自动提取 由于其运算的不精确性,表现成“去噪音、容,适应性(Applicability)问题,擅长两个方面:对大量的数据进行分类,并且只有较少的几种情况;必须学习一个复杂的非线性映射。目前应用:人们主要将其用于语音、视觉、知识处理、辅助决策等方面。在数据压缩、模式匹配、系统建模、模糊控制、求组合优化问题的最佳解的近似解(不是最佳近似解)等方面也有较好的应用。,适应性(Applicability)问题 擅长两个方面:,生物神经网,1、构成,生物神经网1、构成胞体(Soma)树突(Dendrite)胞,生物神经网,3、六个基本特征:1)神经元及其联接;2)神经元之间的联

35、接强度决定信号传递的强弱;3)神经元之间的联接强度是可以随训练改变的;4)信号可以是起刺激作用的,也可以是起抑制作用的;5)一个神经元接受的信号的累积效果决定该神经元的状态;6) 每个神经元可以有一个“阈值”。,生物神经网3、六个基本特征:,人工神经元,神经元是构成神经网络的最基本单元(构件)。人工神经元模型应该具有生物神经元的六个基本特性。,人工神经元 神经元是构成神经网络的最基本单元(构件)。,人工神经元的基本构成,人工神经元模拟生物神经元的一阶特性。输入:X=(x1,x2,xn)联接权:W=(w1,w2,wn)T网络输入:net=xiwi向量形式:net=XW,人工神经元的基本构成 人工

36、神经元模拟生物神经元的一阶特性。x,激活函数(Activation Function),激活函数执行对该神经元所获得的网络输入的变换,也可以称为激励函数、活化函数: o=f(net) 1、线性函数(Liner Function) f(net)=k*net+c,激活函数(Activation Function) 激活函数,4、S形函数,f(net)=a+b/(1+exp(-d*net)a,b,d为常数。它的饱和值为a和a+b。最简单形式为:f(net)= 1/(1+exp(-d*net) 函数的饱和值为0和1。S形函数有较好的增益控制,4、S形函数 f(net)=a+b/(1+exp(-d*ne

37、,4、S形函数,4、S形函数 a+b o(0,c)netac=a+b/2,简单单级网,简单单级网x1x2xno1o2omwnmw11w1mw,简单单级网,W=(wij)输出层的第j个神经元的网络输入记为netj:netj=x1w1j+x2w2j+xnwnj其中, 1 j m。取NET=(net1,net2,netm)NET=XWO=F(NET),简单单级网W=(wij),Neural network mathematics,Inputs,Output,Neural network mathematicsInpu,学习规则,有导师学习在学习训练过程中需要不断给网络成对提供一个输入模式和一个期望网

38、络正确输出的模式,称为“教师信号”。当网络的输出与期望的教师信号不符时,则调整权值,能产生所期望的输出。,学习规则有导师学习在学习训练过程中需要不断给网络成对提供一个,BP神经网络是指基于误差反向传播算法的多层前馈神经网络,反向传播算法的基本思路:学习过程由信号的正向传播和反向传播两个过程组成。正向传播时,输入样本由输入层进入,经隐层处理后传向输出层。若实际输出与教师信号不符,则转入误差的反向传播阶段。输出误差将通过隐层向输入层逐层反传,并把误差分摊而得到各层单元的误差信号,作为修正各单元权值的依据。权值的调整过程即BP网络的学习过程,直到网络输出精度满足要求为止。,BP神经网络是指基于误差反

39、向传播算法的多层前馈神经网络,权值的更改,权值的更改,梯度下降法的基本思想,首先设置权W的一组初值,然后,连接计算均方误差相对于权的梯度,并按上式一小步小步地修正权值,当满足一定的准则时(比如MSE进入到下限的某一范围时)即停止。这时称为算法收敛。对于梯度下降算法来说,最大的问题是不能保证收敛到全局最优。,梯度下降法的基本思想首先设置权W的一组初值,然后,连接计算均,梯度下降法的缺点,梯度下降法的缺点,输入是一系列反映功能位点信号特征和序列编码统计特征的参数输出就是对一段DNA序列是否是编码区域的判别结果神经网络具有非线性映射能力,能够发现输入和输出之间的高阶相关性,输入是一系列反映功能位点信

40、号特征和序列编码统计特征的参数,生物信息中,神经网络主要应用于:,序列编码分析; 蛋白质二级结构预测; 单肽及其切割位点预测; 遗传密码的结构和起源分析; 真核生物基因寻找和内含子剪接位点预测。,生物信息中,神经网络主要应用于:,第三部分,调控元件识别,第三部分调控元件识别,序列模式,1. 功能结构域,functional domain2. 模块,BLOCK3. 模体,motif4. 模式,pattern/profile,序列模式1. 功能结构域,functional domain,功能结构域,1. 具有完整的、独立的三级结构2. 具有特定的生物学功能3. 一般长度,几十到几百个氨基酸4. 允

41、许插入/缺失,即允许存在gap,功能结构域1. 具有完整的、独立的三级结构,模块/BLOCK,1. 几个到几十个氨基酸2. 无gap,从全局多序列比对的结果直接处理得到3. 描述蛋白质家族或者一类蛋白质的序列保守性,BLOCK,模块/BLOCK1. 几个到几十个氨基酸BLOCK,模体/Motif,1. 不具有独立的三级结构2. 具有特定的生物学功能:结合,修饰,细胞亚定位,维持结构,等3. 长度一般几个到几十个氨基酸或者碱基;4. 例如,SUMO化的序列模体:-K-X-E (:A, I, L, V, M, F, P; X:任意氨基酸),模体/Motif1. 不具有独立的三级结构,模式/Patt

42、ern/Profile,1. 在算法上用来描述一类功能结构域,模体或者模块的表示方式2. 根据序列数据,构建的预测模型3. 数据形式:概率表示4. 用来预测新的可能符合特定模式的序列5. 例如,直接将-K-X-E视为SUMO化位点的,普适的“模式”,则可以预测所有包含该模式的蛋白质序列,模式/Pattern/Profile1. 在算法上用来描述一,2. 位点特异性打分矩阵,(1) Position Specific Scoring Matrix (PSSM)/ Weight Matrix Model(WMM)(2) 对蛋白质家族进行多序列比对分析,发现结果中保守的BLOCK(3) 根据BLOC

43、K序列推导相应的PSSM(4) 不考虑gap的影响(5) BLOCK长度一般在几个几十个残基/碱基,2. 位点特异性打分矩阵(1) Position Speci,锌指功能结构域的PSSM,锌指功能结构域的PSSM,BLOCK - PSSM,代表每一列,二十种氨基酸,矩阵中的数值:当前位置上,某种氨基酸出现的频率的log值,BLOCK - PSSM代表每一列二十种氨基酸矩阵中的数值,第二种PSSM,每一个位置上显示每种氨基酸或者碱基出现的频率,碱基的位置,四种碱基,第二种PSSM每一个位置上显示每种氨基酸或者碱基出现的频率碱,第三种PSSM,每一个位置显示氨基酸/碱基出现的概率,第三种PSSM每

44、一个位置显示氨基酸/碱基出现的概率,PSSM:思考与应用,1. 可以根据BLOCK推导得到的PSSM进行数据库的搜索,发现包含该模式的新的蛋白质,并预测功能2. 需要思考的问题:(1) PSSM必须能够很好的反映BLOCK, Motif以及Domain的真实情况。然而,数据有限;如何解决?(2) 根据PSSM如何计算新的序列?(3) PSSM中究竟包含着何等信息?,PSSM:思考与应用1. 可以根据BLOCK推导得到的PSS,问题一Pseudocounts,1. 如果训练数据中包含很多序列,并且每个位置上的氨基酸出现频率合理,则根据该训练数据得到的PSSM能够很好的反映训练数据的真实情况。否则

45、,得到的PSSM可能会有明显的偏差2. 解决方案,引入伪计数(pseudocounts)A. pseudocounts太多,PSSM偏离真实情况太远B. pseudocounts太少,许多可能的氨基酸变化就忽略了3. 数据量大时,伪计数可以少一些,反之则要增大为计数的比例4. 一般的经验,伪计数,问题一Pseudocounts1. 如果训练数据中包含很多序,Pseudocounts (2),针对特定的氨基酸,如何确定是否需要引入伪计数?1. 方法一:令f(i)为氨基酸i在蛋白质数据库(例如:UniProt)中的分布比例2. 方法二:使用打分矩阵来衡量序列的相似性(GPS的思想)3. 方法三:对

46、其他的BLOCK分析,来估算当前BLOCK可能的氨基酸的分布4. 方法四:blind guess,Pseudocounts (2)针对特定的氨基酸,如何确定是,问题二:PSSM-发现,1. 计算log-odds ratio/Odds ratio2. Do not miss: 性能检验!3. 结果需要计算Sn, Sp, Ac & Mcc4. 需要计算Self-consistency, Leave-one-out validation & n-fold cross-validation,问题二:PSSM-发现1. 计算log-odds rati,计算log-odds ratio,P(S|+),根据

47、阳性训练数据计算出来的概率;,计算log-odds ratioP(S|+),根据阳性训练数,Then, P(S|-)?,1. 负样本/阴性数据的概率计算2. 计算方法:A. DNA序列,四种碱基出现的频率B. 蛋白质序列,20种氨基酸出现的频率,Then, P(S|-)?1. 负样本/阴性数据的概率计算,Odds Ratio,Odds Ratio,Log-odds Ratio,Log-odds Ratio,计算流程:滑动窗口,设定域值;窗口宽度9bp;依次打分,预测,计算流程:滑动窗口设定域值;窗口宽度9bp;依次打分,预测,例:剪切模型 (Splicing),例:剪切模型 (Splicing

48、),计算log-odds ratio,计算log-odds ratio,问题三:PSSM-信息?,1. PSSM/motif/domain/BLOCK:每一个位置上究竟包含了什么样的信息?2. 对于同一个motif/PSSM:有些位点较其他位点提供更多的信息,why?3. 如何定量化“信息”?,问题三:PSSM-信息?1. PSSM/motif/dom,信息论:Claude Shannon,信息论的奠基人,信息论:Claude Shannon信息论的奠基人,1,048,576个盒子:Yes/No?,1. 随机将10000RMB的支票放入1,048,576个盒子之一2. Play 20 ques

49、tions: yes/no,1,048,576个盒子:Yes/No? 1. 随机将100,8个盒子,1. 最少多少个yes/no的问题能够定位支票?2. Answer: log28 = 3,8个盒子1. 最少多少个yes/no的问题能够定位支票?,1,048,576个盒子:Yes/No?,1. 随机将10000RMB的支票放入1,048,576个盒子之一2.Play 20 questions: yes/no,220 = 1,048,576,1,048,576个盒子:Yes/No? 1. 随机将100,信息论,1. 2b = M; b为bit (binary digit) 信息2. M:所有概率

50、的总量;因此:3. b = log2(M); = b = -log2(1/M) = b = -log2(P); 所有概率相同,则P=1/M4. 例:对于某一个motif的一个位置上,可能存在20种氨基酸,且概率相等,则P=1/20 =5. b = -log2(1/20) = 4.32 bits,信息论1. 2b = M; b为bit (binary di,信息论 (2),1. 若概率不等同,如何处理?2. 定义 ui= -log2(Pi),信息的平均值 =,普适的信息平均值 =,N: 全部序列的数目,Ni: 在该位置上为氨基酸i的序列的数目,信息论 (2)1. 若概率不等同,如何处理?信息的平

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号