DNA序列中的结构与简化模型.doc

上传人:laozhun 文档编号:4200615 上传时间:2023-04-09 格式:DOC 页数:8 大小:25.50KB
返回 下载 相关 举报
DNA序列中的结构与简化模型.doc_第1页
第1页 / 共8页
DNA序列中的结构与简化模型.doc_第2页
第2页 / 共8页
DNA序列中的结构与简化模型.doc_第3页
第3页 / 共8页
DNA序列中的结构与简化模型.doc_第4页
第4页 / 共8页
DNA序列中的结构与简化模型.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《DNA序列中的结构与简化模型.doc》由会员分享,可在线阅读,更多相关《DNA序列中的结构与简化模型.doc(8页珍藏版)》请在三一办公上搜索。

1、DNA序列中的结构与简化模型摘要:本文简述2000年全国大学生数学建模竞赛A题的科学研究背景,以及题目的立意和设计进而对解答A题的大学生们的出色方法进行介绍与评述1 引 子 这是我第一次参与全国大学生数学建模竞赛,深深地被这一十分有意义的赛事蒸蒸日上的发展所鼓舞,为在赛事中涌现出来的青年学生们聪明才智和对科学强烈的热爱而惊喜,为自己在这次参与中学到的和感受到的十分有益的影响而兴奋2000年7月清华的唐云教授电话约我为竞赛出一道题,出于个人兴趣,也出于希望青年学生更关注在重大科学问题中运用数学和发展数学,于是就在全世界被人类基因组计划的成果掀起的巨大热潮中,找一个题目,以期诱导有志青年投入这一二

2、十一世纪的科学热点中我和领导建模比赛的全国组委会的一些教授们(叶其孝、姜启源、王强、唐云等)共同讨论了这个题目,反复修改和润色,希望更适合中国大学生的实际但一直担心这样一个热点科学中引出的问题,一个开放式问题的太大的自由度是否会为难青年学生结果出人意料,特别是重点大学的参赛队,十分热烈地选择A题作为他们一显身手的考卷,而且答出了同样出乎意料的水平然而在A题的理解、解法及评判的一系列问题中,仍有许多问题需要明确,于是我应组委会之邀,特写此文力窥全豹,也对参与竞赛的师生们作一个交待2 A题的背景 2000年6月26日,“人类基因组计划”规定的禁发时间(EMBARGO)北京时间18:00刚过,新华社

3、、法新社、美联社、路透社各国新闻发布机构以第一条消息发布了人类基因组草图绘就的重要消息美国总统克林顿在白宫举行的庆祝仪式上表示,人类基因组草图是迄今“人类所绘制的最为奇妙的图谱”;英国首相布莱尔说:“这是21世纪第一项伟大的科技成就医学科学领域一场革命,其意义远远超过抗生素的发现”;日本首相森喜郎在声明中指出,人类基因组草图绘制成功,代表人类在破解自身构成方面向前迈出巨大的一步;许多国家的元首,科技官员和著名科学家纷纷发表谈话,赞扬人类基因组草图的完成,评估这一伟大成果的意义直到6月28日,中国主席江泽民在中央思想政治工作会议上也对人类基因组的意义作出评价并赞扬了中国科学家在其中的出色工作1

4、显然,当7月份组委会提出建模赛题一事时,顺应这一世纪科学大事,在其中构造赛题,将引导青年学子关注世界科技热点,鼓励学生敢于投身到科学重大问题中去,培养学生用数学为工具去解决科学技术问题的能力方面都具有了特殊的意义 2003年将完成人类基因组DNA全序列的测序,它将带给人类一本“自身的说明书”,这对人类认识自己,保护自身,发展新的生物产业都将是意义重大的在许多科普读物中,将人类基因组全序列这部“书”描绘成一座巨大金矿,解读这部书就是从中发掘出无量的财富,这种比喻一点儿也不过分生命科学称这一研究阶段为“后基因组时期”或“后基因组计划”(PostGenome Project),而将数学与计算机科学融

5、人这一计划之中,又常被人称为生物信息学(Bioinformation)人类基因组研究中已经浮现出大量的数学问题,已为世界上众多数学家关注2作为解读基因组这一庞大计划的一个十分重要而又基础的部分,就研究基因组的结构,而其中更基础的是DNA序列的结构“结构”这个词在这里的含义是十分广泛的,也就是说,作为由A、T、C、G四个字符组成的一个有序字符串,任何呈现规律性的特征都可以称为结构由于规律呈现范围不同,我们又可以分为局部结构与整体结构,或称小尺度结构与大尺度结构,这些结构的揭示将大大有助于人们对于基因与基因组的解读这一点可以形象地比喻为一部100万页的书,如果我们能够知道这部“天书”的篇、章、节的

6、结构,甚至段落、语句或词的结构都清楚了,要读懂这部书的内容就变得容易了从这种意义上说,DNA序列的结构的研究显然是生物信息学中重要的内容之一 本届数学建模比赛的A题是在这一世界科学发展的大背景下,作为二十世纪最后一届比赛,以翘首二十一世纪的姿态,选择基因组研究为命题的学科领域以后基因组计划中生物信息的DNA序列结构作为课题,是顷应时代潮流的具有前瞻性的选题,3 A题的立意 在A题设计之前,立意就很明确:源于科学实际,解法充分开放 本题取材于DNA的结构的研究,这里的结构指的是在DAN序列中重复出现的有特征的片断,这种重复出现形成丁规律由于结构的含义是广泛的,担心学生因此而无从下手,我们特别举出

7、三种结构为例,其目的仅仅是为了说明,DNA序列貌似随机地由A、T、C、G四个字符组成,但它之所以有“万能”的功能,正是由于在随机的外衣下隐藏着大量的结构,正是这种结构决定了功能因此,在生物信息学中,人们普遍相信这样一个信条:序列结构一一功能这一信条引导人们成功地在DNA序列中挖掘出许多与生物功能相关的自然规律。在A题中举出的三种结构是十分基础而且在科学界广泛为人们所接受的一种是四种碱基的丰度,对于DNA序列的不同的片段常常表现出碱基丰度的差别,因此碱基的丰度往往成为区别不同序列片段的特征;第二种是三联子对蛋白质的编码,它首先由发现DNA双螺旋结构的克里克和南非的分子生物学家西德尼布伦纳确定的,

8、这种不重叠的三联子组成的编码区(Exon)与非编码区的交替出现形成了DNA序列中一个重要的结构如果读者想了解这一方面的知识只要在互联网上搜索ExonIntron Structure”,你会得到供选读的大量文献;A题举的第三个例子是所谓DNA序列的长程相关性,这一规律最早由CKPeng等人在1992年Nature上报导3,此后人们研究了各种DNA长序列,分别发现了DNA序列在大尺度的范围内具有统计相关性,然而这种相关性的细节及意义至今还是一个迷A题中举出这三种结构,也为了说明在DNA序列的结构中既有大尺度全局性的,也有局部性的,研究和发现DNA序列中的这些规律均有重要意义 正由于这种结构的多样性

9、和一般性,为求解A题确定了解法的开放性虽然事实上许多试卷都把这一结构理解成为编码区与非编码区,但这种局限性的理解并没有比一般性理解结构的试卷更好些A题定义结构的一般性,有两方面的理由一方面希望在求解A题时对生物知识的依赖不要太多,除了最基本的DNA序列的背景外,解题中并不需要有更多的基因组结构的知识(例如,是否知道Exon与Intron并无大关系)这样做是为了在“数学建模”这一基本的专业性质下平等第二个方面就是希望这种开放性,可以使从初等到高等的许多数学模型化方法均能对A题做出一定水平的解答而且也希望发现一些富有创造性的、十分有效的方法事实上,本届比赛中也的确涌现出大量富有创意的方法,实在令命

10、题者兴奋不已 解答方法的开放性,是A题的命题领域本身就决定了的事实上,仅在编码区预测的文献中就有了许多不同的方法有通过核苷酸片段差异的区分方法4,同源比较算法5,隐马尔可夫模型(HiddenMarkovModel,HMM)这种方法将DNA序列的形成看作随机过程,而HMM可自动找出其隐藏的统计规律性6大家熟知的动态规划方法7,以及傅立叶分析8,线性判别分析(Linear Discriminant Analysis,LDA)9此外许多专门的方法用于DNA的结构分析与寻找:法则系统(rulebased system)10,语言系统(1inguistic)11,决策树(decisiontree)12这

11、些方法对于从DNA序列中找出编码序列均有很好效果,有些准确率高达90有兴趣的读者可以在最近出版的解码生命13一书中查到有关评论 A题将DNA结构的研究具体化为不同序列的分类,这种分类对于寻找出序列的结构具有基础的价值它是寻找结构的一种简化而有效的变形,这种具体化在帮助学生模型化是有益的然而这种具体化也给出题带来一定困难,为了方便广大参赛队对这种分类方法的理解与数值实验,我们设计了两套数据。一套是人工构造的数据,而另套是来源于自然的DNA数据库显然这两套数据既有联系又有明显的差别,这种差别使得企图用比较简单的方法而不加区别地处理这两类数据将不会得到好的效果正如自然界给人类提出的问题不太可能恰好满

12、足我们希望的数学条件一样,A题也要求解题者具有立足于实际,从有限而不完全的已知数据去探索更复杂的数据中的未知规律这样一种研究素质4 阅卷随想 在评阅试卷时,老师们对年轻学子在A题解法中表现出的热情、智慧、严谨和富予创造性都留下极深刻的印象作为命题人,更对本科学生能在短短的三天中所做出的成果惊喜,并在许多十分聪明的解法中学习到了新的东西A题的试卷几乎令所有阅卷老师叹服:中国大学生年轻有为! 学生论文的立意大多在“特征提取一分类方法”这一模式,这显然是最容易想到的,大多数试卷也在这一立意之下,选择好的方法而得到较好的结果特征的选择,首先易于让人想到的是A、T、C、G四个字符在字符串中出现的频率,这

13、在文献中常称为“单个碱基丰度”,单纯使用这一特征,许多学生的文章对人工数据得到好的结果,但对后面182个序列的分类却常常不太理想在优秀论文中浙江大学的一个队将这种特征提取后形成四维特征向量,然后分别用欧氏距离、马氏距离分类法和Fisher判别模型,对人工数据得到理想的分类,对自然数据(182个)也得到很高的分类正确率,是这一类算法中较突出的卷例另有一些试卷在这一特征基础上考虑到字符的顺序,将模型做得更复杂些更多的论文是用4个字符的字符串作为特征,由于这时特征一下子增加了许多,于是需要从其中评判挑选并排出特征的重要性顺序,这种特征的提取往往可以得到较好的效果特别是对于自然序列,大连理工大学的一个

14、队通过概率统计方法首先对已知的人工序列集进行特征提取,从而形成特征向量较为全面地表达分类特征,当然也出现了高维问题的计算复杂性,他们得到了很好的分类效果值得指出的是,由于竞赛题一方面源于生物学实际问题,同时又相对地独立于生物而形成适当抽象的“试题”,因此试题并不是基因组中某种结构的翻版有些试卷过多地研究了生物学的来源,而且将A题仅局限于他们所想象的结构(例如Exon结构),于是三联子编码成为分类的唯一特征,而三联码的不重叠性又使他们在阅读框的起始位置前不知所措,以至所产生的结果不理想 在分类方法上,统计的方法(特别是聚类方法)是最易于想到的,许多试卷从而构造了好的方法但是简单而不加修正地使用统

15、计方法并不能得到好的结果这是因为人工已知序列的样本数只有20个,而且都很短,待分类的自然数据样本数182且都长得多,因此从小样本中得到的统计规律在处理大样本时效果显然不佳这是众多用统计方法所得到结果不理想的一个直接原因有些学生看到并指出了这一点,而且有的试卷注意到人工数据与自然数据的生物学的差别而在分类自然序列时修改了分类方法而得到较好的结果,显然概念的清楚与思维的灵活得到很好的统一用各种方式构造判别函数的方法以及神经网络的方法,特别对于非线性系统的识别很有效因此通过构造各种神经网络来进行分类,更多的队得到很好的效果例如大连理工大学的一个队,用统计方法提取较好的特征又用BP网络进行分类,方法严

16、谨,考虑细致,对自然序列的分类正确率高达88而科技大学的一个队通过对神经网络方法的逐层的改进,又辅以统计方法,产生了比较精细的网络算法,也得到分类自然数据的正确率达65的好效果除了上述大量“正规方法”以外,一些试卷有创意地提出了一些十分新颖的思想,有些还取得了很好的效果例如中国科技大学的一个队将序列看作信息流,注意到字母出现的特征是熵的改变,是十分新意的,他们最终又将设计好的几个模型形成综合判别的目标函数,也得到好的分类效果,对自然数据分类正确性达58而北京大学的一个队将DNA字符串看作一篇文章,而利用了类似文本分类中的特征判别方法定义关键词标准,进而使用优选法,找出关键词的特征,然后使用层次

17、分类他们的方法精细,尽管分类最终效果并不十分理想,仍不失为值得一读的好文章由于篇幅有限,有些文章虽然没有作为优秀论文刊出,但是在其中仍然表现出学生丰富的想象力和创造精神篇十分有趣的文章是大连理工大学的另一个队,这些学生既没有拘泥于“特征提取+分类”的模式,也没有局限自己的思维于“概率统计”“神经网络”“判别函数”等“大路”方法他们深入地分析了序列问题的生物来源,又观察人工序列的数学结构和数值试验结果,在一些DNA序列几何表达文献的启发下,提出了简捷的几何分类法,得到了出色的分类结果对自然数据分类的正确率高达94而且这种不依赖训练集的方法,属于目前研究基因组结构的令人关注的方向应当指出,科研能力

18、的表现是多方面的在试卷中,我们注意到许多学生十分用心于科学文献的检索、阅读与借鉴例如一些试卷研究了我国著名学者,中科院院士张春霆教授的Z曲线方法14,并简化用于A题分类(例如中国科技大学的另一个队),也取得好的结果此外,特别值得指出的是香港城市大学的论文,该文的思路清晰,表述严谨,图表数据完整,行文流畅,作为本科学生三天完成的科研论文值得赞赏!综上所述,作为A题的命题人,原先的担心与顾虑被事实扫得干干净净学生的聪明才智、扎实的数学功底和运用于实际问题的灵活性、创造性证明,中国大学生完全可以适应更贴近科学研究实际,更贴近工程技术实际,更贴近社会经济生活实际的数学建模比赛问题中国大学生在数学建模比

19、赛的锻炼中必将大大提高应用数学的能力,在二十新科技的发展中做出出色的成绩参考文献1子言,基因:讲述生命的故事经济日报出版社2000年7月2Mathematics:Frontiers and PerspectlvesAMSProvldence2000M Auyah前言.3Peng CK BuldyrevSV G01dberger, A 1 Hav“nS Sxiortlno, F Simonso, M. And Stanley, H. E. Longrange correlatlon in nucleotldc sequences。nature 356:168一1704C1averle J MCo

20、mputanonal methOds fOr the identlflCatlon Ofgenes in vertebrategenomlc sequence hum Mol Ge-net,19976(10):173517445Green P. Llpman D,Hillier L,WaterstonR,Stares D,C1aVierieJMAncientconserved regions in new gene se-quences and the Protein databases. Science1993,259:17111716.6Kroyh A,Mlan I S,Hanssler

21、DA hidden Markov model that finds genes in E. co1i DNANucleic Acids Res,199422(22):476847787Gelfand M S,Roytberg M A Predlction of the exonintron structure by a dynamic programming approach Bmsystems,1993,30(13):1731828Tiwavi S. Ramachandran S. Bhattacharga A,Bhattacgarga S,Ramaswamy R. PrediCtlOn O

22、(prObable genes by Fourler analysis ofgenomlc sequencescomput Appl Biosci, 1997,13(3):263270.9Fickett JM. Tung C SAssessment of protem coding measuresNuclelc Acids Res,1992,20(24):64416450.10Guigo RKnudsen S,Dr3ke NSmith TPredlctlon of gene structureJ Mo1 Biol, 1992, 226(1):141157.11Dong S,Searls D

23、BGene structure predlotion by linguistic methodsGenomics,23(3):54055112Sal2berg SLocatlng protein coding regions in human DNA using a decsion tree algorlthm, J Comput Bio1, 2(3): 47348513贺林主编. 解码生命人类基因组计划和后基因组计划科学出版社2000年14ZHAN Ghun-Tlng. LIN ZhesualYNA Ming, ZHAN RenA Novel Approach to Distinguish Between Intron-containing and Intronless Genes Based on Format of Z CurvesJ theor Bio1, 1998,192:467473

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号