生物信息学ppt课件.ppt

上传人:小飞机 文档编号:2096006 上传时间:2023-01-09 格式:PPT 页数:40 大小:691.50KB
返回 下载 相关 举报
生物信息学ppt课件.ppt_第1页
第1页 / 共40页
生物信息学ppt课件.ppt_第2页
第2页 / 共40页
生物信息学ppt课件.ppt_第3页
第3页 / 共40页
生物信息学ppt课件.ppt_第4页
第4页 / 共40页
生物信息学ppt课件.ppt_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《生物信息学ppt课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学ppt课件.ppt(40页珍藏版)》请在三一办公上搜索。

1、简介,生物信息学(Bioinformatics)是20世纪80年代末随着人类基因组计划的启动而兴起的一门新型交叉学科,它体现了生物学、计算机科学、数学、物理学等学科间的渗透与融合。生物信息学通过对生物学实验数据的获取、加工、存储、检索与分析,达到揭示数据所蕴含的生物学意义从而解读生命活动规律的目的。生物信息学不仅是一门学科,更是一种重要的研究开发平台与工具,是今后进行几乎所有生命科学研究的推手。,生物技术与生物信息学的区别及联系,生物信息学的发展历史,人类基因组计划(HGP),人类基因组计划由美国科学家于1985年提出,1990年启动。根据该计划,在2015年要把人体约4万个基因的密码全部揭开

2、,同时绘制出人类基因的谱图,也就是说,要揭开组成人体4万个基因的30亿个碱基对的秘密。HGP与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的登月计划。,随着基因组计划的不断发展,海量的生物学数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识。换句话说,人类基因组计划为生物信息学提供了兴盛的契机。上文所说的基因、碱基对、遗传密码子等术语都是生物信息学需要着重研究的地方。,数据与信息,数据是人们为了反映客观世界而记录下来的可鉴别的各种符号,而信息则是使用者对数据有目的的加工,从而对接收者的行为或思想产生影响,而不同接收者对于相同数据可能存在不同的解释和理

3、解。数据是信息的载体,信息是数据的目的“我有一个好想法,不过只可意会不可言传”数据本身没有价值用户不同,数据和信息的划分也不同数据和信息可以相互转化,What is Data?,10535185574,雨认会不天我为明下,0100100101001100011011110111011001100101010110010110111101110101,What is Info?,13805515574,我不认为明天会下雨,y=ax-a,0100100101001100011011110111011001100101010110010110111101110101,7376111118101891

4、11117,ILoveYou,数据,信息,Recognition,Knowledgement,什么是数据库,在生物信息学领域,数据库的主要功能是“存储”、“管理”以及“检索”、“调用”常见数据库结构类型:平面文件(FLAT FILE)、关系型数据库(R-database)、基于Internet的 XML(Extensible Markup Language),基因是什么,基因是遗传物质的基本单位,基因就是核苷酸序列。大部分的基因大约是1000-4000个核苷酸那么长。基因通过控制蛋白质的合成,从微观和宏观上影响细胞、组织和器官的产生。基因在染色体上。,DNA的结构,碱基(腺嘌呤A、鸟嘌呤G、胞

5、嘧啶C、胸腺嘧啶T)核苷酸,核苷酸是构成DNA分子的重要模块。每个核苷酸分子由一分子称作脱氧核糖的戊糖(五碳糖)、一分子磷酸和一分子碱基构成。每种核苷酸都有一个碱基对,也就是A、T、C、G,DNA序列比对,发现同源性、相似性序列同源性:从某一共同祖先经过趋异进化而形成的不同序列序列相似性:指序列比对过程中检测序列和目标序列之间相同碱基或氨基酸残基序列所占比例的大小序列比对定义序列比对(Sequence Alignment)就是运用某种特定的算法,找出两个或多个序列之间的最大匹配碱基数,动态规划与序列比对,基因组数据库保存了海量的原始数据(Raw Data),人类基因有接近30亿个碱基对。为了查

6、遍所有数据并找到其中有意义的关系,我们便需要依赖于高效的计算机科学字符串算法。动态规划算法是解决最优化问题的一种高级的算法技术,它自下而上寻找子问题的最优解,从而逐步得到最终问题的解。本课程将利用Java实现动态规划是一种编程思想,并不是实际的方法。掌握这一思想,适当采用递归方法,几乎可以解决所有最优解问题。使用动态规划两大条件:最优子结构,重叠子问题,递归(Recursion),在计算机程序设计中如何理解F(x)=ax+b编程计算N!f(n)=n*f(n-1)n1编程计算斐波那契数列f(n)=f(n-1)+f(n-2)n2,1,1,2,3,5,8.n,动态规划,问:斐波那契数列当n=5时,结

7、果是多少?x=50呢?x=100呢?,当遇到重叠子问题,即现在正在进行递归时函数的参数是当前已经计算过的参数值,那么再进行计算将是重复计算。,动态规划,利用动态规划思想解决之前的问题。,public int fib(int n)if(n=0)return 0;else if(n=1)return 1;else return fib(n-1)+fib(n-2);,public int fib1(int n)int table=new int n+1for(i=0;itable.length;i+)if(i=0)tablei=0;else if(i=1)tablei=1else tablei=ta

8、blei-2+tablei-1return tablen,递归解决,动态规划解决,动态规划算法将已经计算过的子问题的解保存(这里用二维数组),下一次再需要计算时便可以直接提取使用,最长公共子序列问题(LCS),S1:ACTT S2:AGCT,注意该二维数组赋值的规律,最右下角的数值即为这两个序列的LCS长度,遗传算法,4.1 基本概念 1.个体与种群 个体就是模拟生物个体而对问题中的对象(一般就是问题的解)的一种称呼,一个个 体也就是搜索空间中的一个点。种群(population)就是模拟生物种群而由若 干个体组成的群体,它一般是整个搜索空间 的一个很小的子集。,2.适应度与适应度函数 适应度

9、(fitness)就是借鉴生物个体对环境的 适应程度,而对问题中的个体对象所设计的 表征其优劣的一种测度。适应度函数(fitness function)就是问题中的 全体个体与其适应度之间的一个对应关系。它一般是一个实值函数。该函数就是遗传算 法中指导搜索的评价函数。,3.染色体与基因染色体(chromosome)就是问题中个体的某种字符串形式的编码表示。字符串中的字符也就称为基因(gene)。例如:个体 染色体 9-1001(2,5,6)-010 101 110,4.遗传操作亦称遗传算子(genetic operator),就是关于染色体的运算。遗传算法中有三种遗传操作:选择-复制(sele

10、ction-reproduction)交叉(crossover,亦称交换、交配或杂交)变异(mutation,亦称突变),选择-复制通常做法是:对于一个规模为N的种群S,按每个染色体xiS的选择概率P(xi)所决定的选中机会,分N次从S中随机选定N个染色体,并进行复制。,交叉 就是互换两个染色体某些位上的基因。,s1=01000101,s2=10011011可以看做是原染色体s1和s2的子代染色体。,例如,设染色体 s1=01001011,s2=10010101,交换其后4位基因,即,变异 就是改变染色体某个(些)位上的基因。例如,设染色体 s=11001101将其第三位上的0变为1,即 s=

11、11001101 11101101=s。s也可以看做是原染色体s的子代染色体。,4.2 基本遗传算法,算法中的一些控制参数:种群规模 最大换代数 交叉率(crossover rate)就是参加交叉运算的染色体个数占全体染色体总数的比例,记为Pc,取值范围一般为0.40.99。变异率(mutation rate)是指发生变异的基因位数所占全体染色体的基因总位数的比例,记为Pm,取值范围一般为0.00010.1。,分子进化与系统发育,生物大分子进化速率相对恒定,蛋白质和核酸等生物大分子在进化过程中氨基酸或核苷酸随着时间的替换(改变)数几乎是恒定的。,生物大分子进化的保守性,对生物生存制约性大的生物

12、大分子进化速度慢生物大分子内部功能区结构变化速率较慢,而且功能越重要的区域变化速率越慢蛋白质中越重要的氨基酸变化越慢结构和化学性质相近的氨基酸之间的替换要比这两方面不同的氨基酸之间的替换共容易发生,分子系统发育树,如何构建系统发育树请参照书本UPGMA方法实例注意要能够最终画出系统发育树,信息可视化,背景,计算机图形学的产生和发展为可视化的诞生奠定基础1987年正式将可视化分为:数据可视化、信息可视化、科学可视化,大数据时代的到来为信息可视化带来了新的机遇和挑战。,信息可视化模型,RawData,Tables,VISStructure,Views,Visual Form,Data,可视化结构映

13、射,数据转化,视图转化,Interactions,Data Analysis,信息可视化常用可视化结构(TreeMap),TreeMap是一种在有限空间里对分层结构的可视化结构模型。通过对形状大小和颜色的编码,TreeMap可以非常有效的展现属性结构中叶子节点的属性,可针对同层次或者不同层次的叶子节点进行比较。充分利用空间。,F(6),F(5),F(4),F(4),F(3),F(3),F(2),F(3),F(2),F(2),F(1),F(2),F(1),F(2),F(1),这是我们常见的二叉树结构,表示Fib数列的运算过程,TreeMap,F(6),F(5),F(4),F(4),F(3),F(

14、3),F(2),F(3),F(2),F(2),F(1),F(2),F(1),F(2),F(1),F(2),F(2),F(1),F(2),F(2),F(2),F(1),F(1),在TreeMap中,所有的不可分割的矩形块都是叶子节点,而这些矩形块通过组合构成的更大的矩形块也就是叶子节点的父节点,以此类推,从而将整个树形结构呈现,信息可视化常用可视化结构(FishEye),Fisheye的应用 Fisheye Menu,鱼眼菜单(Fisheye menus)对于帮助用户浏览很长、但有序的列表很有用处。该菜单可以动态的变换菜单条目的尺寸,将鼠标所在区域放大。这样便可以在一个屏幕上显示并操作整个菜单了,而无需传统的按钮、滚动条、或分级浏览结构。对于帮助用户轻松浏览很长的列表,鱼眼菜单很有潜力。,可视化人机交互技术,http:/mbostock.github.io/protovis/ex/,什么是人机交互?,输入设备与屏幕之间的交互?,人与屏幕之间的交互?,可视化中的交互技术,BrushingFocus+context+magiclenspan+zoomParallel CoordinatesIndex Charts,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号