《生物信息学(研)课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学(研)课件.ppt(36页珍藏版)》请在三一办公上搜索。
1、生物信息学概况 王依满,20世纪生理学、细胞生物学、分子生物学等学科的发展使我们从器官、组织、细胞、生物大分子等各个层次认识了生命的物质基础。与其他物质相比,生物具有本质的区别,生物体的生长发育是在生命信息控制之下的复杂而有序的过程。生命过程牵扯到数以亿计的生物分子,随着科学研究的不断进展,这些分子的作用、结构和性质在不断的被发现,,2023/1/22,2023/1/22,生物分子数据量增加很快,平均每15个月翻一番;,蛋白质结构数据增长趋势图,Year,Base pairs of DNA(billions),Sequences(millions),Updated 8-12-04:40b ba
2、se pairs,1982,1986,1990,1994,1998,2002,基因序列数据增长趋势图,生物分子数据数量快速增加生物分子数据具有丰富的内涵如何充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,从而得到对人类有用的信息,是生物学家、数学家和计算机科学家所面临的一个严峻的挑战。,2023/1/22,生命的奥秘,牵扯到生命信息的组织、传递和表达,牵扯到多个学科,因此可以用信息科学的方法和技术来尝试认识和分析生命信息。,2023/1/22,生物学家,数学家,计算机科学家,HGP生物数据的激增,生物信息学的诞生,生物信息学是生物学、应用数学和计算机科学等学科之间的一门交叉学科,生物
3、信息学是伴随基因组研究而产生的,因此它的研究内容紧随着基因组研究而发展。,生物信息学是当今生命科学和自然科学的重大前沿领域之一,也是21世纪自然科学的核心领域之一。,2023/1/22,生物信息学广义的概念,生物信息学(bioinformatics)是指应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息的一门学科,也可以说是生命科学中的信息科学。它通过对生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴含的生物学意义的目的。,2023/1/22,生物信息学狭义的概念,指应用
4、信息科学的理论、方法和技术,管理、分析和利用生物分子数据。通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;在生物学、医学的研究和应用中,利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果来检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。一般提到的“生物信息学”是就指这个狭义的概念,更准确地说,应该称为分子生物信息学(Molecular Bioinformatics)。,生物信息学的研究内容,广义地说,生物信息学从事对基因组研究相关生物信息
5、的获取、加工、存储、分配、分析和解释。具体地说,生物信息学是把基因组(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和(核糖核酸)基因的编码区。阐明基因组中大量存在的非编码区的信息实质,破译隐藏在序列中的遗传语言规律。在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。,生物信息学的研究内容,获取人和各种生物的完整基因组发现新基因和新的单核苷酸多态性(1)基因的电脑克隆(2)从基因组 D NA序列中预测新基因(3)发现单核苷酸多态(SNP)基因组中非编码区信息结构分析在基因组水平研究生物进化完整基因组的比较研究从
6、功能基因组到系统生物学蛋白质结构模拟与药物设计,生物信息学的发展与现状,生物信息学的产生生物信息学的发展历程生物信息学的发展现状,2023/1/22,1、生物信息学的产生,生物信息学(bioinformatics)是20世纪80年代未随着人类基因组计划(Human genome project)的启动而兴起的一门新的交叉学科。生物信息学的产生和发展仅有十几年的时间-bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。,2023/1/22,近年来,随着现代分子生物学的发展,特别是
7、人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。,二十一世纪是生命科学的时代,也是信息时代,生物信息学的发展基于人类基因组计划(HGP)和生物医药工业的发展,早在19世纪,已经知道蛋白质在生命活动中的作用1956年在美国田纳西州的Gatlin burg召开了首次“生物学中的信息理论研讨会”。一般认为,生物信息学的真正开端是20世纪70年代。70年代初期到80年代初期,出现了一系列著名的序列比较方法及许多生物信息分析方法20世纪90年代后,科学
8、家们开始大规模的基因组研究。1986年,出现基因组学(Genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动,2023/1/22,2023/1/22,2、生物信息学的发展历程,生物信息学自诞生以来,经历了三个阶段:基因组前期的生物信息学:主要是序列分析、数据库的查询、计算机操作和PC的应用;基因组年代的生物信息学:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);后基因组年代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能
9、分析,即所谓的功能基因组学研究。,2023/1/22,生物医药工业推动生物信息学的发展,生物医药工业也是推动生物信息学发展的重要动力。HGP所推动的大规模DNA测序也为生物医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有些基因则可以成为药物作用的对象。生物信息学为分子生物学家提供了大量对基因序列进行分析的工具,既可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等方面加快新药开发的进程,又可以很大程度的加快传统的基因发现和研究,从而刺激了生物信息学的快速发展。,2023/1/22,3、发展现状,生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相
10、关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。,2023/1/22,国外发展现状,因此,各国政府和工业界对此极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Informatics,NCBI)、欧洲生物信息学研究所(European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着
11、GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。,2023/1/22,国内发展现状,在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。在政府的支持和科学家的呼吁下,国家级生物医学信息学中心正在筹建之中。各地政府也给予了足够重视,北京市已经成立了北京生物工程学会生物信息学专业委员会(即北方生物信息学研究会),目的在于联合北方地区从事生物信息学的专家,加强合作,促进学科的发展,并为政府决策提供参考意见。,分析工具,除了数据库、网络组织管理、生物序列的分析
12、比较、基因和蛋白结构和功能的预测等以外,生物信息学还需要发展一系列相应的分析工具,如 1.快速、严格的多序列比较工具 2.遗传疾病分析,从单基因疾病研究向多基因疾病并包括环境因素在内的多因子分析等,数据分析软件,分析软件是有效利用基因组信息的工具,也是构建二级、三级数据库的条件和手段,还可将不同性质数据库中的数据结合在一起,综合分析,如将基因组序列数据和蛋白质序列、结构及功能数据结合计算,可以推断结构和功能的关系,从而成为一种发现新信息的快捷方法。,2023/1/22,数据分析软件,从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系
13、,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。生物信息学的应用图示如下:,2023/1/22,利用数学模型和人工智能工具,研究基因组数据之间的关系,分析现有基因组数据,解读生物遗传密码,发现生物学规律,认识生命本质,生物信息学数据库概况,据2008核酸研究(Nucleic acid research)统计,全球共有1078个主要的分子生物学数据库,涵盖生物学研究的诸多领域,并逐渐向专门化、专业化方向发展。核酸研究将生物信息数据库主要划分14大类-,.Nucleotide sequence databases.Protein sequence databases.RNA
14、 sequence databases.Structure databases.Genomics databases.Metabolic and signaling pathways.Human and other vertebrate genomes.Human genes and diseases.Microarray data and other gene expression.Protein resources.Other molecular biology databases.Organelle databases.Plant databases.Immunological data
15、bases,生物信息学数据库类型,初级数据库:收录存贮生物信息学的基本数据资源,如核酸序列、蛋白结构、基因组信息等次级数据库:在初级数据库基础上整理、标注,为特定专业领域服务的派生数据库,如表达序列标记、微阵列、遗传疾病数据库等系统生物学数据库:发展方向是构建包含完整生物信息的细胞、组织数据(模拟)系统,在更高层次上分析解释生命的基本规律,初级数据库,核酸序列数据库蛋白质序列数据库生物大分子三维结构数据库基因组数据库,核酸序列初级数据库,以核苷酸顺序及注释信息为基本内容的数据库世界三大核酸数据库 1.GENBANK(http:/www.ncbi.nlm.nih.gov)2.EMBL(http:
16、/www.ebi.ac.uk/embl)3.DDBJ(http:/www.ddbj.nlg.ac.jp)1998年,三大库共同成立国际核酸序列数据库协会(INSDC,http:/www.insdc.org).,蛋白质序列初级数据库,以蛋白质氨基酸顺序及注释信息为基本内容的数据库世界主要蛋白质序列数据库1.PIR PSD(protein information resource-protein sequence database),由美国国家医学研究基金会1984年创建,1988年,日本国际蛋白质信息库JIPID和德国蛋白质信息中心MIPS加入PIR,成立国际蛋白质信息中心(PIR-intern
17、ational),蛋白质序列初级数据库,2.Swissprot 1986年创于瑞士日内瓦大学,(http:/www.expasy.ch/sprot)主要特点:可信度高;注释详细(包括蛋白质功能、序列、结构域的结构、翻译后修饰及其位点、突变体等),3.TrEMBL建立于1996年,是从EMBL的 cDNA序列翻译得到的蛋白质数据库,相似的还有GENpept。特点:序列条目来自核酸序列的翻译,但未经专家的注释、分析、核实,错误率较高。,蛋白质序列初级数据库,全球统一的蛋白质序列与功能数据库UniProt(通用蛋白质资源)(http:/www.uniprot.org)截止2008年8月,UniPro
18、t 共收录蛋白质序列6462751个,生物大分子结构初级数据库,以生物大分子荣各原子空间信息为基本内容的数据库信息来源:对蛋白质晶体的X射线衍射、核主要磁共振及冷冻电镜分析而来主要数据库:2003年美国Brookhaven国家实验室的PDB(protein data bank)倡导成立全球共享的-wwPDB(http:/www.wwpdb.org),截止2008年8月,共收录蛋白质结构52684个。,基因组数据库,包含某一物种的全基因组序列的专门数据库人类基因组数据库(http:/www.gdb.org)拟南芥基因组数据库(http:/www.arabidopsis.org)水稻基因组数据库(http:/rgp.dna.affrc.go.jp),次级数据库,核酸序列数据库派生-如Genbank的refseq、unigene、est、sts蛋白序列、结构数据库派生库(包括蛋白家族、结构域和功能位点的信息)如Interpro数据库(http:/www.ebj.ac.uk),GenBank,全球著名的生物信息综合数据库 1982年成立,包含所有已知的核苷酸及蛋白质序列以及与之有关的生物学信息和参考文献,由美国生物技术信息中心(NCBI)维护,是权威序列数据库。序列为作者直接提交或查文献所得,并与其他数据库如EMBL/DDBJ交换每日更新的数据。,