《《生物信息》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《生物信息》PPT课件.ppt(57页珍藏版)》请在三一办公上搜索。
1、生物信息学现在与未来,哈尔滨医科大学生物信息学院李 霞 教授,一、生物信息学二、生物信息学研究方向,Outline,复杂疾病的基因定位基因芯片信息学技术药物基因组信息学,三、重要的研究成果,生物信息学(Bioinformatics)是数学、计算机、信息技术与生命科学交叉形成的前沿学科。,一、生物信息学,Bio molecular biologyInformatics computer、mathematics and informatics etc.Bioinformatics solving problems arising from biology using methodology fro
2、m computer and mathematics science.Bioinformation Technology(BIT),What is Bioinformatics?,是人类自然科学史上最伟大的创举之一 是世纪交替之时,人类历史上最重大的事件之一 是人类认识自我的宏伟计划 是一项全人类的国际间合作项目,其规模可以与“曼哈顿原子弹计划”、“阿波罗”登月计划媲美,而它的意义又远远超出了这两个计划。,人类基因组计划(Human Genome Project):,人类基因组计划之大事记 1990年10月启动国际人类基因组计划,预计2005年完成。1998年10月23日美国国家人类基因组研究
3、所在美国Science杂志上发表声明说,人类基因组计划的全部测序工作将比计划提前两年,即在2003年完成。1999年9月中国获准加入人类基因组计划,负责测定人类基因组全部序列的1%,即3号染色体上的3000万个碱基对,使中国成为继美、英、日、德、法之后第六个国际人类基因组计划参与国。1999年12月1日国际人类基因组计划联合研究小组宣布完整译出人体第22对染色体的遗传密码,人类首次成功完成人体染色体基因完整序列的测定。2000年4月我国按照人类基因组计划的部署,完成了1%人类基因组的工作框架。2000年6月26日各国科学家公布了人类基因组工作草图。,人类基因组计划(Human Genome P
4、roject,HGP)也称人类基因测序计划,主要目标是完成对人的基因组的所有碱基序列的测定(结构基因组),阐明人体中全部基因的位置、结构、功能、表达、调控方式及致病突变的全部信息(功能基因组)。,基因是染色体上的一段DNA,DNA就是脱氧核糖核酸(长链),腺嘌呤(A)鸟嘌呤(G)胸腺嘧啶(T)胞嘧啶(C),基因测序就是读出 A-C-G-T-G-G-A-C-G.目标是测定人类基因组全部30亿个碱基对序列。,全基因组测序的方法,分段克隆,分段测序,部分序列重叠,计算机拼接,完整序列,绘制“标志”,DNA序列测定,每一个峰代表一个碱基 四种颜色代表四种不同的碱基,How many character
5、s are in the“Heaven Book”?,生物数据库,Genbank Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。它的数据直接来源于测序工作者提交的序列;由测序中心提交的大量EST序列和其它测序数据;以及与其它数据机构协作交换数据而来。欧洲分子生物学实验室(EMBL)的数据库日本的DNA数据库(DDBJ)交换数据Genbank库里的数据按来源于约55,000个物种,其中56%是人类的基因组序列(所有序列中的34%是人类的EST序列)。每条Genbank数据记录包含了对序列的简要描
6、述,它的科学命名,物种分类名称,参考文献,序列特征表,以及序列本身。序列特征表里包含对序列生物学特征注释如:编码区、转录单元、重复区域、突变位点或修饰位点等。所有数据记录被划分在若干个文件里,如细菌类、病毒类、灵长类、啮齿类,以及EST数据、基因组测序数据、大规模基因组序列数据等16类,其中EST数据等又被各自分成若干个文件。NCBI的网址是:。EMBL的网址是:。DDBJ的网址是:http:/,基因组数据库,基因组数据库,功能数据库(KEGG)京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因
7、组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;KEGG的另一个数据库是LIGAND,包含关于化学物质、酶分子、酶反应等信息。KEGG提供了Java的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。KEGG的网址是:http:/。,PATHWAY DATABASE A Pathway Example,功能基因组研究的目标,基因及其 编码蛋白质,生理功能,疾病相关,诊断、治疗、药物开发等应用,分子生物学数据库和分析软件基因组制图与测序DN
8、A与蛋白质序列同源性分析基因识别与翻译基因功能信号检测蛋白质结构与功能预测疾病基因的连锁定位克隆策略基因芯片表达谱分析基因与其产物间的互作网络药物基因组学与药物分子设计分子进化钟与进化树比较基因组学自动化检测仪器设计(软件)系统生物学.,生物医学计算机科学数学、物理信息技术(图象识别、人工智能、计算机网络、数据库、统计学、Data Mining),生物信息学,Bioinformatics,生物信息学:交叉学科,二、生物信息学研究方向,如何寻找疾病相关基因?,复杂疾病的基因作图(Gene Mapping),致病基因世代相传,肥胖症,正常人,传递不平衡方法(Transmission Disequi
9、librium Test),下面是来自三个家庭的传递/非传递数据表。,The Principle,基因芯片(gene chip)信息学技术 基因芯片技术是90年代的重大科技进展之一,既有重要的基础研究价值,又有明显的产业化前景。,数据的获取和分析(计算机及软件),杂交信号的检测(扫描仪等),基因表达谱(Express Profiling)示意图,胶质瘤,脑组织,生物学问题:差异表达基因、疾病亚型分析等,模式识别(疾病预测),生物学证实与解释,微阵列杂交实验,特征基因,探针筛选、芯片与实验设计,杂交信号采集与图象处理,标准化与Ratio值分析,聚类分析(基因或组织),基因调控网络,R,G,基因芯
10、片生物信息学研究,无监督学习方法(Unsupervised Learning Methods),聚类分析无监督数值分类要解决的主要问题是:将有相似表达行为的基因进行归类,发现共调节表达的基因,从而推测未知基因的功能。根据基因表达谱,将组织样本分组,这些组可能对应于特别的表型,如癌的亚型。常用的无监督学习方法有:层次系统聚类。K mean分割聚类。神经网络与自组织映射 各种聚类分析方法有不同的适用条件与效能。,肿瘤疾病分型及预测,有监督学习方法(Supervised Learning Methods),根据基因表达谱,有监督学习主要要解决两个问题:(1)分类肿瘤等疾病样本到已知类别,即判别诊断问
11、题。(2)识别对疾病有鉴别力的特征基因,即特征选择问题。常用的有监督学习方法:(1)最近邻法(Nearest Neighbor)(2)线性判别分析(Linear Discriminant Analysis)(3)分类树法CART(Classification And Regression Trees)(4)机器学习(Machine Learning,Booting and Bagging)(5)支持向量机技术(Support Vector Machine)这些方法的主要的困难是如何排除大量无关基因的干扰,Fig.1.Classification trees for tissue types b
12、y using espression data form three genes(M26383,R15447,M28214),遗传算法-支持向量机偶合的特征选择方法,2001级研究生李丽:在五种不同的分类器中,GA-SVM选择出的特征基因均高于T检验、非参数、随机的基因子集的分类贡献。,Relevance network joining disparate features of cell lines,Green box:agentsWhite boxes:genesLines:Proportional toCC.,Only CC=0.80 shown here,GRAPH EDITOR TO
13、OLKIT(Tom Sawyer Software,Berkeley,CA),PATHWAY DATABASE A Pathway Example,基因芯片技术的应用领域,基因芯片,基因功能等 基础研究,司法,军事,环境保护,个性化给药,病理和毒理,药物筛选,基因诊断,疾病亚型,大规模表达谱芯片,基因表达谱,药物基因组信息学药物筛选,用关键基因制备的芯片,生物医学信息(BMI)软件系统,价格昂贵$999999999,给药个性化,由于存在遗传差异,如药物应答基因不同,病人对药物的疗效与副作用有不同的反应。利用基因芯片技术可以对患者进行鉴别,实现对病人的个体优化治疗。我们曾经根据药物动力学原理,提
14、出了一整套个体化给药方案的设计与评价方法,研制了一套程序GPAP。希望今后能够结合药物基因组信息学进一步开展这方面的工作。,系统生物医学信息学,对疾病的认识,系统,器官,组织,细胞,分子,生物医学信息学必将成为未来医学研究的关键工具!,生物技术的支持和迫切需求,传统医学研究产生多种多样的数据信息(包括生化指标、X线、CT、MRI、B超、心电图等),但相对容易理解和分析。,新技术(生物芯片,SNP、通路、分子模拟等)、新的研究方法(蛋白组学、基因组学、生物信息学)和互联网正在为生物医学领域带来质的飞跃。,-GO:0003673 Gene_Ontology-GO:0003674 molecular
15、_function The action characteristic of a gene product.-GO:part_of part_of-GO:0016209 antioxidant activity Inhibition of the reactions brought about by dioxygen(O2)or peroxides.Usually the antioxidant is effective because it can itself be more easily oxidized than the substance protected.The term is
16、often applied to components that can trap free radicals,thereby breaking the chain reaction that normally leads to extensive biological damage.-SP_KW Antioxidant-HAMAP MF_00269-HAMAP MF_00401-GO:is_a is_a,1Z11793_at Selenoprotein P 5871.5394 2D38549_at KIAA0068 gene,partial cds 5981.4098 3U31383_at
17、G protein gamma-10 subunit mRNA 6013.5882 4U26648_at STX5A Syntaxin 5A 6030.7527 5L77886_at Protein tyrosine phosphatase mRNA 6034.6004 6U73377_at SKI V-ski avian sarcoma viral oncogene homolog 6043.9792 7M37721_at PAM Peptidylglycine alpha-amidating monooxygenase 6044.6296 8U90716_at Cell surface p
18、rotein HCAR mRNA 6103.3580 9J05633_at ITGB5 Integrin beta-5 subunit 6131.0221 10X69910_at P63 mRNA for transmembrane protein 6150.3927 11U41515_at Deleted in split hand/split foot 1(DSS1)mRNA 6205.2808 12D44466_at Proteasome subunit p112 6235.8605 13L19314_at HRY gene 6248.6168 14U03100_at CTNNA1 Ca
19、tenin(cadherin-associated protein),alpha 1(1026248.9223 15U91930_at AP-3 complex delta subunit mRNA 6273.9915 16M57730_at EPH-RELATED RECEPTOR TYROSINE KINASE LIGAND 1 PRECURSOR 6315.0203 17L77213_at Phosphomevalonate kinase mRNA 6339.9237 18X99728_at NDUFV3 gene,exon 3 6362.6388 19U34252_at ALDH7 A
20、ldehyde dehydrogenase 7(NOTE:redefinition of symb6387.0264 20D30756_at KIAA0108 gene 6392.8205,Patient#statusSamplename at WICGRVO2 max(ml/kg/min total body weight)M valueTrigsCholWHRAgeBMIGlucose 0 capillary blood who 85Glucose 120 capillary blood who 85Insulin 0Insulin 120UQCRB(209065_at)Centroid(
21、Using 34 OXPHOS-CR Genes)Glycogen(mmol/kg)Type1(n)Type1(%)Type1 Area(m2)Type1 Area(%)Type1 Mean Area(m2)Type1 Min.Area(m2)Type1 Max.Area(m2)Cap./Type1(mean n)Type2a(n)Type2a(%)Type2a Area(m2)Type2a Area(%)Type2a Mean Area(m2)Type2a Min.Area(m2)Type2a Max.Area(m2)Cap./Type2a(mean n)Type2b(n)Type2b(%)
22、Type2b Area(m2)Type2b Area(%)Type2b Mean Area(m2)Type2b Min.area(m2)Type2b Max.area(m2)Cap./Type2b(mean n)10122DM2DM2_mm39_10122:CI2002061839AA26.085.081.025.720.9567.0025.018.4014.9031988.190.001665118230.29157028232.83.515923.6 2.9810943.62.5810126DM2DM2_mm21_10126:CI2002061821AA25.673.331.655.876
23、5.9025.785.407.901153205.90.016814294427.77245189135.73.65220.4 3.7911243.93.3210131DM2DM2_mm77_10131:CI2002061877AA20.852.472.945.34165.0028.098.4018.601042212.2-0.064649412408.441652910839.64.495620.5 4.710939.94.0810169DM2DM2_mm28_10169:CI2002061828AA24.593.010.9966.1033.3610.9014.701017214.8-0.0
24、48561576375.55223.11111111428398.678325.036299538096.8458643461.70003814187.000024.84499263810345.77777778909222.265553.136394048928.150548731.95199917932.800135.0684620145524.44444444267472.508115.631518424867.159398955.842960310221.500092.81944444810179DM2DM2_mm03_10179:CI2002061803AA16.841.474.81
25、7.60.9865.9031.348.1016.102668218.3-0.01488399.89907694731.12582781272148.355436.860490465780.1234423026.839898903.9797763.82662844753.31125827828847.520823.9071842425785.6501815463.8098496023.5301194.6259965.56291391437324.075659.23232534577.96139473.61597987151.6002012.89393937610186DM2DM2_mm31_10
26、186:CI2002061831AA18.775.652.296.111.0568.0033.337.3015.001176232.4-0.055387824281.67784626525.49019608339406.149434.055375545506.5882571670.5700167831.8898034.18753614.11764706157929.417115.846341084504.9270031136.6799726863.1300643.09821426914456.47058824452518.577345.40486413183.400713254.0299915
27、7005.210192.49509799510189DM2DM2_mm05_10189:CI2002061805AA29.685.491.025.020.9969.0025.095.9011.10959328.90.035752647258.557538511349.56140351553855.180454.8079884967.5124582617.7999778977.1798883.818219985323.24561404266538.201326.37588864985.7341671330.42998810006.200312.9616013376026.315789471829
28、36.371818.102881092889.6301471300.2899874873.9399182.50483091710194DM2DM2_mm32_10194:CI2002061832AA 35.183.842.117.120.9964.9025.345.9012.601368290.7-0.06155300.946153811342.32209738439541.437947.014765563934.1467541524.1800049041.7602293.5525068046323.59550562255244.671627.301790834103.3528922432.6
29、600735795.3402083.3284574759134.082397240114.729925.683443612644.3292031054.8699694327.130212.10731595810197DM2DM2_mm61_10197:CI2002061861AA 20.985.441.514.940.9965.0025.228.1020.90515116.2-0.034958294343.9384615 10199DM2DM2_mm81_10199:CI2002061881AA24.334.370.856.40.9664.0027.424.7010.80728296.9-0.
30、050696471246.775846212043.79562044538225.776855.795037474485.2148072269.0500597444.3797794.33333349213850.3649635372770.273338.643135022701.2338651171.1199793853.5099563.62318849651.8248175187457.2898970.7730580491491.4579791218.4799841709.3200192.79999995210201DM2DM2_mm07_10201:CI2002061807AA25.97.
31、251.334.99161.0024.866.4014.30931261.9-0.082378588357.27127.84313725271816.851732.692576683801.0757252088.2200417556.3297843.6911057239938.82352941342958.280441.249060953357.888328835.2860076781.319953.280360468031.37254902198315.959223.852309612458.261365111.94600114391.7101072.66071426910204DM2DM2
32、_mm08_10204:CI2002061808AA34.482.332.916.050.9765.0026.3710.1018.90924167.5-0.065306941600.93692317352.51798561348155.140348.949412134805.1784512699.6100917242.0198735.1910803324532.37410072283532.39439.863676856293.9329193931.0101848327.0297325.550420284128.63309352550517.584787.1025982134471.14914
33、766.39700145799.6398793.350000024,新技术产生的海量生物信息带来了数据共享问题、信息标准化问题、信息集成问题以及与临床信息融合等一系列问题,要求生物医学信息系统的开发与建设。,三、重要的研究成果,微阵列分析,基因功能,标志性成果:Expression Profile Analysis,标志性成果:Gene Mining,标志性成果:疾病遗传异质性研究,系统的输出结果,原数据,输出数据,Ensemble process on the resultsBased on the newParameterZg,Algorithm flow chart,18 feature
34、 ion channel genes were selected,Data set,Ion channel genesselection,Ensemble tree process,Primary feature genes and good trees selection,Validation by other classificationmethods,Ensemble process on the resultsBased on the newParameterZg,Algorithm flow chart,18 feature ion channel genes were select
35、ed,Feature genes,KCNG1,KCNJ10,CFTR,调控通路内基因表达的相关性分析,利用7套你酿酒酵母基因芯片表达谱数据,分析研究了17条基因表达调控通路内的基因在mRNA表达水平上的相关性。发现有15条(88.2%)基因表达调控通路内的基因在多套(4)数据集中共表达。,关键技术,数据库,功能模块,应用模块,科研论文数量和质量 新的飞跃,论文100余篇(SCI论文20篇:EI论文3篇)Xia Li,Shaoqi Rao,YadongWang.Gene Mining:A Novel and Powerful Ensemble Decision Approach to Hunti
36、ng for Disease Genes Using Microarray Expression Profiling.Nucleic Acids Research,2004(影响因子:7.051)Li X,Rao S,Zhang T.An ensemble method for gene discovery based on DNA microarray data.SCIENCE IN CHINA(Series C)2004;34(2).Li X,Rao S,Moser KL,Elston RC,Olson JM,Guo Z,Zhang T:Genetic mapping of complex
37、 discrete human diseases by discriminant analysis.Progress In Natural Science 2002,12:431-437.Li X,Rao S,Elston RC,Olson JM,Moser KL,Zhang T,Guo Z:Locating the genes underlying a simulated complex disease by discriminant analysis.Genet Epidemiol 2001,21 Suppl 1:S516-521.Guo Z,Li X,Rao S,Moser KL,Gon
38、g B,Shen G,Li L,Cannata R,Zirzow E,Topol EJ,Wang Q:Discriminant sib-pair linkage analysis of longitudinal phenotypes.In:Genetic Workshop 13,International Genetic Epidemiology Society;2002;New Orleans,LA,USALi X,Rao S,Moser KL,Elston RC,Olson JM,Guo Z,Zhang T:Sib-pair Linkage Analysis of Complex Dise
39、ases via Pattern Recognition.In:Polygenic Diseases and Human Health-Proceedings of the International Symposium for Mapping and Identification of Genes for Complex Traits.Changsa,China;2002.,科 研 工 作(论文),李丽,李霞,郭政,汪强虎,两种过滤特征基因选择算法的有效性研究.生命科学研究,2003,7(4):369-373.喻辉,郭政,李霞,基于GO与基因表达谱挖掘特征基因功能类,生物信息学王琦,许杰,郭
40、政,李霞,基于表达谱信息分析软件IDEA与WebGEA,生物信息学。宫滨生,李霞,郭政,SAGE遗传分析系统的功能及应用,中国优生与遗传杂志2002101王磊,郭政,李霞,屠康,徐建震,喻辉,宫滨生,互作蛋白质对应基因在mRNA水平的表达相关性分析,哈尔滨医科大学学报朱晶,郭政,李霞,宫滨生,屠康,喻辉,徐建震,编码蛋白位于同一个信号传导通路内的基因表达相关性分析,哈尔滨医科大学学报李传星,调控通路内基因表达的相关性分析,遗传,2004.王海芸,李 霞,郭 政,张瑞杰,四种模式分类方法应用于基因表达谱分析的比较研究,生物医学工程学杂志,2004 徐娜,李霞,郭政,杜磊,李丽,功能驱使的基因表达相似性分析,哈尔滨医科大学,2003,37(6)183-186.李霞,张田文,李丽,郭政,决策树特征基因选择方法对SVM有效性的研究,中国生物医学工程学报;2004,23(1):66-72.李霞,张田文,饶绍奇,李丽,特征基因挖掘的决策森林方法,哈尔滨工业大学学报,2004,36(4).郭政,张田文,李霞,屠康,喻辉,徐建震,王辰光.利用GeneHub软件多角度分析基因功能相关与表达相关的联系,生物医学工程学杂志(已接受)喻辉,郭政,李霞,屠康与实验条件相关的基因功能模块聚类分析方法生物物理学报(已接受),国家级刊物:,