《生物信息处理.ppt》由会员分享,可在线阅读,更多相关《生物信息处理.ppt(21页珍藏版)》请在三一办公上搜索。
1、第三节 生物信息处理,生物信息学(bioinformatics),基于数学、生命科学、化学和计算机科学的交叉学科.利用计算机信息处理技术对大量生物大分子作信息获取、加工、储存、分类、检索与统计分析,揭示生物大分子的分子结构、功能、同源性和进化关系.推动生命科学的发展,为创新药物的研究和开发奠定基础.,生物信息学的应用,核酸序列分析指直接从基因组序列中获取信息,同时为后者提供数据;蛋白质序列分析中,大部分是对同源蛋白序列进行比对分析,以得到不同蛋白质之间的序列相关性,从而推测蛋白质功能等。二者分析方法一致。,生物大分子结构预测,虚拟筛选,生物大分子包括DNA、RNA、蛋白质和脂类。它们的结构预测
2、指建立精确的三维构象,这对于生物大分子功能的阐明十分重要。而尚无晶体结构数据的生物大分子,可采用分子模拟的方法预测大分子的三维结构。,在进行生物活性筛选之前,在计算机上对化合物分子进预筛选,以降低实际筛选化合物数目,同时提高先导化合物发现效率。,药物发现中的生物信息学方法,一、核酸和蛋白质的序列分析,(一)单个序列分析 根据单个氨基酸物化性质推测整个蛋白质的性质,也可对序列进行统计分析,预测二级结构出现可能性.20种氨基酸的疏水参数,根据统计值:Glu经常出现在-螺旋中;Val常在-折叠中发现;Pro通常不出现于-螺旋中和-折叠中而倾向于在回折中,(数值=1代表偏好处于平均;1代表偏好大于平均
3、;1代表偏好小于平均),(二)双重序列比较序列比对,序列对比可以用各种矩阵表达并作相似性打分两个残基越相似则打分值越高.,(三)多重序列比对,多重序列比对可更多揭示相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。可采用多种统计算法进行多重序列比对。,二、蛋白质三维结构预测,蛋白质二级结构预测的意义,蛋白质的二级结构有螺旋、折叠、转角等。因为每一段相邻的氨基酸残基具有形成一定二级结构的倾向,而且所有蛋白质中约85%的氨基酸残基处于上述3种基本二级结构状态,所以从序列预测蛋白质二级结构是可行的。,1、Chou-Fasman方法2、GOR方法3、基于氨基酸疏水性的方法,蛋白质二级结构预测的方
4、法,主要预测方法,1、从头预测法(ab initio prediction),采用理论计算(分子力学、分子动力学、量子化学)方法,直接从分子和原子参数计算出蛋白质分子的稳定构象,理论上最理想的方法,但计算量极大,对于实际分子的计算超过能力范围,2、穿针引线法,根据已知的蛋白质三维结构来预测可能的三维结构基于知识的预测可应用于进化非常疏远的结构预测未知蛋白序列与折叠库中已知结构的蛋白序列作匹配计算,将序列吻合的三维结构模块串连起来,得到整个蛋白三维结构,同源蛋白模建法homologous model building比较分子模拟法parative molecular modeling同源模建 h
5、omology modeling同源蛋白法 protein homology,根据已知的蛋白质三维结构来预测可能的三维结构基于知识的预测同源蛋白有着相似的来源、相似的结构和生物功能。通过比较蛋白序列的相似性,按同源蛋白的三维结构为模板,构建未知蛋白的结构一般要求同源性在30%以上,特别是在结合区域同源性要好,步骤,(1)根据未知蛋白质的序列,寻找同源蛋白(2)二重或多重序列对比步骤(3)找出共同的二级结构区域,构建骨架(4)对初始模型作能量优化(5)判断结构合理性,三、代表性生物信息学数据库,(一)核酸数据库GenBankNIH所属国家生物技术信息中心NCBINucleic Acid Data
6、base(NDB)由European Molecular Biology Laboratory(EMBL)创建,现由英国剑桥的欧洲生物信息学研究所(European Bioinformatics Institute,EBI)维护DNA Data Bank of Japan(DDBJ)日本国立遗传学研究所的日本信息生物学中心(Center for Information Biology,CIB)开发维护三大库可交互,(二)蛋白质数据库,PDB(Protein Data Bank at Brookhaven National Laboratories)美国 Research Collaboration for Structural Bioinformatics,RCSB开发维护的多肽、酶、病毒、碳水化合物和核酸的三维结构数据,