蛋白质生物信息学.ppt

上传人:小飞机 文档编号:6143225 上传时间:2023-09-28 格式:PPT 页数:29 大小:248KB
返回 下载 相关 举报
蛋白质生物信息学.ppt_第1页
第1页 / 共29页
蛋白质生物信息学.ppt_第2页
第2页 / 共29页
蛋白质生物信息学.ppt_第3页
第3页 / 共29页
蛋白质生物信息学.ppt_第4页
第4页 / 共29页
蛋白质生物信息学.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《蛋白质生物信息学.ppt》由会员分享,可在线阅读,更多相关《蛋白质生物信息学.ppt(29页珍藏版)》请在三一办公上搜索。

1、蛋白质生物信息学,XXX,蛋白质生物信息学,蛋白质序列分析 蛋白质结构基础 三级结构测定,具体来说,生物信息学是把基因组DNA序列信息作为源头,确定基因组序列中代表蛋白质和RNA的基因编码区。同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在DNA序列中的遗传规律。在此基础上,归纳和整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而揭示生命体的生长、发育、代谢和进化的规律。,蛋白质的生物信息学作为其中的一个部分,成为生物信息学的重点发展方向。,1.基因功能表达谱的研究,即探讨基因在特定时空中的表达。2.确定核酸序列中编码蛋白质的基因,了解蛋白质的功能及其分子基础,运用蛋

2、白质结构模拟与分子设计进行功能预测。3.对已知的各种代谢途径和相关的生物分子的结构、功能及它们之间的相互作用进行整理,用以研究细胞发育、分化途径和疾病的发生与发展的途径。4.将这些信息与生命体和生命过程的生理生化信息相结合,阐明其分子机制,最终进行蛋白质及核酸的分子设计、药物设计和个体化的医疗保健设计。5.其他。例如,序列对比、结构对比、计算机辅助基因识别、非编码区分析和DNA语言研究、分子进化和比较基因组学、序列重叠群装配、生物信息处理并行算法的研究、代谢网络分析、基因芯片设计、蛋白质组学数据分析等。,蛋白质生物信息学研究的主要内容,序列对比的概念,在生物信息学研究中,最常用和最经典的一个研

3、究手段,就是通过比较分析获得有用的信息和知识。将研究对象进行相互比较来寻找研究对象可能具备的某些特性。从核酸及蛋白质的一级结构方面来分析序列的相同点和不同点,从而能够推测它们的结构、功能及进化上的联系。,序列对比的理论基础是进化学说。如果两个基因和蛋白质序列之间具有足够的相似性,就推测两者可能有共同的进化祖先,经过序列内残基的替换、缺失以及序列重组等遗传变异过程分别演化而来。,相似性和同源性,序列的相似性(similarity):在序列对比中描述两条序列之间相同碱基或氨基酸残基所占比例。序列的同源性(homology):从大量数据中推断出的两个基因在进化上具有共同祖先的结论。,序列两两对比,描

4、述序列两两对比通常用打分矩阵的方法。即两条序列分别作为矩阵的两维,矩阵点是两维上对应两个序列的相似性分数,分数越高则说明两个序列越相似。序列对比问题即是在矩阵中寻找最佳的对比路径。方法:Needleman-Wunsch动态规划算法;Smith-Waterman算法;SIM算法。工具:LALIGN;Align、B12Seq等。,多序列对比,多序列对比是把两条以上可能有系统进化关系的序列进行对比的方法。目前,使用最广泛的多序列对比程序是CLUSTALX。它先将多个序列进行两两对比构建距离矩阵,确立序列间的两两关系。然后根据距离矩阵计算产生系统进化指导树,对关系密切的序列进行加权。再从相似程度最高的

5、两条序列开始,逐步引入临近的序列并不断重新构建对比,直到所有序列都被加入为止。,数据库搜索的概念,数据库搜索:通过序列相似性对比的算法,在核酸序列数据库和蛋白质序列数据库中检索出与被检序列具有一定相似性的序列。数据库搜索的基础是序列的相似性对比。被检测的序列与一个已知基因家族之间的进化关系被确定之后,通过数据库搜索可以得到一些相似序列,但它们之间的相似性程度具有差别,因此,还需要判断其序列相似性程度。(其他的研究方法和/或实验手段来验证),数据库搜索的工具,虽然各种搜索程序和算法各不相同,但数据库搜索检出的结果基本相似,均采用统计学评分,并按照相似程度排序。目前,应用较广泛的序列相似性搜索工具

6、:FASTA、BLAST和BLITZ等。对于DNA序列相似性检索,FASTA的敏感度较高,但BLAST检索速度较快。BLITZ的运算速度较慢,但其特异性较高。,BLAST数据库搜索工具BLAST是目前应用最广泛的序列相似性搜索工具,比FASTA改进更多,搜索速度更快,并建立在严格的统计学基础之上。,BLAST程序,一、数据库介绍,Swiss-Prot 公认注释信息最佳的蛋白数据库,包含几乎所有已知蛋白。由专家参与每条蛋白序列的筛选和校正,并进行详细注释。注释信息包括蛋白质功能、结构域信息、翻译后修饰、变异情况等等。,Swiss-Prot 序列格式,每条序列注释包括九部分:,Swiss-Prot

7、 查询,通过EXPASY中附带的网络搜索界面SRS(sequence retrieval system)进行。SRS是一个通用的查询系统,与NCBI 提供的Entrez 提供类似功能。用户可以输入名称,编号,物种,组织等多种条件进行查询。,SRS 查询界面,数据库介绍(2)-TrEMBL,对三大核酸数据库(GENBANK,EMBL,DDBJ)之一的EMBL通过计算机预测得到的蛋白质数据库,虽然不可避免地存在某些错误,数据质量比不上Swiss-Prot。但可以作为Swiss-Prot 的补充,而且其中存在一些功能未知的新基因编码的产物,可以作为开展功能研究的靶点。,数据库介绍(3)-ENZYME

8、,收集了很多常用酶的信息,包括功能描述,酶切位点,以及一些相关链接。每条纪录都按照国际生物化学与分子生物学命名委员会(Nomenclature Committee of the International Union of Biochemistry and Molecular Biology,IUBMB)命名规则进行命名。,Enzyme 查询界面,用户可以根据酶的描述信息,与化合物的结合情况,共作用分子等等进行查询,数据库介绍(4)-PROSITE,蛋白质模体及结构域数据库什么是结构域/模体?结构域可以理解为蛋白家族共有的保守区域,是对蛋白家族序列进行多序列比对后,对保守区域进行抽提归纳得到的

9、结果。这种方法得到的保守区域为在一级序列上保守,与高级结构一般有相关性,但有时也有例外。,一次多序列比对结果,Clustal 是多序列比对常用的工具,用户可以提交到)比对,许多软件包如DNAMAN,BIOEDIT中也整合了该软件,PROSITE 内容,PROSITE 主要保存两类信息:模式(pattern)和谱(profile,权重矩阵)。模式可以理解为保守的氨基酸排列方式,通常以氨基酸单字母方式排列.Profile 为对保守区域每一位置氨基酸保守情况进行打分构建的权重矩阵。,PROSITE 使用注意事项,Pattern主要可以用来预测某些生物活性位点,如磷酸化位点、甲基化位点。profile

10、预测可靠性高,可以用来对新蛋白进行分类和提供功能提示。蛋白的功能位点是与其三维结构紧密相关的,局部区域符合某种pattern不能保证一定会具有对应的性质,要根据实际情况,谨慎对待pattern 预测结果。,补充:蛋白结构域数据库,除了PROSITE 之外,还有很多结构域数据库,比较著名的有:Pfam http:/SMART BLOCKS PRINTS,数据库介绍(5)SWISS-2DPAGE,双向聚丙烯酰胺凝胶电泳数据库。保存了很多组织来源的双向电泳图谱,用户可以提交自己的蛋白序列,根据等电点及分子量显示在电泳图上的位置。该数据库还提供了2-D 电泳的protocol,以及构建2-D 电泳数据库的软件包,对有兴趣作2-D 电泳的用户来说是一个很不错的入门网站。,数据库介绍(6)SWISS-MODEL Repository,基于序列相似性的蛋白三维结构建模系统,用户提交自己的蛋白序列,服务器端首先搜索与提交序列相似的三维结构已知的蛋白,根据已知序列结构模拟出用户提交蛋白的三维结构模型。,Thank you,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号