基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc

上传人:文库蛋蛋多 文档编号:4200680 上传时间:2023-04-09 格式:DOC 页数:11 大小:341.50KB
返回 下载 相关 举报
基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc_第1页
第1页 / 共11页
基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc_第2页
第2页 / 共11页
基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc_第3页
第3页 / 共11页
基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc_第4页
第4页 / 共11页
基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc》由会员分享,可在线阅读,更多相关《基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测.doc(11页珍藏版)》请在三一办公上搜索。

1、基于氨基酸指数分布特征和对偶核支持向量机的蛋白质相互作用类型预测丁鹏,陈伟,张绍武* (西北工业大学自动化学院,西安,710072)摘要:蛋白质相互作用在许多细胞功能中都发挥着关键作用,研究蛋白质相互作用对于理解细胞分子机制至关重要。但是,仅仅依靠实验方法耗时费力,因此发展计算方法预测蛋白质相互作用的就显得极为重要。本文基于氨基酸的物化特性提出一种新的蛋白质特征提取方法:氨基酸指数分布特征提取方法,它能够提取序列中的所有顺序信息。而为了消除蛋白质特征连接顺序对结果的影响,本文采用对偶核支持向量机作为分类器。在得到了几种计算方法的结果后,使用决策模板进行了决策级融合。Hpylori数据库的jac

2、kknife计算结果显示,本文方法预测总精度为75.51%,比Guo和Chen分别高出1.65和8.5个百分点,在使用了决策模板融合后,总的预测精度达到了76.28%,从而表明本文方法以及决策模板融合可有效地应用于蛋白质相互作用预测。关键词:氨基酸指数分布,对偶核,支持向量机,融合,决策模板1、引言在细胞的生命活动过程中,大多数蛋白质都是通过与其它蛋白质相互作用实现其生物功能。蛋白质的功能往往体现在与其它蛋白质或其它生物大分子之间的相互作用中,蛋白质间特有的相互作用关系很重要,因为它们不仅参与基因转录调控、细胞分裂增殖、信号传导、代谢等重要生命活动,同时还与疾病的发生、发展密切相关。因而,蛋白

3、质相互作用研究对疾病发生机制的理解和有效药物的研制有着极其重要的意义。蛋白质相互作用研究方法大致分为两类:生物实验方法和计算预测方法。实验方法主要有酵母双杂交系统1, 2、质谱技术3, 4、蛋白质芯片5等,但随着基因和蛋白质数据的高速增长,这些实验方法的局限性越来越明显,不仅耗时耗力、成本高,而且实验准确性也受到偶然性和实验条件等因素影响,所以发展有效的*通讯作者,电话:(029)88431308, E-mail: zhangsw_计算方法预测蛋白质相互作用极其重要。迄今为止,已有多种计算方法被提出,例如基于结构信息的docking法6,踩踏折叠识别法7,基于基因信息的种系模板法8等,但是基于

4、结构信息的计算方法需要更多关于蛋白质的先验信息,基于基因信息的计算方法仅适用于已被完全测序的基因组,因此这两类方法都不具有普遍性。“序列可以决定结构”,因此,蛋白质的氨基酸序列信息可能已足以预测蛋白质相互作用类型。在这样的思想指导下,各种基于氨基酸序列的计算方法也被提出来。传统的氨基酸组成成分方法(AAC)通过统计蛋白质序列中各种氨基酸的出现频率来提取特征,但它却忽略了序列中氨基酸的顺序信息。Shen9提出一种三联子方法来提取顺序信息,但它只能包含一个氨基酸与它相邻的两个氨基酸之间的顺序信息。Chou和Cai10 使用了伪氨基酸特征提取方法;Guo11使用了自协方差描述子;Xia12使用了莫兰

5、自相关描述子来提取顺序信息,它们都是通过各自引入的氨基酸物化特性将氨基酸序列顺序信息考虑进去,相比AAC和Shen能够包含更多顺序信息,但是仍无法将所有顺序信息考虑进去。而且现有的大部分基于序列的计算方法都是通过将蛋白质对所包含的两个蛋白质子链的特征连接来表示蛋白质对的特征,这样它们的蛋白质对特征表示并不唯一,但它们的分类器又不能消除这种不唯一对结果带来的影响,因此得到的结果多是不稳定的。本文基于氨基酸的物化特性提出一种新的蛋白质特征提取方法:氨基酸指数分布特征提取方法,它能够提取序列中的所有顺序信息。为了消除蛋白质子链特征连接顺序对结果的影响,本文采用对偶核支持向量机作为分类器。在得到了几种

6、计算方法的结果后,使用决策模板进行了决策级融合。Hpylori数据库的计算结果表明本文方法以及决策模板融合可有效地应用于蛋白质相互作用预测。2、 数据库与方法2.1、数据库本文使用公共数据库Helicobacter pylori进行方法验证和比较。先搜集Helicobacter pylori数据库相互作用蛋白质对名称,然后再从DIP数据库中找到在这些相互作用蛋白质对所对应的所有蛋白质子链,并根据以下规则构建蛋白质作用数据库:(1)、将网站上搜集到的蛋白质作用对构成正样本集;蛋白质任意子链两两组合,除去相互作用蛋白质对,剩余的蛋白质子链对为非作用蛋白质对,即负样本集,例如某一蛋白质中有A、B、C

7、、D四条链,其中AB、AC、BD发生相互作用,则将AD、BC、BD视为非蛋白质相互作用对;(2)、样本集中任一条链的氨基酸序列长度大于50;(3)、样本集中任意蛋白质子链对间的序列一致性(identity)小于40%; (4)、由于负样本数大于正样本数,在负样本集中随机抽取与正样本数相同的样本构成非作用蛋白质子链对集 。于是构建的数据库共有2846个样本,其中蛋白质作用子链对和非作用蛋白质子链对各有1423个。2.2、氨基酸指数分布特征提取方法氨基酸的物化特性是判定蛋白质的结构类型的关键,基于氨基酸的物化特性,我们提出了氨基酸指数分布特征提取方法。根据选取的氨基酸物化特性, 20种常规氨基酸(

8、)可一一对应经过归一化处理的物化特性值,假设一个蛋白质的序列有个氨基酸,通过将序列中的每一个氨基酸用对应的物化特性值替换可得到一个数值序列,其中为序列中第个氨基酸的物化特性值。从这个数值序列出发,我们可用一个60维的向量来表示蛋白质的氨基酸指数分布特征(1)其中的定义如下(2)(3)(4)其中为20种常规氨基酸(按字母顺序排列)中第个氨基酸在蛋白质的序列中出现的次数,因为20种常规氨基酸对应同一种物化特性的物化特性值是互不相同的,所以也等于这种氨基酸所对应的物化特性值在数值序列中出现的次数。为在数值序列中第次出现的位置。需要注意的是,对于同一个蛋白质,选取的氨基酸物化特性不同,得到的氨基酸指数

9、分布特征就不同。本文选取了三种氨基酸物化特性:疏水性,亲水性以及边链团性。表1为经过归一化处理的20种常规氨基酸的物化特性值。对于给定的蛋白质对,假设它所包含的两个蛋白质为、,根据这三种氨基酸物化特性,的特征可分别用维的向量,来表示:(5)(6)其中,分别为蛋白质对应于疏水性,亲水性以及边链团性的60维氨基酸指数分布特征;,分别为蛋白质对应于疏水性,亲水性以及边链团的60维氨基酸指数分布特征,它们都可以通过式(1)计算得到。通过将向量,相连,可以得到蛋白质对的特征:(7)或(8)氨基酸指数分布特征提取方法采用将蛋白对所包含的两个蛋白质子链的特征表示向量简单相连的方法来得到蛋白对的特征,因为连接

10、顺序是自由的,所以蛋白质对的特征并不唯一,而这可能会使最终预测结果不稳定。2.3、对偶核函数为了避免上述情况,本文在支持向量机的基础上,提出一类新的核函数,使其具有“对偶”的特点无论蛋白对样本的两个蛋白质表示向量的连接顺序如何,最后得到的结果都不会改变。即给定蛋白质对,核函数需满足下面的对偶条件:(9)其中 ,与,计算方法相同。关于支持向量机的基础知识可参考文献13,SVM的核函数决定了这个SVM的学习能力,传统基于SVM方法的蛋白质对预测在进行分类时常采用高斯径向基核函数(10)之所以常常选择这个核函数,是因为根据以往预测经验,对蛋白质相互作用数据,高斯径向基核函数相比其它常用的核函数,如多

11、项式核函数,sigmoid核函数往往有更好的预测结果。由高斯径向基的表达式可知,它并不满足式5的对偶特性。本文基于高斯径向基核函数,构造了一个新的对偶核函数:(11)根据文献13可以证明上面的对偶核函数满足Mercer条件;同样可以证明,它也满足式9所示的对偶特性。在对偶核函数构造出来以后,就可以使用支持向量机进行分类了。2.4、决策模板融合在计算了三种分类方法的结果后,本文使用决策模板对三种结果进行融合。在决策模板融合规则中,首先对于每一个训练或测试样本都计算出相应的决策轮廓矩阵。假设有L种分类方法,它们对样本x的判别结果可以形成一个决策轮廓(Decision Profile, DP)矩阵:

12、(12)其中表示第种分类方法将样本x分为第j类的概率(后验概率),即。决策轮廓矩阵是实现很多融合规则的基础,然后我们用训练样本的决策轮廓矩阵可建立每一类样本的决策模板:(13)其中表示属于第类的训练样本数,表示属于第类的样本。即可以建立个DT矩阵;测试时,对于每一个测试样本,计算和第j类决策模板的某种相似性度量;最后可得到样本x属于第j类的置信度:(14)本文采用欧氏距离作为相似性度量,即:(15)其中是决策模板的第k行第j列值。2.5、预测性能评估本文采用敏感性(Sn)、特异性(Sp)和预测总精度(Q)评估分类系统预测性能。三参数定义如下:(16)(17)(18)其中,表示正确预测的蛋白质作

13、用对数目、表示正确预测的非蛋白质作用对数目、表示错误预测的蛋白质作用对数目,表示错误预测的非作用蛋白质对数目。是一种预测性能评估方法,它从整体考虑结果,不仅考虑了某一类样本识别的成功概率,还考虑了其它类样本被识别成此类的概率。(19)3、 结果与讨论本文的计算是基于SVM软件libsvm-3.0 完成的,其中核函数部分用C+语言进行了修改。通常在多变量统计模型中,SVM的分类效果与参数的选择密切相关,一般而言,SVM包括两类参数:容量参数及核函数中参数。是控制SVM间隔最大化与训练误差最小化之间相互折中的参数,通过改变核函数的幅值来增加核函数的实用性。Guo和Shen的方法也是使用支持向量机作

14、为分类器,作为对照,我们也计算了Guo和Shen的方法的最优值和最优值。在得到这三种方法的最优参数后,我们使用了jackknife计算最后的预测精度及决策模板融合精度,结果如表2所示从结果可以看到,本文方法预测总精度为75.51%,比Guo和Chen分别高出1.65和8.5个百分点,说明我们的氨基酸指数分布特征提取方法对蛋白质作用预测是有效的。另外在特征维数方面,Guo的特征提取方法所提取的特征维数为420维(2307),Shen的特征提取方法所提取的特征维数为686维(2343),而氨基酸指数分布特征提取方法所提取的特征维数仅为360维(2603)。因此,其计算时间小于Guo和Shen的特征

15、提取方法。决策模板融合的MCC值最大,说明从整体考虑,决策模板融合的识别效果最好。本文的氨基酸指数分布方法选取了三种氨基酸物化特性,而氨基酸的物化特性有许多种,若选取其它的氨基酸的物化信息,或者引入更多氨基酸的物化信息或,预测蛋白质作用可能会收到更好的效果,这也将是我们下一步要研究的内容。通过对Guo、Shen以及本文方法的结果用决策模板融合,得到了更高的精度,其中Shen的方法精度较低,若使用其它更好的方法替代Shen的方法,最后融合得到的精度可能更高。4、结论本文从氨基酸序列出发,基于氨基酸指数分布特征提取方法,采用对偶核支持向量机对蛋白质相互作用进行了预测研究。Hpylori数据库的预测

16、结果表明:氨基酸指数分布特征提取方法提取的特征向量的确能够捕获更多蛋白质序列特征信息。与Guo和Shen的方法相比,氨基酸指数分布特征提取方法构成的特征向量的维数也更小,从而进一步表明氨基酸指数分布特征提取方法可有效地预测蛋白质作用。通过引入对偶核,本文的支持向量机分类器有效的解决了大多数基于序列的蛋白质相互作用预测计算方法结果不稳定的问题。对结果进行融合,可以得到更高的结果,说明决策模板对于蛋白质相互作用预测是一种有效的融合方法。参考文献1 Fields,S. and O. Song, A novel genetic system to detect protein-protein inte

17、ractions.Nature,1989.340(6230):p.245-6.2 Uezt,P., L.Giot, G. Cangey, et al., A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae. Nature,2000.403(6770):p.623-7.3 Rosotm,A.A., .P. Fucini, D.R. Benjamin,et al. Detetion and selective dissociation of intact ribosomes in

18、a mass spectrometer. Proc Natl Acad Sci USA,2000.97(10):p.5185-90.4 Ho,Y., A.Gruhler, A. Heilbut, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrpmetry. Nature, 2002.415(6868):p.180-3.5 Zhu,H., M.Bilgin, R. Bangham, et al. Global analysis of protein a

19、ctivoties using proteome chips. Science, 2001.293(5537):p,2101-5.6 Smith GR, Sternberg MJ: Prediction of protein-protein interactions by docking methods. Curr Opin Struct Biol 2002, 12(1):28-357 Aloy P, Russell RB: Interrogating protein interaction networks through structural biology. Proc Natl Acad

20、 Sci USA 2002, 99(8):5896-59018 Pellegrini,M., Marcotte,E.M., Thompson,M.J., Eisenberg,D. and Yeates,T.O. (1999) Assigning protein functions by comparative genome analysis. Protein phylogenetic profile. Proc. Nail Acad. Sci. USA, 96, 4285-42889 Juwen Shen , Jian Zhang , Xiaomin Luo , Weiliang Zhu ,

21、Kunqian Yu , Kaixian Chen , Yixue Li , and Hualiang Jiang: Predicting protein-protein interactions based only on sequences information. PNAS 2007,3 104(11) 4337-434110 Chou KC and Cai YD: Predicting protein-protein interactions from Sequences in a Hybridization Space, Journal of Proteome Research 20

22、06, 5: 316-32211 Guo, Y.; Yu, L.; Wen, Z.; Li, M. Using support vector machine combined with auto covariance to predict protein-protein interactions from protein sequences. Nucleic Acids Res., 2008, 36(9),3025-30.12 Xia, J.; Kyungsook H; Huang, D. Sequenc-based prediction of protein-protein interact

23、ion by means of rotation and qutocorrelation descriptor. Protein & Peptide Letters, 2010, 17, 137-145.13 Nello Cristianini,John Shawe-Taylor著,李国正,王猛等译.支持向量机导论M.北京:电子工业出版社.200414 H.G.Alnahi. A New Classification of Amino Acid Residues by Using Machine Learning Approach. Annual International Conferenc

24、e of the IEEE Engineering in Medicine and Biology Society.Vol.13,No.4.199115 肖建华.智能模式识别方法M.广州:华南理工大学出版社.200516 Jean-Philippe Vert,Jian Qiu and William S Noble. A new pairwise kernel for biological network inference with support vector machine.Bioinformatics.2007,817 Ben-Hur A, Noble WS: Kernel metho

25、ds for predicting protein-protein interactions. Bioinformatics 2005, 21(1):i38-4618 Tanford, C. Contribution of hydrophobic interactions to the stability of the globular conformation of proteins. J. Am. Chem.Soc. 1962, 84, 4240-4274.19 Hopp, T. P.; Woods, K. R. Prediction of protein antigenic determ

26、inants from amino acid sequences. Proc. Natl. Acad. Sci. U.S.A. 1981, 78, 3824-3828.表1: 经过归一化处理的20种常规氨基酸的物化特性值(疏水性的原始数据源自文献18 ,亲水性的原始数据源自文献19,边链特性原始数据可自行查阅)代码疏水性亲水性边链团性A0.6201-0.1888-1.5516C0.2901-0.4404-0.5161D-0.90021.5729-0.1278E-0.74021.57290.3252F1.1903-1.19540.9077G0.48010.0629-2.0047H-0.4001-

27、0.18880.6164I1.3803-0.8431-0.1925K-1.50031.57290.3252L1.0602-0.8431-0.1925M0.6401-0.59140.3899N-0.78021.0696-0.1602P0.12000.0629-0.6779Q-0.85020.16360.2929R-2.53061.57291.2313S-0.18000.2139-1.0339T-0.0500-0.1384-0.5808V1.0802-0.6921-0.6456W0.8102-1.64842.1697Y0.2601-1.09471.4254表2 三种预测方法结果及融合结果Guos

28、methodShens method本文方法决策模板融合最优值221最优值0.250.0625473.7666.4975.6076.8774.0768.5975.3375.1973.8667.0175.5176.280.480.340.510.53Prediction of Protein-Protein Interaction Types with Amino Acid Index Distribution and Pairwise Kernel Function SVMPeng Ding, Wei Chen,Shao-Wu Zhang*College of Automation, Nort

29、hwestern Polytechnical University, 710072, Xian, ChinaAbstract: Protein-protein interactions (PPIs) play a key role in many cellular processes, Knowing about the multitude of PPIs can help the biological scientist understand the molecular machinery of the cell. Unfortunately, it is both time-consumi

30、ng and expensive to do so solely based on experiments. Therefore, developing computational methods for predicting PPIs would be of significant value in this regard. In this paper, we proposed a new feature extraction method based on the physicochemical property of amino acids: amino acid index distr

31、ibution (AAI). In order to solve the problem of concatenating order above, we used the pairwise kernel function support vector machine (SVM) as classifier. In the end, we fused the results of various methods based on decision profile (DP). The overall success rate of our method obtained in jackknife

32、 test on Hpylori database was 75.51%, which is 1.65% and 8.5% higher than that of Guos and Shens methods, and the success rate after fusing was 76.28%, indicating our method and the fusing method based on DP is very promising for predicting PPI types.Keywords: Amino Acid Index Distribution, Pairwise Kernel, SVM, fusing, decision profile

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公文档 > 其他范文


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号