《蛋白质结构预测综述.docx》由会员分享,可在线阅读,更多相关《蛋白质结构预测综述.docx(26页珍藏版)》请在三一办公上搜索。
1、蛋白质结构预测综述一、本文概述蛋白质,作为生物体内最基本的分子单位之一,承载着生命活动的众多重要功能。从酶的催化作用,到细胞间的信号传递,再到生物体的结构支撑,蛋白质无处不在,无时不刻不在发挥着其独特的作用。尽管蛋白质的重要性不言而喻,但其结构与功能之间的复杂关系一直是科学家们研究的难题。蛋白质结构预测成为了生物学、化学、物理学、计算机科学等多个学科交叉的研究热点。本文旨在对蛋白质结构预测的研究进行全面的综述,以期对该领域的发展有一个清晰的认识。我们将回顾蛋白质结构预测的发展历程,从早期的基于经验的预测方法,到现代的基于机器学习和深度学习的预测方法。我们将介绍当前蛋白质结构预测的主要技术和方法
2、,包括同源建模、从头预测、基于深度学习的预测等,并详细分析它们的优缺点。我们还将探讨蛋白质结构预测在药物设计、疾病治疗等领域的应用前景。二、蛋白质结构预测的基本原理和方法蛋白质结构预测是生物信息学领域的重要分支,其目标是根据蛋白质的氨基酸序列,预测其三维空间结构。这一预测过程基于的基本原理和方法,主要涵盖同源建模、从头预测和混合方法三类。同源建模(HOnIOIOgyMOdeIing)是最常用的蛋白质结构预测方法之一。它基于一个已知结构的同源蛋白质(模板)来预测目标蛋白质的结构。同源建模的准确性高度依赖于模板蛋白质与目标蛋白质之间的序列相似性和结构保守性。通过比对目标序列与模板序列,确定它们之间
3、的序列相似性和结构对应关系,然后利用这些信息来构建目标蛋白质的结构模型。从头预测(AbinitioModeling)则不依赖于已知的蛋白质结构,而是基于物理和化学原理,如分子力学、量子力学和统计力学等,来预测蛋白质的结构。从头预测的方法通常涉及到大量的计算,因此其预测过程相对较慢。尽管如此,从头预测方法对于那些没有同源模板的蛋白质或者序列相似性较低的蛋白质仍然具有重要意义。混合方法(HybridMethodS)则是将同源建模和从头预测两种方法结合起来,以提高预测的准确性。混合方法通常首先使用同源建模方法构建一个初步的结构模型,然后使用从头预测方法对这个模型进行优化和修正。混合方法结合了两种方法
4、的优点,可以在一定程度上提高蛋白质结构预测的准确性。蛋白质结构预测的基本原理和方法涵盖了同源建模、从头预测和混合方法等多个方面。这些方法在实际应用中各有优缺点,需要根据具体的蛋白质序列和结构特点选择合适的方法进行预测。随着计算机技术的不断发展和算法的不断优化,蛋白质结构预测的准确性将不断提高,为生物医学研究和药物设计等领域的发展提供有力支持。三、蛋白质结构预测的主要技术和工具随着生物信息学和计算生物学的发展,蛋白质结构预测已经成为一个热门且富有挑战性的领域。预测蛋白质的三维结构对于理解其功能、揭示生命活动的机制以及指导药物设计等方面都具有重要意义。目前,蛋白质结构预测主要依赖于计算方法和实验手
5、段,其中计算预测技术日益成为研究热点。基于模板的建模方法是最早且最常用的蛋白质结构预测技术之-O这种方法通过比对目标序列与已知结构的蛋白质序列,找到相似的模板,然后基于模板的结构信息来预测目标蛋白质的结构。常见的基于模板的建模软件有MODELLER、SWISSMODEL等。同源建模是基于序列比对和结构比对的技术,它利用与目标蛋白质序列相似的已知结构蛋白质作为模板,来预测目标蛋白质的结构。同源建模的成功与否很大程度上取决于序列相似性和模板选择的准确性。从头预测方法不依赖于已知结构的模板,而是根据蛋白质序列的物理化学性质和统计规律,通过计算机算法来预测其结构。这类方法通常涉及复杂的能量优化和搜索算
6、法,如蒙特卡洛模拟、分子动力学模拟等。近年来,随着深度学习和人工智能技术的兴起,基于深度学习的蛋白质结构预测方法也取得了显著进展,如AlphaFold等。除了计算预测外,实验方法也是蛋白质结构研究的重要手段。如射线晶体学、核磁共振(NMR)等技术可以直接测定蛋白质的三维结构。这些方法虽然精度高,但成本较高且操作复杂,通常用于验证计算预测结果或研究特定问题。为了整合各种预测方法和技术,提高预测准确性,近年来出现了多个综合预测平台和数据库,如CAME0、CriticalAssessmentofTechniquesforProteinStructurePrediction(CASP)等。这些平台和数
7、据库不仅提供了多种预测工具和方法,还定期举办评估活动,以推动蛋白质结构预测技术的发展。蛋白质结构预测是一个综合性的研究领域,涉及多种技术和工具。随着计算生物学和人工智能技术的不断发展,我们有理由相信,未来蛋白质结构预测的准确性和效率将得到进一步提升。四、蛋白质结构预测的应用领域和前景蛋白质结构预测在多个领域具有广泛的应用,并持续展现其巨大的潜力和前景。在医学领域,蛋白质结构预测对药物设计和开发起到了关键的作用。通过理解蛋白质的三维结构,科研人员可以更加准确地识别出药物与蛋白质之间的相互作用点,从而设计出更有效的药物。蛋白质结构预测也在疾病诊断和治疗中发挥了重要作用,例如通过预测病原体蛋白质的结
8、构,可以帮助我们设计出更有效的疫苗和抗体。在生物工程领域,蛋白质结构预测为蛋白质工程提供了重要的理论基础。通过预测和修改蛋白质的结构,科研人员可以优化蛋白质的功能,从而开发出更高效的酶、催化剂等生物工具。蛋白质结构预测还在生物传感器、生物能源等领域中发挥着重要作用。随着计算机科学和人工智能技术的不断发展,蛋白质结构预测的前景更加广阔。一方面,随着算法的不断优化和计算能力的提升,我们可以预测更大、更复杂的蛋白质结构。另一方面,人工智能技术的引入也为蛋白质结构预测带来了新的机遇。例如,深度学习等人工智能技术可以自动学习和优化预测模型,从而提高预测的准确性和效率。蛋白质结构预测在多个领域都具有广泛的
9、应用,并持续展现出巨大的潜力和前景。随着科学技术的不断进步,我们有理由相信,蛋白质结构预测将在未来的科学研究和应用中发挥更加重要的作用。五、蛋白质结构预测的未来发展方向算法和模型的持续优化:当前,深度学习和神经网络在蛋白质结构预测中已经取得了显著的成功。随着数据量的增加和计算能力的提升,我们有理由期待更精确、更高效的算法和模型的出现。这些新的算法和模型可能包括更复杂的网络结构、更精细的特征表示以及更先进的优化技术。多尺度模拟和整合:蛋白质的结构和功能通常受到多个尺度(如原子、残基、域和整体)的影响。将多个尺度的信息有效地整合到预测模型中,以提高预测的准确性,将是未来的一个重要方向。通过多尺度模
10、拟,我们还可以更好地理解蛋白质在各种生理和病理条件下的行为。跨学科合作:蛋白质结构预测是一个跨学科的领域,涉及到生物学、物理学、化学、计算机科学等多个学科。未来,随着这个领域的进一步发展,我们期待看到更多的跨学科合作,尤其是在数据科学、人工智能和生物信息学等领域。实际应用的推广:目前,蛋白质结构预测已经在药物设计、疾病诊断和治疗等方面展现出了一定的应用潜力。这些应用仍然处于初级阶段。未来,随着预测精度的提高和计算成本的降低,我们有理由相信,蛋白质结构预测将在更多领域得到实际应用,为人类的健康和福祉做出更大的贡献。数据共享和标准化:随着蛋白质结构预测领域的发展,数据共享和标准化将成为越来越重要的
11、问题。通过共享数据,我们可以提高预测模型的泛化能力,避免重复劳动,加速科学进步。而标准化则有助于确保不同研究团队之间的可比性,推动领域内的合作和交流。蛋白质结构预测的未来充满了无限的可能性和挑战。我们期待在这个领域中看到更多的创新和突破,为人类对生命科学的理解提供新的视角和工具。六、结论随着生物信息学和计算生物学的快速发展,蛋白质结构预测已成为当前生物学和医学领域的重要研究方向。通过对蛋白质序列的深入分析,结合多种预测方法和算法,我们能够初步理解蛋白质的结构和功能,从而进一步揭示生命的奥秘。本文综述了当前蛋白质结构预测的主要方法和技术,包括基于模板的方法、从头预测方法、混合方法等,并对这些方法
12、进行了详细的分析和评价。虽然这些方法在预测精度和效率上取得了一定的进展,但仍存在许多挑战和问题需要解决。在未来,随着大数据和人工智能技术的不断发展,蛋白质结构预测将迎来更多的机遇和挑战。一方面,更多的数据资源和计算资源将为我们提供更准确、更全面的预测结果另一方面,新的算法和模型也将为我们提供更高效、更精确的预测方法。蛋白质结构预测是一项充满挑战和机遇的研究领域。我们需要不断地探索和创新,提高预测精度和效率,为生物医学研究和药物开发提供更多的有力支持。同时,我们也需要更加关注数据质量和算法的可解释性,以确保预测结果的准确性和可靠性。相信在不久的将来,我们一定能够实现对蛋白质结构更深入的理解和应用
13、。参考资料:随着互联网的快速发展,人们对于信息的个性化需求越来越高。个性化算法作为一种能够根据用户特征和行为习惯,提供定制化服务的技术,已经在推荐系统、广告系统、搜索引擎等领域得到了广泛应用。本文将探究基于统计学的个性化算法,包括其基本概念、应用场景、优缺点以及未来发展趋势等方面。个性化算法通过对用户数据的分析,挖掘用户的兴趣爱好、行为习惯等信息,从而为用户提供更加精准、个性化的服务。这种技术在电商、音乐、视频、新闻等行业都有广泛的应用,已经成为提高用户体验和提升平台收益的重要手段。统计学习理论是机器学习的基础,它包括监督学习、无监督学习和半监督学习等多种方法。监督学习是指根据已知输入和输出数
14、据进行训练,从而对未知数据进行预测;无监督学习是指在没有已知输出数据的情况下,通过分析输入数据之间的相似性来挖掘潜在的数据结构;半监督学习则结合了监督学习和无监督学习的特点,利用部分有标签数据和大量无标签数据进行训练,以提高预测精度。个性化算法可以应用于各种场景,如推荐系统、广告投放、搜索引擎等。推荐系统是最为常见的一种应用场景。以下是一个基于统计学习的个性化推荐算法案例:通过对用户历史行为数据的分析,挖掘用户的兴趣爱好和行为习惯,并利用监督学习算法训练模型。在推荐过程中,模型可以根据用户当前的行为数据,预测其可能感兴趣的内容,并实时更新推荐列表。个性化算法也存在一些问题和挑战。例如,数据稀疏
15、性、用户兴趣的动态变化、冷启动问题等。为了解决这些问题,研究者们不断探索新的技术和方法。例如,利用矩阵分解等技术来处理数据稀疏性问题;利用深度学习等方法来捕捉用户兴趣的动态变化等。对抗生成网络(GAN)是一种深度学习模型,由生成器和判别器两个神经网络组成,通过相互对抗训练来提高生成数据的真实性和判别器的判断能力。GAN在个性化算法中有着广泛的应用,可以用于生成高质量的图像、音频等数据,从而为推荐系统、广告系统等提供更加真实、丰富的素材。GAN也存在一些问题,如训练不稳定、难以收敛等。GAN对于数据量的需求也比较大,对于一些数据稀疏的场景可能不太适用。迁移学习是一种将已经在一个领域或任务上训练好
16、的模型应用于另一个领域或任务上的方法。通过迁移学习,我们可以利用已经训练好的模型来对新的数据进行预测和分析,从而提高模型的效率和准确性。在个性化算法中,迁移学习可以用于处理用户兴趣的动态变化等问题。例如,我们可以利用已经训练好的模型来对用户的行为数据进行预测和分析,从而实时更新用户的兴趣列表。迁移学习也存在一些问题。例如,不同领域或任务之间的差异可能会导致模型的准确性和效率下降。如何选择合适的迁移学习算法也是一项重要的挑战。个性化算法是机器学习的一个重要应用领域,已经在推荐系统、广告系统、搜索引擎等领域得到了广泛应用。本文介绍了基于统计学的个性化算法探究,包括统计学习理论、个性化算法的应用场景
17、和优缺点、对抗生成网络和迁移学习等方法和概念。个性化算法仍然存在一些问题和挑战,例如数据稀疏性、用户兴趣的动态变化、冷启动问题等。未来,我们需要进一步探索新的技术和方法来解决这些问题,提高个性化算法的准确性和效率。蛋白质二级结构是指蛋白质中局部主链的构象,不涉及蛋白质链的局部空间构象。预测蛋白质二级结构的方法大致可以分为两类:一类是基于序列的方法,另一类是基于结构的方法。基于序列的方法主要是利用已知的蛋白质序列信息,通过统计模型或者机器学习方法预测蛋白质的二级结构。这类方法通常依赖于大量的已知蛋白质序列数据,从中提取出序列特征,然后利用这些特征进行二级结构的预测。例如,使用隐马尔科夫模型(HM
18、M)和神经网络方法等。基于序列的方法虽然精度相对较低,但由于其简单易行、计算效率高,因此在实践中得到了广泛应用。基于结构的方法则是通过已知的蛋白质三维结构信息,预测蛋白质的二级结构。这类方法通常依赖于大量的已知蛋白质三维结构数据,通过统计分析或者模拟计算等方法,预测蛋白质的二级结构。基于结构的方法精度较高,但由于其计算复杂度高、需要大量的已知结构数据,因此在实践中应用较少。近年来,随着深度学习技术的发展,越来越多的研究者尝试将深度学习技术应用于蛋白质二级结构预测。深度学习方法能够自动提取特征,并且能够处理大规模的数据,因此在预测精度和泛化能力上具有优势。例如,卷积神经网络(CNN)和循环神经网
19、络(RNN)等方法已经被广泛应用于蛋白质二级结构预测。蛋白质二级结构预测是一个具有挑战性的问题,需要不断探索新的方法和技术。随着数据和计算资源的不断增加,相信未来会有更多的研究者投入到这一领域中,推动蛋白质二级结构预测技术的发展。本文旨在探讨基于蛋白质聚类的同源建模结构预测方法。通过采用高效的聚类算法对蛋白质进行分组,并利用同源建模技术预测未知结构。实验结果表明,该方法能够有效地提高结构预测的准确性。本文为蛋白质结构预测研究提供新的思路和方向。蛋白质结构预测是生物信息学研究的重要领域之一。同源建模是一种常用的结构预测方法,通过找到具有相似功能的已知蛋白质结构,推断未知蛋白质的结构。同源建模的准
20、确性受到数据噪声和模型局限性的限制。为了提高预测准确性,研究者们尝试将聚类算法应用于同源建模。本文旨在探讨基于蛋白质聚类的同源建模结构预测方法,并对其准确性和优越性进行评估。同源建模是一种常用的蛋白质结构预测方法。该方法通过找到具有相似功能的已知蛋白质结构,利用这些已知结构的信息推断未知蛋白质的结构。同源建模主要分为两个步骤:序列比对和结构建模。在序列比对阶段,算法寻找已知蛋白质序列与未知蛋白质序列的相似性;在结构建模阶段,利用已知蛋白质结构的信息构建未知蛋白质的结构模型。聚类算法在同源建模中的应用已经得到广泛研究。这些方法主要分为两类:基于距离的方法和基于密度的方法。基于距离的方法通过计算蛋
21、白质之间的相似性矩阵,将相似的蛋白质聚集在一起;基于密度的方法则通过计算每个蛋白质周围的邻居密度来进行聚类。聚类算法的应用能够有效地过滤噪声,提高同源建模的准确性。本文采用基于密度的聚类算法DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)对蛋白质进行分组。利用BLAST算法进行序列比对,寻找已知蛋白质序列与未知蛋白质序列的相似性;利用同源建模技术预测未知蛋白质的结构。同时,本文采用ROSAC(RobustScalableAlgorithmsforCo-clustering)算法对蛋白质进行层次聚类,并利用MODASS(M
22、odel-basedAnalysisofProteomicsData)算法对聚类结果进行评估。实验结果表明,基于蛋白质聚类的同源建模结构预测方法能够有效地提高预测准确性。通过将聚类算法应用于同源建模,本文方法在已知蛋白质序列与未知蛋白质序列的比对阶段更加准确;同时,利用ROSAC算法进行层次聚类,实现了对蛋白质的合理分组;利用MoDASS算法对聚类结果进行评估,验证了聚类效果的可靠性。与传统的同源建模方法相比,本文方法具有更高的预测准确性和更好的稳健性。本文研究了基于蛋白质聚类的同源建模结构预测方法,并对其准确性和优越性进行了评估。实验结果表明,该方法能够有效地提高结构预测的准确性。该方法仍存
23、在一定的局限性,例如在聚类过程中可能存在主观因素和噪声的影响。未来的研究方向可以包括改进聚类算法、优化已知蛋白质序列与未知蛋白质序列的比对方法,以及开发更为精确的结构建模算法。蛋白质结构是指蛋白质分子的空间结构。蛋白质主要由碳、氢、氧、氮等化学元素组成,是一类重要的生物大分子,所有蛋白质都是由20种不同氨基酸连接形成的多聚体,在形成蛋白质后,这些氨基酸又被称为残基。蛋白质和多肽之间的界限并不是很清晰,有人基于发挥功能性作用的结构域所需的残基数认为,若残基数少于40,就称之为多肽或肽。要发挥生物学功能,蛋白质需要正确折叠为一个特定构型,主要是通过大量的非共价相互作用(如氢键,离子键,范德华力和疏
24、水作用)来实现;在一些蛋白质(特别是分泌性蛋白质)折叠中,二硫键也起到关键作用。为了从分子水平上了解蛋白质的作用机制,常常需要测定蛋白质的三维结构。由研究蛋白质结构而发展起来了结构生物学,采用了包括射线晶体学、核磁共振等技术来解析蛋白质结构。一定数量的残基对于发挥某一生物化学功能是必要的;40-50个残基通常是一个功能性结构域大小的下限。蛋白质大小的范围可以从这样一个下限一直到数千个残基。估计的蛋白质的平均长度在不同的物种中有所区别,一般约为200-380个残基,而真核生物的蛋白质平均长度比原核生物长约55%o更大的蛋白质聚合体可以通过许多蛋白质亚基形成;如由数千个肌动蛋白分子聚合形成蛋白纤维
25、。1959年佩鲁茨和肯德鲁对血红蛋白和肌血蛋白进行结构分析,解决了三维空间结构,获1962年诺贝尔化学奖。鲍林发现了蛋白质的基本结构。克里克、沃森在射线衍射资料的基础上,提出了DNA三维结构的模型。获1962年诺贝尔生理或医学奖。50年代后豪普特曼和卡尔勒建立了应用射线分析的以直接法测定晶体结构的纯数学理论,在晶体研究中具有划时代的意义,特别在研究大分子生物物质如激素、抗生素、蛋白质及新型药物分子结构方面起了重要作用。他们因此获1985年诺贝尔化学奖。蛋白质分子是由氨基酸首尾相连缩合而成的共价多肽链,但是天然蛋白质分子并不是走向随机的松散多肽链。每一种天然蛋白质都有自己特有的空间结构或称三维结
26、构,这种三维结构通常被称为蛋白质的构象,即蛋白质的结构。除了这些结构层次,蛋白质可以在多个类似结构中转换,以行使其生物学功能。对于功能性的结构变化,这些三级或四级结构通常用化学构象进行描述,而相应的结构转换就被称为构象变化。蛋白质的一级结构(Prinlarystructure)就是蛋白质多肽链中氨基酸残基的排列顺序(sequence),也是蛋白质最基本的结构。它是由基因上遗传密码的排列顺序所决定的。各种氨基酸按遗传密码的顺序,通过肽键连接起来,成为多肽链,故肽键是蛋白质结构中的主键。迄今已有约一千种左右蛋白质的一级结构被研究确定,如胰岛素,胰核糖核酸酶、胰蛋白酶等。蛋白质的一级结构决定了蛋白质
27、的二级、三级等高级结构,成百亿的天然蛋白质各有其特殊的生物学活性,决定每一种蛋白质的生物学活性的结构特点,首先在于其肽链的氨基酸序列,由于组成蛋白质的20种氨基酸各具特殊的侧链,侧链基团的理化性质和空间排布各不相同,当它们按照不同的序列关系组合时,就可形成多种多样的空间结构和不同生物学活性的蛋白质分子。蛋白质分子的多肽链并非呈线形伸展,而是折叠和盘曲构成特有的比较稳定的空间结构。蛋白质的生物学活性和理化性质主要决定于空间结构的完整,因此仅仅测定蛋白质分子的氨基酸组成和它们的排列顺序并不能完全了解蛋白质分子的生物学活性和理化性质。例如球状蛋白质(多见于血浆中的白蛋白、球蛋白、血红蛋白和酶等)和纤
28、维状蛋白质(角蛋白、胶原蛋白、肌凝蛋白、纤维蛋白等),前者溶于水,后者不溶于水,显而易见,此种性质不能仅用蛋白质的一级结构的氨基酸排列顺序来解释。蛋白质的二级结构(secondarystructure)是指多肽链中主链原子的局部空间排布即构象,不涉及侧链部分的构象。PaUling等人对一些简单的肽及氨基酸的酰胺等进行了线衍射分析,从一个肽键的周围来看,得知:(1)肽键中的C-N键长132nm,比相邻的NY单键(147nm)短,而较一般C=N双键(128nm)长,可见,肽键中-C-N-键的性质介于单、双键之间,具有部分双键的性质,因而不能旋转,这就将固定在一个平面之内。(2)肽键的C及N周围三个
29、键角之和均为360。,说明都处于一个平面上,也就是说六个原子基本上同处于一个平面,这就是肽键平面。肽链中能够旋转的只有。碳原子所形成的单键,此单键的旋转决定两个肽键平面的位置关系,于是肽键平面成为肽链盘曲折叠的基本单位。(3)肽键中的C-N既具有双键性质,就会有顺反不同的立体异构,已证实处于反位。1 )一螺旋Pauling等人对Q一角蛋白(Q-keratin)进行了线衍射分析,从衍射图中看到有555nm的重复单位,故推测蛋白质分子中有重复性结构,并认为这种重复性结构为。一螺旋(Q一helix).多个肽键平面通过一碳原子旋转,相互之间紧密盘曲成稳固的右手螺旋。主链呈螺旋上升,每6个氨基酸残基上升
30、一圈,相当于54nm,这与线衍射图符合。相邻两圈螺旋之间借肽键中C=O和H稀形成许多链内氢健,即每一个氨基酸残基中的NH和前面相隔三个残基的C二O之间形成氢键,这是稳定a一螺旋的主要键。肽链中氨基酸侧链R,分布在螺旋外侧,其形状、大小及电荷影响a一螺旋的形成。酸性或碱性氨基酸集中的区域,由于同电荷相斥,不利于a一螺旋形成;较大的R(如苯丙氨酸、色氨酸、异亮氨酸)集中的区域,也妨碍a一螺旋形成;脯氨酸因其a一碳原子位于五元环上,不易扭转,加之它是亚氨基酸,不易形成氢键,故不易形成上述a螺旋;甘氨酸的R基为H,空间占位很小,也会影响该处螺旋的稳定。2 )一片层结构AStbUry等人曾对B一角蛋白进
31、行线衍射分析,发现具有7nm的重复单位。如将毛发Q一角蛋白在湿热条件下拉伸,可拉长到原长二倍,这种a螺旋的线衍射图可改变为与一角蛋白类似的衍射图。说明一角蛋白中的结构和Q螺旋拉长伸展后结构相同。两段以上的这种折叠成锯齿状的肽链,通过氢键相连而平行成片层状的结构称为B一片层(Bpleatedsheet)结构或称B一折迭。是肽链相当伸展的结构,肽链平面之间折叠成锯齿状,相邻肽键平面间呈Iio0角。氨基酸残基的R侧链伸出在锯齿的上方或下方。依靠两条肽链或一条肽链内的两段肽链间的C=O与N-H形成氢键,使构象稳定。两段肽链可以是平行的,也可以是反平行的。即前者两条链从“N端”到“C端”是同方向的,后者
32、是反方向的。B一片层结构的形式十分多样,正、反平行能相互交替。平行的B一片层结构中,两个残基的间距为65nm;反平行的B一片层结构,则间距为7nm.蛋白质分子中,肽链经常会出现180。的回折,在这种回折角处的构象就是B转角(Bturn或Bbend)。B一转角中,第一个氨基酸残基的C=O与第四个残基的N-H之间形成氢键,从而使结构稳定。没有确定规律性的部分肽链构象,肽链中肽键平面不规则排列,属于松散的无规卷曲(randomcoil)o超二级结构(SUPerSeCondaryStrUCtUre)是指在多肽链内顺序上相互邻近的二级结构常常在空间折叠中靠近,彼此相互作用,形成规则的二级结构聚集体。发现
33、的超二级结构有三种基本形式:Q螺旋组合();折叠组合(BBB)和螺旋B折叠组合(BaB),其中以BB组合最为常见。它们可直接作为三级结构的“建筑块”或结构域的组成单位,是蛋白质构象中二级结构与三级结构之间的一个层次,故称超二级结构。结构域(domain)也是蛋白质构象中二级结构与三级结构之间的一个层次。在较大的蛋白质分子中,由于多肽链上相邻的超二级结构紧密联系,形成二个或多个在空间上可以明显区别它与蛋白质亚基结构的区别。一般每个结构域约由100-200个氨基酸残基组成,各有独特的空间构象,并承担不同的生物学功能。如免疫球蛋白(IgG)由12个结构域组成,其中两个轻链上各有2个,两个重链上各有4
34、个;补体结合部位与抗原结合部位处于不同的结构域。一个蛋白质分子中的几个结构域有的相同,有的不同;而不同蛋白质分子之间肽链中的各结构域也可以相同。如乳酸脱氢酶、3磷酸甘油醛脱氢酶、苹果酸脱氢酶等均属以NAD+为辅酶的脱氢酶类,它们各自由2个不同的结构域组成,但它们与NAD+结合的结构域构象则基本相同。蛋白质的多肽链在各种二级结构的基础上再进一步盘曲或折迭形成具有一定规律的三维空间结构,称为蛋白质的三级结构(tertiarystructure)o蛋白质三级结构的稳定主要靠次级键,包括氢键、疏水键、盐键以及范德华力(VanderWaalsforce)等。这些次级键可存在于一级结构序号相隔很远的氨基酸
35、残基的R基团之间,因此蛋白质的三级结构主要指氨基酸残基的侧链间的结合。次级键都是非共价键,易受环境中pH、温度、离子强度等的影响,有变动的可能性。二硫键不属于次级键,但在某些肽链中能使远隔的二个肽段联系在一起,这对于蛋白质三级结构的稳定上起着重要作用。现也有认为蛋白质的三级结构是指蛋白质分子主链折叠盘曲形成构象的基础上,分子中的各个侧链所形成一定的构象。侧链构象主要是形成微区(或称结构域domain)。对球状蛋白质来说,形成疏水区和亲水区。亲水区多在蛋白质分子表面,由很多亲水侧链组成。疏水区多在分子内部,由疏水侧链集中构成,疏水区常形成一些“洞穴”或“口袋”,某些辅基就镶嵌成为活性部位。具备三
36、级结构的蛋白质从其外形上看,有的细长(长轴比短轴大10倍以上),属于纤维状蛋白质(fibrousprotein),如丝心蛋白;有的长短轴相差不多基本上呈球形,属于球状蛋白质(globularprotein),如血浆清蛋白、球蛋白、肌红蛋白,球状蛋白的疏水基多聚集在分子的内部,而亲水基则多分布在分子表面,因而球状蛋白质是亲水的,更重要的是,多肽链经过如此盘曲后,可形成某些发挥生物学功能的特定区域,例如酶的活性中心等。具有二条或二条以上独立三级结构的多肽链组成的蛋白质,其多肽链间通过次级键相互组合而形成的空间结构称为蛋白质的四级结构(quarternarystructure)o每个具有独立三级结构
37、的多肽链单位称为亚基(SUbUnit)。四级结构实际上是指亚基的立体排布、相互作用及接触部位的布局。亚基之间不含共价键,亚基间次级键的结合比三级结构疏松,因此在一定的条件下,四级结构的蛋白质可分离为其组成的亚基,而亚基本身构象仍可不变。一种蛋白质中,亚基结构可以相同,也可不同。如烟草斑纹病毒的外壳蛋白是由2200个相同的亚基形成的多聚体;正常人血红蛋白A是两个Q亚基与两个B亚基形成的四聚体;天冬氨酸氨甲酰基转移酶由六个调节亚基与六个催化亚基组成。有人将具有全套不同亚基的最小单位称为原聚体(protomer),如一个催化亚基与一个调节亚基结合成天冬氨酸氨甲酰基转移酶的原聚体。某些蛋白质分子可进一
38、步聚合成聚合体(Polymer)。聚合体中的重复单位称为单体(monomer),聚合体可按其中所含单体的数量不同而分为二聚体、三聚体寡聚体(OIigC)Iner)和多聚体(POiynler)而存在,如胰岛素(insulin)在体内可形成二聚体及六聚体。已经测定了酿酒酵母(SaccharomycesCereuisiae)线虫(Caenorhabditiselegans)、果蝇(Drosophilamelanogaster)、拟南芥(Arabidopsisthaliana)等模式生物的基因组序列.。特别值得一提的是,随着人类基因310福建农林大学学报(自然科学版)第35卷组计划(HumanGeno
39、meProgram)的完成,接下来的重点就转移到研究这些基因组里的所有基因的结构和功能。结构基因组学受到了世界各国的高度重视,美国、日本、欧洲纷纷建立了结构基因组学的研究机构。结构基因组学就是以大规模、高通量测定这些基因的表达产物蛋白质分子的结构为研究目标,以高通量基因克隆技术、蛋白质表达及其纯化、蛋白质结晶、蛋白质结构测定为主要研究内容的基因组学分支。蛋白质结构测定比基因组测定难度大得多,按照常规的实验步骤,从基因序列到相应的蛋白质结构测定之间还要经过基因表达、蛋白质的提取和纯化、结晶、射线衍射分析等步骤。由于蛋白质结构和性质的多样性,这些步骤大多没有固定的规律可循,因而,这种作坊式的需要高
40、超技巧和丰富经验的研究方法难以适应测定生物蛋白质组中所有蛋白质的要求,需要建立理论分析方法来解决这些问题。以预测技术水平,预测结果的精确度不如射线衍射分析和NMR等实验手段,但蛋白质结构预测是大规模、低成本和快速获得三维结构的有效途径,例如当目标蛋白质和模板蛋白质的序列相似性超过30%时,以结构预测方法建立的蛋白质三维结构模型就可以用于一般性的功能分析。因而,蛋白质预测技术在结构基因组学中得到了广泛的应用。从基因组数据到新药物的过程分为2个部分:一是选择目标蛋白,二是选择合适的药物,药物分子必需与目标蛋白质分子紧密结合、容易合成且没有毒副作用。传统的药物设计通过筛选大量的天然化合物、已知的底物
41、或配基的类似物(analogs)以及生物化学研究来确定前导物(IeadConIPoUnds),较少依赖目标蛋白质的三维结构,因而研发周期长、费用巨大,并且带有或多或少的盲目性。随着蛋白质结构数据的增长和结构预测技术的发展,目标蛋白质分子三维结构的信息对于上述2个过程发挥着越来越大的作用,计算机辅助的药物设计(computer-aideddrugdesign)可以缩短研发周期和降低成本。蛋白质设计的目标是通过计算机辅助的算法以生成符合目标蛋白质三维结构的氨基酸序列,经过漫长的进化,自然界已经筛选出了数量众多的蛋白质,但天然蛋白质只有在自然条件下才发挥最佳功能,这使得人们利用这些蛋白质受到了限制,
42、因此需要对蛋白质进行改造使其能适应特定条件发挥特定的功能。蛋白质分子的设计分为3类:小改、中改和大改。(3)食品蛋白质:凡可供食用,易消化,无毒和可供人类利用的蛋白质两个氨基酸可以通过缩合反应结合在一起,并在两个氨基酸之间形成肽键。而不断地重复这一反应就可以形成一条很长的残基链(即多肽链)。这一反应是由核糖体在翻译进程中所催化的。肽键虽然是单键,但具有部分的双键性质(由C=O双键中的电子云与N原子上的未共用电子对发生共振导致),因此C-N键(即肽键)不能旋转,从而连接在肽键两端的基团处于一个平面上,这一平面就被称为肽平面。而对应的肽二面角(肽平面绕NYa键的旋转角)和力(肽平面绕Ca-Cl键的
43、旋转角)有一定的取值范围;一旦所有残基的二面角确定下来,蛋白质的主链构象也就随之确定。根据每个残基的小和中来做图,就可以得到拉氏图,由于形成同一类二级结构的残基的二面角的值都限定在一定范围内,因此在拉氏图上就可以大致分辨残基参与形成哪一类二级结构。下表列出了肽键与对应类型单键以及氢键键长的比较。残基侧链上的原子根据希腊字母表的顺序(a、B、Y、3、等)来命名,如Ca指的是对应残基上最接近埃基的碳原子,而CB则是次接近的。Ca通常被认为是主链骨架的组成原子。这些原子之间的键对应的二面角则相应以XXX3等来命名,如赖氨酸侧链上第二个碳原子(即Ca和CB)之间共价键的二面角为XI。侧链可以有多种不同
44、的构象,每一种类型的残基都有几种比较稳定的侧链构象。许多蛋白质都可以被分为多个结构组成单元,结构域就是这样一个组成单元。结构域一般可以自稳定,且常常独立进行折叠,而不需要蛋白质其他部分的参与;很多结构域都有自己独特的生物学功能。很多结构域并不是一个基因或基因家族对应蛋白质的独特结构单元,而往往是许多类蛋白质的共同结构单元。结构域常常是以其生物学功能来命名,如“钙离子结合结构域”;或以几类最初发现此结构域的蛋白名称衍生而来,如PDZ结构域(最初发现于PSDDlgA和ZOT这三个蛋白质)。由于结构域自身可以稳定存在,因此可以将不同来源的结构域通过遗传工程人为地结合在一起,形成杂合蛋白质。结构花样(
45、StrUCtUralmotif)同样是一种结构组成单元,它是由几个二级结构的特定组合(如螺旋-转角-螺旋)所组成;这些组合又被称为超二级结构。结构花样往往还包含有长度不同的loop区。尽管真核生物体可以表达数万种不同的蛋白质,但对应的结构域、结构花样与折叠类型的数量却少得多。一种合理的解释是,这是进化的结果;因为基因或基因的一部分可以在基因组内被加倍或移动。也就是说,通过基因重组,一个结构域可以从相应蛋白质A移动到本不具有此结构域的蛋白质B上,而其发生的进化驱动力可能是由于该结构域对应的生物学功能趋向于被蛋白质B所利用。从一级结构到更高级结构的过程就被称为蛋白质折叠。一个序列特定的多肽链(折叠
46、之前的蛋白质一般都被称为多肽链)一般折叠为一种特定构象(又称为天然构象);但有时可以折叠为一种以上的构象,且这些不同构象具有不同的生物学活性。在真核细胞内,许多蛋白质的正确折叠需要分子伴侣的帮助。对蛋白质结构进行分类的方法有多种,有多个结构数据库(包括SCOP、CATH和FSSP)分别采用不同的方法进行结构分类。存放蛋白质结构的PDB数据库中就引用了SCOP的分类。对于大多数已分类的蛋白质结构来说,SCOP、CATH和FSSP的分类是相同的,但在一些结构中还有所区别。专门存储蛋白质和核酸分子结构的蛋白质数据库中,接近90%的蛋白质结构是用射线晶体学的方法测定的。射线晶体学可以通过测定蛋白质分子
47、在晶体中电子密度的空间分布,在一定分辨率下解析蛋白质中所有原子的三维坐标。大约9%的已知蛋白结构是通过核磁共振技术来测定的。该技术还可用于测定蛋白质的二级结构。除了核磁共振以外,还有一些生物化学技术被用于测定二级结构,包括圆二色谱。冷冻电子显微技术是近年来兴起的一种获得低分辨率(低于5埃)蛋白质结构的方法,该方法最大的优点是适用于大型蛋白质复合物(如病毒外壳、核糖体和类淀粉蛋白纤维)的结构测定;并且在一些情况下也可获得较高分辨率的结构,如具有高对称性的病毒外壳和膜蛋白二维晶体。近年来,随着结构基因组学的兴起,大量的蛋白质结构获得了测定,为研究蛋白质的作用机理提供了重要的结构信息。测定蛋白质序列比测定蛋白质结构容易得多,而蛋白质结构可以给出比序列多得多的关于其功能机制的信息。许多方法被用于从序列预测结构。2022年7月28日,据卫报报道,谷歌旗下人工智能公司DeePMind进一步破解了几乎所有已知的蛋白质结构,其AlPhaFOld算法构建的数据库中如今包含了超过2亿种已知蛋白质结构,为开发新药物或新技术来应对饥荒或污染等全球性挑战铺平了道路。