《AI+蛋白质行业研究报告 2024.docx》由会员分享,可在线阅读,更多相关《AI+蛋白质行业研究报告 2024.docx(47页珍藏版)》请在三一办公上搜索。
1、1 Al+蛋白质行业概述Ol2 Al+蛋白质技术分析083 Al+蛋白质应用场景224 Al+蛋白质投融资及发展预测351.1 发展阶段2旭纪60年代,科的i在要依赖X线NMR等常规手E拜撕蛋白质的结构;2012年以来,以ReSNet、TranSfOrmer为代表的深度学习算法被提出,为蛋白质研究带来革命性方法;202阵以来Al与蛋白质研究幽合的产业应用实现了突破性增长;2021年以来APhaFold2、RoSeTTAFOld等前沿算法的开源,加速了产业应用落地;2022年以来,随着PraeinMPNN等工具的出现,标志着蛋白质设计进入新的发展阶段人工智能技术的不断进步,其在解析蛋白质三维结构
2、的能力上已获得全球科学界的高度认可。特别是自2020年以来Al与蛋白质研究相结合的产业应用实现了突破性增长,这一趋势不仅揭示了人工智能在生物医药领域的巨大应用潜力,也预示着其在未来可能为疾病治疗、药物设计等关键领域带来革命性的变革人类对蛋白质的研究可追溯至20世纪60年代,当时科学家们主要依赖X射线、NMR(核磁共振)等常规手段来解析蛋白质的结构。随着对蛋白质生物化学机制的深入理解和计算技术的不断突破,科学家们开始尝试利用计算方法进行蛋白质结构的预测。2021年7月DeepMind开源了AphaFoId2.0,并推出了T含350,000种三维蛋白质结构的数据库。几个月后又公布了另一个包含2亿种
3、蛋白质结构的数据库,几乎覆盖了所有科学上已知的蛋白质。这一进展几乎颠覆了传统蛋白质研究的方式,将解析一个蛋白质结构的时间缩短了十万倍。蛋白质的研究不应仅限于对其结构的解析,而应更深入地探索其生物学功能及其与其他分子的相互作用。自AIphaFoId取得突破后,机器学习和深度学习等人工智能技术被广泛应用于蛋白质功能注释、蛋白质-蛋白质相互作用以及蛋白质-小分子对接等方面,同时质谱和单细胞测序技术的进步,使得获取数据的成本不断降氐。技术的迭代和成本的下降,像两台发动机加速下一代蛋白质组学的到来。JtNMur*M*tcdtraA巾看20X9XVBCrom,了d11办中金发WDAWtfIBWWfielf
4、lB个白力ElGoOa殳元aTf4farfUMB三VCiAIpIwFoId-Utaat*网我*震早闻,白0WM,可电Ratta.电9事彳&今标违安JS小台rt丹任自工第,塞AbCtUrB%*台化与制除智“四传惬充优DavWlMkvBAXHlAiMA&话6,出W的Aar*.公M4DMiddSBIKXPvoKinMPNN*目前,基于Al的蛋白质结构、功能等的预测、蛋白质设计以及蛋白质组学研究已经广泛应用于新药研发、合成生物、疾病诊断等多个跨学科领域,这些应用不仅加速了新药从理论到临床的转化过程,还促进了对复杂生物系统的深入理解,为应对全球性的健康科戡和环境问题提供了创新的解决策略,图I-IAI+蛋
5、白质行业的发展大事件0172dl队震,RMhmorW式Btttav2XDQ来源:智药局自2012年以来,深度学习取得了突破性进展,在蛋白质研究领域中展现出了显著的效果。尤以AlPhaFold2.0的出现为分水岭,开启了蛋白质结构预测的新纪元,在行业发展过程中,技术创新始终是第一推动力,从CNN到TranSfOrmer,从基于结构到基于序列,Al的变革不断带来新的可能性和变革性机会。1.2 产业链分析上游-算力、算法和数据构建产业基石,生命科学技术和设备的迭代是关键变量;中游-以AIPhaFOld为首的蛋白质结构预测、以DavidBaker为代表的蛋白质设计以及人工智能与蛋白质组学相结合;下游分
6、为药物研发和生物制造两大领域。人工智能技术与生物技术的融合,包括对大规模蛋白质数据库的深度挖掘以及相关算法模型的层出不穷,已经使得研究人员能够更加精确地预测、优化和设计具有特定功能的蛋白质。这种技术的进步为疾病治疗、生物催化和材料科学等领域带来了新的研究工具和方法。例如DaVidBake嗷授和他的团队利用这些先进技术,成功设计了一系列具有新颖结构和功能的蛋白质,这类工作不仅推动了基础科学的发展,也为实际应用开辟了新的可能性,如开发新型疫苗、生物催化剂和治疗性蛋白质。这些成果展示了人工智能在推动生物科学前沿研究方面的巨大潜力。目前,人工智能在蛋白质产业链中的应用已经取得了显著的成果和进展。它不仅
7、推动了生物医药领域的发展,还影响了化工、食品、能源等非医药领域,为产业链上下游企业带来了商机和挑战。图1-2AN蛋白质行业产业链上海AI硬件nvoAAMD11ARMdPacxki中遨下游来源:智药局平台软件算法幅架实猿设备GmgkIAxure*r)FlamaD3ACO,Quantefixpwmo*.H.1-三,ThtrmoSckxMOwdMMZmeci工业、能源、农业、食品等检测机构、科研院所AbtciJuveh4CRIFO1.Srnmyw.URfCuntonMMAmOmra:110BiMCOeENNVvevoCBUCmiTWag!gXW,CIMHMSANOFlJmodern。常修Isamyr
8、isAAKArkeon.*cA7oMRZZymefgenAfledaIQCllEAOKODiAKVAlWH鱼.,1.2.1链上游产业链上游包括支撑人工智能运行的算力、算法和数据,生物实验的硬件设备,以及基因编辑技术。其中,英伟达、AMD等产业龙头为Al提供了坚实的算力基础;谷歌云、亚马逊云和阿里云等成熟云服务供应商则为Al应用提供了稳定、高效的软件支持。在蛋白质相关的人工智能算法领域,国内大部分公司在AI研发方面i三采用开源的算法底层框架,如TensorFlow、PYTOrCh等。常用的包含蛋白质信息的数据库,妆口,蛋白质结构信息PDB数据库、蛋白质序列和注释信息UniPrOt数据库、蛋白质功
9、能信息GeneOntology辘库、蛋白质-蛋白质相互作用信息STRING数据库等,为产业链的深入研究和发展提供了丰富的数据资源。其次,生物制造所需的原材料、设施和先进技术也是上游环节的重要组成部分,例如,质谱仪、蛋白质试剂、冷冻电镜、基因编辑技术等都是这一环节的关键要素。目前,全原质谱仪市场主要被赛默飞、安捷伦、WATERS,岛津等国际行业巨头垄断;国内以谱育科技、禾信仪器为代表的企业,在产品性能上已经达到国际水平。试剂供应商包括赛默飞、CST等,为产业开展蛋白质组学活动提供基础试剂。冷冻电镜主要有三大供应商:赛默飞、日本电子和日立,是实验获得蛋白质结构的有力工具。基因播技术的发展经历了从Z
10、FNS到TA1.ENS,再JCRISPRcas9的j熊过J呈,2012年发明第三代基因编辑技术,不仅实现了对人类细胞的基因编辑,与前两代相比,基因编辑成本下降超过90%,靶向精度逐渐达到临床要求。在Al蛋白质产业链中,上游环节承担着关键的角色,构成了整个产业链的基石,而随着产业中下游的快速发展,尤其是大模型的兴起,对上游信息产出提出了更高的要求:不仅在数量上呈现出大规模的趋势,更在质量上追求更高的精确度和功能性。这种需求的增长将催动上游产业技术进一步发展。1.2.2产业性中部技术创新是推动蛋白质结构预测领域发展的主旋律,目前,DeepMindxprofluentBioxGenesisThera
11、PeUtiC藩均以蛋白质预则为主要研究方向。国内百图生科、分子之心、华深智药、油科技等公司也在深入探索该领域。蛋白质从头设计作为一种前沿的生物技术,通过计算生物学和人工智能的深度融合,研究人员能够设计出具有特定结构和功能的蛋白质,从而颠覆传统的生物制造模式,为生命科学产业带来根本性的变革。代表企业有Arzeda.GenerateBiomedicines.分子之心、途深智合等。与此同时,蛋白质优化技术则更加注重实际应用场景的需求,这一领域的技术已经逐渐成熟,并开始进入商业化阶段。代表企业有CradIeBi。、Revolkax天鹫科技等。Al蛋白质组学公司利用人工智能技术对蛋白质组进行深入研究,以
12、推动生物标记物发现、药物发现、体外诊断等应用场景的发展。l三卜以。link、somalogic.MatmPoin售为代表囹业,国内目前形成了以西湖欧米、珞米科技等为代表的专注于蛋白质组学研究的企业。在Al蛋白质产业链中,中游环节作为连接上下游的关键纽带,其创新密度之高尤为引人注目,近年来该领域涌现出一批充满活力的初创公司。这类企业通常以差异化的技术和产品为基础,并积极探索商业模式和市场策略的创新,最终加快了生物医药、能源、食品等下游应用领域的发展进程。1.2.3产业族下游人工智能+蛋白质的下游应用主要可以分为药物研发和生物制造两大类,两者都蕴含着巨大的潜力和广泛的应用前景。Al蛋白质预测和蛋白
13、质设计可以大大加速新药研发进程。通过预测蛋白质的结构和功能,研究人员可以更准确地确定药物与蛋白质之间的相互作用,从而设计出更有效的小分子药物和生物药。还可以通过预测蛋白质与特定分子的相互作用来检测疾病标志物,这对在疾病的早期发现、诊断和预后评估方面具有重要价值。在临床中Al蛋白质组学可以对各种临床样本的蛋白质组与蛋白质修饰组分析,揭示某一疾病的生理、病理过程,分析导致某种生理现象或病理状态的机制,对患者进行精准分子分型和合理用药指导。还可以通过寻找异常表达蛋白或异常的蛋白质修饰作为潜在药物靶点,以及进行后续药物开发。Al蛋白质下游中还有一部分企业处于非医药领域,而是集中在食品、生物燃料、化工领
14、域。蛋白质设计中很重要的一部分为酶工程,在食品、轻工业、医药等多个领域得到了重要应用。使用Al进行蛋白质设计或优化,可以获得性能更好的工业酶,2023年,合成生物公司ArZeda成功利用人工智能平台研发出一种酶,能够提高将甜菊提取物转化为高纯度且更昂贵的甜味剂的效率。总体来看AI+蛋白质将给产业链下游带来巨大价值,且呈现两种实现路径:一种是深度赋能生物医药管线研发,通过解决药物研发的重要问题来获取高附加值;另一种则以生物制造为典型,相关公司通过提升蛋白质工程化水平,以场景为出发点,以打造通用平台为最终目标。2023年以来,人工智能在蛋白质领域的研究取得了全方位的发展。AIphaFold嵌入蛋白
15、质开发流程,DaVidBaker团队重构蛋白质设计思路,大模型切入蛋白质组学,传统方法与人工智能结合以提高效率。DeepMind团队田页则模型中占据领先地位2023年,AIphaFoId发布最新版本模SAIPhaFOId-IateS1.将蛋白质预测的准确率提升至T新的高度,AIphaFoId成为蛋白质开发进程中有力的验证!具。而DavidBaker更偏向应用,其团队的研究方向横跨制药、材料、酶催化等多领域,从蛋白质序列出发,重构蛋白质设计和药物开发的底层逻辑。技术进步引发蛋白质组学数据的爆发式增长,让大模型有了用武之地,面对复杂繁多的蛋白质组数据Al蛋白质组学在靶点发现和疾病诊断等方面的应用有
16、巨大的潜力。还有很多公司使用基于物理和机器学习的方法进行蛋白质的预测和设计。图21Al算法发展历程谀计miaansCouct力M2016fKMMUSuBifdWfWXKChrofYafr*Mp0kCquOociAUh4Md-MJtmfPCNDeepOerO33DecpGO-SMpaToMivRomu20MlkH11AFcd2021202220232024来源:智人工智能在蛋白质研究和应用领域正逐渐展现出其强大的潜力。在这一过程中,已有多家创新型企业崭露头角,值得一提的是Generate:Biomedicines的chroma模型成功创造了自然界中前所未有的新型蛋白质,为蛋白质研究带来了突破性的
17、进展。而百图生科的HeIixFoIdSingle模型则能够在不依赖多序列对比的情况下,仅凭初级结构(氨基酸序列)预测原子的三维坐标,从而实现对蛋白质结构的精准预测。2.1 蛋白质结构和功能预测蛋白质的三维结构和功能在其生物学角色中具有决定性作用,深入理解氨基酸序列与蛋白质结构和功能之间的关系,对于帆生物学的理解和医学的应用具有重大意义。2.1.1 人工智能在蛋白质结构预测方面的应用蛋白质功能由结构主导,目前有效的蛋白质结构解析工具包括:X射缘核磁共振和冷冻电镜,但是这类方法往往伴随着高成本和低效率。当面对某个全新的、复杂的蛋白质时,人类可利用的工具是有限的。人工智能打破了这种局面,2016年,
18、许锦波等开创性地将深度残差网络(ReSNet)架构成功地应用到结构预测领域中,显著提升了蛋白质残基接触预测,在这个工作基础上有大量结合共进化和深度学习的算法出现,其中代表性的工作如AIphaFoId(主要引入残基距离预测)和山东大学杨建益与DavidBaker团队开发的trRosetta(主要引入了二面角信息等),均采用了ReSNet。随后,2020年,AlPhaFOld2.0在蛋白质结构预测竞赛CASPl4中惊艳亮相,获得了98.5%的蛋白质预测率AlPhaFold2.0的结构框架更加复杂,核心模块是基于Transformer.这三种方法都是使用多序列对比(MSA)作为模型的输入,这类方法虽
19、然出现得早,但仍是目前主流方法之一。AlPhaFold2.0之后,结构预测主要是基于AIPhaFOld2.0的基础上做的改进。如图2-2所示,AlphaFold2.0模型的架构。图2-2AlPhaFoId2.0模型架构来源:Jumper,J.etal.HighlyaccurateproteinstructurepredictionwithAlphaFold.NatureSGe,583589(2021)2021年,DavidBaker团队在SCienCe上公布了其开源蛋白质预测工具RoseTTAFoId,其使用自然语言处理(N1.P)的方法来直接从MSA中学习共进化信息,这种模型的结构预测精度接
20、近CASP14中AIphaFoId2.0的精度。自此,基于蛋白质序列的预训练模型又称为蛋白质语言模型(P1.M)的方法也被使用在蛋白质结构预测中。2022年底,科技公司Maa首次推出ESM-2和ESMFoId,这是迄今为止发布的规模最大、最复杂的蛋白质语言模型之一。2024年,DaVidBaker团队发布的新结构预测方法RoseTTAFoIdAH-Atom(RFAA),可以生成一个生物单元的所有原子的三维坐标,包括蛋白质、核酸、小分子、金属和化学修饰。近期,结合单序列蛋白质语言模型和结构预测模块的算法,在一些孤儿蛋白或者人工设计蛋白上展示了不错辘构预则性能,如HeIixFofcI-SingIe
21、xOmegaFoId等。这类方法及用同之处是使用了蛋白质语言模型的表征信息替阙卓原始MSA的输入信息,并采用了类似AlPhaFOld2.0的EVofOrme禳块和结构模块,在MSA质量较低的蛋白质上展示了更好的预测性能。图2-3人工智能+蛋白质结构预测算法序号时间校暨团队架构应用的国缺点1201舞AiphaFcXdDeepMmdA:,序内对比信息.Ir法使南双重律姓周弟.修期Iut里的住A.比1启菊之间的观离分布.夹角分布导:黑度不等.无法覆,1!儿IlR蜻梅22019WtosetU场H接漂H里与David84tefSBQ入:事序列对比18良;Jl法:使用汉厦岐厦“及网络.RiIStUEDtS
22、JEXCR.在傅羽谭的安第忤后樽遂行ISIl优化.螂白段结构及方主要在疲目方向段冽中It度更,但处于初步於践3A(paFo(d2DeetJMindA箓序列对比也力;,法:采用手ttcnt9KlQgf11y第从富塔中学习到内在.AUR三0绐种生白俄给为/煮在国别“白聂香体相互作用方的做固力较R42021年RosenAFoJdDdvKjBakevKIU人:多序列对比德意;*IZ便MN1.P协方W亶MAXSA中学习共SHteH1.amGC=ftKi9;白IE整构覆1.flSS-il6SStt一引震9帼比干AhFU2皎小,陵少副战空标的断S202班KeUxFodngle口野生林东乐ES从三:日质一审序
23、列;Wa.累用PIM作为MSAfiQI!代.通蚣稣合Wl先3塔曲AIR;SW言PBKlAfhaFold潮本S境41时终2列的可检检谈;国儿修白或者人工就计IIR结梅丹笑景合1IBIMSAJS-SHEirngR62024RosenAFoldAU-AtomDaMdBakertflk人.Ifa厦小列、小分子福或信与,杀0嫌对犷箴去*任务遂行AStH小分子同其卷,罐白质分子梅僮白Ift薛峋,史生成结合口第;fSffitfAft.每第小分子金IUO化学修等等荤个生相袈元的哺梅在SlR裁愚书伪事GJH翱a来源:智药局AIphaFoId2.0端到三维蛋白质结构预测技术的成功,无疑是该领域的一大里程碑。众多公
24、司现已采纳应用AIphaFoId2.0或同等精度的模型,如RoseTTAFoId,进行结构验证!作。使用人工智能辅助的蛋白质结构预测已经成为蛋白质研究的基础工具之一。目前,研究焦点已转向孤儿蛋白的性能评估等领域(如OmegaFoId和。penFold),并尝试采用类似GPT-4的大型语言模型(例如ESMFoId)的不同架构,以提升模型的泛化能力和预测效率。展望未来,蛋白质结构预测领域的算法创新,尤其是底层技术的突破,可能会成为人工智能在蛋白质研究领域中的关键技术壁垒。这些创新将有助于推动蛋白质科学的进步,为疾病治疗、药物开发和生物技术等领域带来深远的影响。2.1.2 人工智能在蛋白质功能预沮方
25、面的应用准确标注蛋白质功能对于理解生物活动的本质、诊断疾病的病因以及加速新药的开发至关重要。尽管研究者在这一领域取得了显著进展,但仍有大量蛋白质的功能未知。目前,uniprot数据库(收录蛋白质序列)中不到1%的蛋白质有功能注释,而这些注释大多通过昂贵且耗时的生物实验获得,人工智能蛋白质功能预测技术能够消除已知序列的蛋白质数量与已知功能的蛋白质数量之间的部分差距。人工智能蛋白质功能预测是基于氨基酸序列、二级和三级结构信息、蛋白质-蛋白质相互作用(PPI)网络等不同类型的生物数据以及结合文献信息的深度学习方法。直接从氨基酸序列推断蛋白质功能是长久以来一直在研究的方向,早期,基于序列相似性的BIa
26、stkNN是一个广泛使用的基准方法。近年来,深度学习技术在从各种数据类型中提取特征方面显示出了强大的能力DeePGoCNN是第深度学习的序列基模型,它通过堆叠的CNN层来提取特征并预测蛋白质的功能。大型语言模型也显示出显著潜力,DeePGO-SE方法通过使用预训练的大型语言模型从蛋白质序列预则GO(GeneOntology)痂区AIPhaFold2.0e先进的算法的进展为基于结构信息预测蛋白质功育翡供了可能性。例如DeepFRl,这是一个基于图卷积网络(GCN)的模型,结合了蛋白质序列和结构信息来预测蛋白质功能;还有GAT-GO,是一种基于结构的图注意力网络(GAT)方法来改善蛋白质功能预测效
27、果。目前如何检测结构中的重要基序和相对应的特征,仍是提高蛋白质功能预测性能的关键。在PPI网络中,节点代表蛋白质,而边代表它们之间的相互作用,反映了蛋白质参与的复杂生物过程,因此,PPI信息在蛋白质功皤质则中的位置同样重要。DeePGo是首个将蛋白质序斯PP网络集成的基于深度学习的预财翘受DeePGO启发,DeeNoA更高文稳健强是取序列三0图襁旃络(GNNS)的成功为蛋白质功能预测提供了更多策略。DeePGraPhGO俺端模型,利用GNNS从PPI网络中提取信息以预3幢白质功能。PPISX臃紧密相关,但这些方法也面临一些限制,如何将已知的PPI信息应用于新测序的生物体,是一个待解决的难题。另
28、外,在蛋白质功能预测领域中,基于序列和文献的预测方法是一种新兴的研究方向。这些方法试图通过结合蛋白质的序列信息和已发布的生物医学文献来预测蛋白质功能,克服了单一数据源可能遇到的限制。这种方法面临的挑战包括处理文献描述的复杂性和从大规模数据中收集相关信息的困难。图24人工智能+蛋白质功能预测算法序号时间模型发表期刊架构缺点输入:蛋白质序列;11980sBlaStKNN/算法:通过比较目标蛋白与已知功能的蛋白质之间的相似性,然后采用一种相似性加权算法来预测目标蛋白的功能;早期机器学习算法,效率低输入:蛋白质序列和PPl网络;220峥DeepGOBioinformatics茸法:基于卷积神经网络(C
29、NN)的深度学习分类模型,使用3me嗡码蛋白质序列,取序列特征.对于PPl网络,采用DeePWa比生成每个蛋白质的256维网络柘扑特征;层次化分类网络需要巨大的内存资源,难以应用于大规模标签输入:蛋白质序列;32020DeepGOCNNBioinformatics算法:从蛋白质序列中提取特征以预测功能,通过堆修的CNN层来提取特征并预测蛋白质的功能最大预测蛋白质长度为200042020DeepGOA正EE/ACMTransactionsonComputationalBiologyandBioinformatics输入:蛋白质序列和PPl网络;算法:使用Word2vec生成序列的残基级嵌入,然后
30、输入到Bi-1.STM和多尺度CNN层中以提取全局和局部特征;具有特殊特征的蛋白质功能无法预测,蛋白质序列最长为100o5202WDeepGraphGOBioinformatics输入:蛋白质序列和PPl网络;算法:端到端模型,利用GNNS从PPl网络中提取信息以预测蛋白质功能;缺乏PPlS信息的新测序生物体难以预测输入:蛋白质序列和结构;62021年DeepFRlNatureCommunications算法:融合了自监督语言模型和图卷积网络,从蛋白质序列的自监督模型中提炼出的序列特征及蛋白质结构来预测其功能;蛋白质序列训练集局限于PDB输入:蛋白质序列和结构;72022年GAT-GOBrie
31、fingsinBioinformatics算法:基于图注意力网络(GAT)的方法,它利用预训练的蛋白质序列语言模型.GAT-GO输入蛋白质序列,提取序列特征、残基级特征和结构特征,从而预测功能;对于长序列蛋白质,对蛋白质结构数匏精度要求很高82024DeepGO-SENatureMachineIntelligence输入:蛋白质序列;算法:使用预训练的大型语言模型从蛋白质序列预测GO功能,通过生成多个近似Go模型,并用神经网络预测蛋白质功能的真值;当序列与PPlS结合时性能最佳,许多新蛋白质没有已知的相互作用限制了组合模型的应用来源:智药局人工智能在进行蛋白质功能预测时,依赖于现有的数据集和已
32、知的生物学信息,这种依赖性也暴露了Al在功能预测上的局限性。未来,蛋白质预测领域的重大突破可能源于人工智能算法框架的创新或生物数据获取技术的革新。这些突破有望为蛋白质功能预测带来革命性的进步。2.2 蛋白质与其他生物分子作用预测蛋白质与其他生物分子的相互作用是生命活动的核心,而传统的实验方法在预测这些相互作用时存在局限。AT智能算法,如基于搜索的分子对接算法和基于几何神经网络的深度学习寄去,为预测这些相互作用提供了新途径。蛋白质与其他生物分子相互作用的过程是生命活动的基本组成部分,精确预测蛋白质分子表面可能的结合位点的位置对于很多科学及应用问题都是很有帮助的,比如,药物靶标注释、药物设计、药物
33、副作用预测等等。传统的实验方法虽能提供关于这些相互作用的数据,但通常耗时费力且易产生假阳性结果。计算方法在预测这些相互作用方面的作用日益凸显,蛋白质与其他生物分子相互作用预测的算法框架,包括基于能量的蛋白质分子对接算法,以及基于几何神经网络等的人工智能算法。人工智能分子对接算法可以分为基于搜索的分子对接算法,代表性的算法包括Glide、Autodock等;以及基于回归的深度学习分子对接算法,主要包括EquiBind.TANKBind.DIFFDOCK等。基于几何神经网络等的人工智能算法,包括从氨基酸序列、蛋白质结构以及蛋白质-蛋白质相互作用(PPI)网络中蕴含的信息中抓取特征,例如HlGH-P
34、Pl模型使用两个GNN,从两个视角分别进行学习以预测PPI0预测复合物的结构是理解蛋白质如何作用的另一种方式,经典的蛋白质复合物结构预测算法多采用蛋白质分子对接法。蛋白质分子又报方法是基于已给定的结构来预测M合物结构。例如EqUiDOeK模型,预测蛋白质-蛋白质复合物结构;以及整体思路与DiffDOCK接近,使用机器学习方法预测蛋白质-蛋白质复合物结构。另一方面DaVidBaker团队运用共进化分析,并结合AlPhaFoId2.0和RoSettaFOId,开发了ROSeTTAFOld2NA预测蛋白质复合物结构。这类方法上匕较依赖数据库以及数据的精确度。随着单体蛋白质结构预测算法的进步,端到端的
35、蛋白质复合物结构预测算法亦表现出卓越的性能。Deepmind团队在AIPhaFOld2.0的基础,开源了AIphaFoId-MuItimer,专门用于端到踹的合物结构J页则。同时,深势科技也开发出了可训练版本的UniFoId-MuItimerr其性能与AIPhaFoId-MUItimer相当。其中,最具代表性的就是DeepMind团队AIPhaFOkj-latest,它不仅成K崎则了许多蛋白觥绮勾,谑白质与蛋白质、核酸、小分子等复合物的结构预测中的准确度最高。图25人工智能+蛋白质与其他生物分子相互作用的算法序号时间模型团队架构应用范围1201解DNN-PPI天津大学团队DNN-PPl基于深度
36、神经网络,包含卷积神经网络(CNN)和长短期记忆(1.STM)两个独立的顺序层,从蛋白质序列中学习的特征以自动预测PP1.预测蛋白质-空白质相互作用3202WAIphaFoId-MuItimerDeepMind基于深度学习,先建立豆合物的多序列比对,以推断进化关系,然后用与AlPhaFold2基本相同的深度学习方来预测三级结构.预测蛋白质复合物三维结构2202年EquiDock麻省理工学院EqUiDOCk模型,假设蛋白质内的构象在结合过程中没有发生构象变化的情况下,在单个未结合的结构中计算预测蛋白质-蛋白质复合物的3D结构的慢型.预测蛋白质-蛋白质豆合物结构6202笄EquiBind麻省理工学
37、院以EqUiDoCk为基础,三SSE(3)-等变图神经网络,以配体分子图的随机三维构象和受体结构作预测蛋白质-小分子爱合物结构为输入,预测结合蛋白质配体构象.42022DeepTrio浙江档团队DeePTri。是一种使用检码多个并行卷积神经网络进行蛋白质蛋白质相互作用的一个深度学习框架,它允许模型学习相对性质并研究每个残基对预测结果的贡献,并通过热图可视化蛋白质的至要性图.预测蛋白质-空白质相互作用5202辟UniFoId-MuItimer深为公司团队端对端的蛋白质豆合物结构预测,输入蛋白质多聚体的一级结构),预测蛋白质的三级结构,同时给出预测结果的Si信度.预测蛋白质复合物结构72022TA
38、NKBind星为科技联合爱旦大学、中山大学共同研发基于图神经同络模型,用三维结合构象表示分子之间的几何关系,从而提高预测的准确性.预测蛋白质-小分子配体结构和蝴力82022年DffFDOCK麻省理工学院基于深度学习的分析对接模型,以配体和把标的结构信息作为输入,之后对配体进行了一定的构象转换(平移,旋转,扭转)来生成新的配体掏象,最后则是对这些生成的配体进行一个合理性的评分以及名.预测蛋白质-小分子结合结构9202辟Diffdock-PP麻省理工学院算法整体思路与DiffDoCk接近,使用机器学习方法学习将未结合的蛋白质结构翻译和旋转为其结合构象,对评分模型生成的不同姿势,进行推序并选择霞佳姿
39、势.预测蛋白质-蛋白质结合结构10202墀HGH-PR腾讯AI1.ab联合香港科技大学、中国科学院大学相关团队基于层次图学习技术的深度学习,描述蛋白质之间的相互作用,每种蛋白质就是一个节点,蛋白质之间的相互作用就是图的边,关健氨基酸或残基组合就是图的节点,物理位置相邻的残基以边相连.预测蛋白质-蛋白质相互作用11202淬RoseTTAFoIdZNADavidBaker团队端到潮的深度学习方法,使用与RoseTTAFoIc同的数据集进行训练,并增加了所有RNA.蛋白质-RNA踞白质-DNAg合物的结构信息.预测核酸结掏和蛋白质-核酸复12202洋AIphaFoId-IatestDeepMind最
40、新版本的AIPhaFold.对包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物进行联合结构预测在生物分子相互作用的研究领域,端对端预测方法的引入标志着一场技术革新,它极大地扩展了人类对于蛋白质与其他生物分子相互作用方式的认识。这一技术革新在实际应用中展现出巨大的潜力,将对药物发现方式产生颠覆性的影响。2024年,由DeePMind拆分出的公司ISomOrPhiC1.abS与诺华和礼来的巨额合作订单,充分3佥证了人工智能技术在生物制药领域的应用价值。23蛋白质设计人工智能技术在蛋白质设计领域的发展,特别是通过优化和从头设计方法,能够帮助科学家们创造出从前无法制造的功能性蛋白质、疫苗和其他类型
41、的分子。对蛋白质的精准预测,可以更好地理解蛋白的结构和功能,实现蛋白质设计,从而应用于药物研发、合成生物等领域,早期的蛋白质设计使用PCR技术,依托研究人员的经验在基因特定位点引入突变,从而改变蛋白质对应位置的氨基酸残基种类,进行蛋白质改造;之后的计算设计是基于结拗莫拟与能量计算来进行蛋白质设计,可以构建自然界不存在的蛋白质;近年来,随着结构生物学、计算生物学及人工智能技术的迅猛发展,人工智省级术成为指导蛋白质设计的新思路。人工智能蛋白质设计可以分为两大方向:蛋白质优化与蛋白质从头设计。蛋白质优化是通过修改一个自然序列(定向进化),提升其特定功能,如亲和力的增强、催化活性的提高以及稳定性的增强
42、等;蛋白质从头设计,包括从结构设计序列、从功能设计序列和从功能设计结构,在这一领域,DaVidBaker教授及其团队的研究成果尤为突出。从结构生成序列的过程又被称为蛋白质逆折叠,2019年DaVidBaker团队发布了trRosetta,能够寻找自然折叠和新结构的稳定序列,从而实现蛋白质设计。逆折叠”问题的另一个解决方法是训练模型可以明确地预测给定一个结构的序列,例如ProteinMPNN是一个基于图的神经网络。从功能到结构的蛋白质设计,以蛋白质功能为起点,目前GANS、扩散模型和蛋白质语言模型为主流,例如RFdiffusion将扩散模型与预先训练的蛋白质结构预测模型(RoseTTAfoId)
43、的结合,能够用于各种蛋白质设计应用,并得到了广泛的实验验证。如图所示,为RFDiffusion蛋白质设计实例流程图。图2-6RFDiffUSiorl蛋白质设计实例流程watson,J.1.,Juergens1D.,Bennett,N.R.etal.DenovoclesignofproteinstructureandfunctionwithRFdiffusion.Nature(2023)从功能到序列的蛋白质设计,只需要识别可以执行该功能的氨基酸序列。蛋白质语言模型是有效探索蛋白质序列空间的良好候选模型。例如proGen给定一系列输入的蛋白质属性,能够从头开始迭代地生成蛋白质序列,图2-7人工智能
44、+蛋白质设计算法序号时间模型团队架构应用范围1201拜IrRosettaDavidBaker团队基于结构神经网络的蛋白质序列设计方法.蛋白质逆折修22022年ProteinMPNNDavidBaker团队基于图神经网络的蛋白质序列设计方法.用于设计单体蛋白质、对称由豆结构、纳米颗粒和目标蛋白质结合物.32023年RFDiffusionDavidBaker团队基于扩散模型,结合预先训练的蛋白质结构预测模型R。SeTTAfold的蛋白质设计方法.用于稳定单体设计、对称低聚物设计、功能基序或函活性位点的支架设计,以及弟白质结合物设计.4202坤ProGenSalesforceResearch.Tie
45、rraBioSCienCeS和力州大学的研究团以无监督学习的方式在一个大型多样的蛋白质序列数据库中进行训练,学习通用的蛋白质表示.训练后,ProGen可以根据提示从头生成蛋白质序列从功能生成蛋白质序列来原:智药局当前,Al算法在从头生成蛋白质中取得了显著进展,特别是在抗体和多肽的设计与合成方面。基于深度学习的扩散模型和变分自动编码器等Al技术,以及类似GPT-4这样的蛋白质语言模型,已经在处理蛋白质序列等生物数据方面展现出卓越的性能。这些工具不仅提高了蛋白质设计的精确性和速度,而且通过自动化和智能化的方法,正在逐步替代传统的计算和实验方法。这种转变不仅缩短了蛋白质从概念到实验室原型的时间,还提高了设计的精确性和可预测性,使得定制化蛋白质解决方案成为可能,为生物制药、生物材料和合成生物学等领域带