《生命科学算力解决方案白皮书.docx》由会员分享,可在线阅读,更多相关《生命科学算力解决方案白皮书.docx(36页珍藏版)》请在三一办公上搜索。
1、一、生命科学研究领域1(一)基因组学2(二)生物信息学2(三)蛋白质结构研究4(四)分子动力学模拟方法8(五)计算机辅助药物设计9二、生命科学算力解决方案12(一)高性能计算生命科学解决方案121、生命科学的主要软件和特点122、生命科学高性能计算参考架构14(二)人工智能加速生命科学解决方案191、Al发展加速生命科学的应用192、联想人工智能解决方案框架21(三)生命科学算力平台解决方案21三、生命科学参考客户案例24(一)某医院组学和深度影像学习平台241、学科平台需要支撑运行的软件252、算力平台建设要求和主要特点26(一)北京大学算力平台“未名生科一号”28图目录图1生命科学高性能计
2、算架构14图2Al应用加速行业转型19图3AI加速生命科学领域应用20图4联想人工智能算力框架21图5联想生命科学算力平台22图6组学分析系统架构28图7”未名生科一号”29图8水合离子的微观结构和幻数效应31图9DNA复制起点识别复合物3-A分辨率结构31图10”未名生科一号”节点使用率和用户作业数32图11“未名一号”节点使用率和用户作业数32图12兄弟院校前来参观交流33表目录表1主要生命科学学科的工作负载13表2学科平台需要支撑运行的软件25一、生命科学研究领域生命科学领域是对微生物、动物和植物等所有生物进行研究的科学领域,同时也包括生物伦理学等相关领域。生命科学的研究是为了提高人类的
3、生活品质。目前生命科学已经在医疗、农业、保健、食品工业和制药等行业得到广泛应用。生命科学的研究不断造福人类。虽然当前生物学仍然是生命科学的中心,但随着分子生物学和生物技术的发展,生命科学已经成为一个专精化、多学科交叉并且已经进入快速发展的领域。全球范围内来看,从21世纪开始,全球生命科学领域的发展进入快车道,尤其是人类基因组计划的实施、干细胞研究的不断深入、克隆技术的不断发展等因素都将生命科学领域的发展推向了新的高度,与之相对应领域的研发投入也在不断增加。作为对科技信息技术有强依赖的典型代表,生命科学行业的药物研发和基因测序分析领域面临着计算资源紧缺、研发周期长等问题。为了解决这些问题,相关企
4、业一方面自建高性能计算平台,另外一方面也开始从传统IT转向上云,希望借助云计算平台的资源来从事和加速药物研发速度、提升测序数据分析效率,加快业务创新步伐,为用户创造更大价值。新药的诞生通常需要经历药物发现、临床前研究、临床试验和审批等阶段后,最终才可以获批上市。在靶点发现、化合物合成等药物发现阶段以及化合物筛选等临床前研究阶段,往往需要借助高性能计算强大的计算能力才能加速研发过程辅助药物设计。(一)基因组学基因组学是指对生物体所有基因进行基因组作图、核甘酸序列比对分析、基因定位及基因功能分析的一门学科,而基因测序则是针对基因组学研究的检测分析技术。基因组学所对应的研究主要包括结构基因组学和功能
5、基因组学两个方面。结构基因组学代表基因组分析的早期阶段,一般以基因组测序为目的,得出生物样本的静态碱基序列,并构建生物体的基因图谱,一般基于高通量测序技术生成生物的碱基序列。功能基因组学也称作后基因组学,基于结构基因组所提供的数据及信息,结合计算机科学,同时对多个基因片段进行系统性的分析研究,主要研究内容包括:基因突变检测(SNP,InDeD基因表达分析及基因功能发现等。基因测序的业务流程主要包括样本上机(测序仪)、测序文件生成、基因序列比对及结果分析(计算机),并将结果数据及报告交付至各科研医疗机构。其中,基因序列比对及分析环节极为耗时,涉及大量的生信领域专业软件,计算资源的算力性能及方案优
6、化对生信研发效率起着至关重要的作用。(一)生物信息学进入21世纪以来,随着人类基因组计划的相继完成和各种模式生物的基因组计划的顺利实施,以及基因测序技术的不断进步,生命科学研究得到了巨大的发展。同时,海量的有关生物序列的数据量不断增加。这些数据具有丰富的内涵,其中蕴含着大量的人类尚且不知道的生物学奥秘。生物信息学是研究生物信息的采集、处理、存储、传播、分析和解释等各方面的一门学科,与以观察和实验为主的传统生物学研究不同,它通过综合利用生物学、计算机科学和信息技术而揭示大量而复杂的生物数据所蕴含的生物学奥秘。生物信息学把DNA序列、蛋白质序列以及其它相关生物数据作为分析对象,力求揭示DNA编码区
7、、蛋白质、RNA基因以及其基因组中非编码序列的信息实质。DNA测序技术是现代分子生物学研究中最常用的技术。自1977年第一代测序技术问世以来,经过三十多年的发展,DNA测序技术取得重大进展,以高通量为特点的第二代测序技术逐渐走向市场,以单分子测序为特点的第三代测序技术也已经出现,其分别在测序特点上占有不同的优势。测序技术的快速发展,使小型化/台式高通量测序仪成为现实,这意味着大规模基因组测序将不再是大型实验室或科研中心的专利,中小型实验室、公司、临床检验中心都将能够利用高通量测序技术快速高效的获取大量信息,进行科研或开发应用。DNA测序包括全基因测序和基因组重测序。新一代高通量测序技术的发展,
8、使得物种全基因组测序变得速度快、效率和准确率更高,越来越多的物种基因组信息相继公布。全基因组测序主要应用与基因组序列未知的物种,DNA片段测序后,用生物信息学软件对序列进行拼接、组装,从而获得该物种的基因组序列图谱。基因组重测序是指该物种基因基因组序列已被测序,有参考基因组序列的测序工作。第2代高通量测序技术目前应用最为广泛的领域就是对已知基因组物种进行重新测序,基因组结构变异、单核甘酸多态性、群体多态性、突变热点等重要信息都是通过重测序研究发现的。目前已知的序列比对方法很多,依据不同的划分方式有不同的分类。根据同时进行比对序列的数目分为两两比对和多序列比对,从比对范围考虑分为全局比对和局部比
9、对。多序列比对算法的基础是动态规划比对算法,但随着比对序列数目及长度的增加,问题的解空间也急剧增大。多序列比对的常用算法有渐进算法、隐马尔科夫模型、迭代比对法等。累进方法是最常用的启发式多序列比对算法。(三)蛋白质结构研究结构生物学是通过研究生物大分子的结构与运动来阐明生命现象的科学。药物设计、疫苗开发和蛋白质分子性能改造等应用领域都以结构生物学的研究成果为基础。X射线晶体学、核磁共振波谱学、电子显微三维重构(亦称电镜三维重构)是结构生物学的三大研究手段,具有不同的优势。核磁共振波谱学可以获得蛋白质在溶液中的三维结构,能够分析蛋白质的动态变化,但是研究对象的分子量通常难以超过20kDoX射线晶
10、体学通常可以获得生物大分子原子分辨率的三维结构,但对于分子量较大、较复杂的生物复合分子体系,其晶体难以获得,结构解析难度也较大。当研究对象的尺度越来越大的时候,电子显微三维重构技术,特别是低温电子显微三维重构技术,就显示出其重要的作用,利用该技术我们可以获得分子量巨大(200kD以上)的超分子复合体系的纳米分辨率三维结构,弥补晶体学和核磁共振分析技术的不足,架起从蛋白质、蛋白质复合体、超分子复合体系到亚细胞系统的三维结构研究的桥梁。电子显微三维重构技术的基本原理基于中央截面定理:三维物体沿电子束方向投影的傅立叶变换,是该物体所对应的傅立叶空间中通过中心且垂直于投影方向的一个截面。那么一个物体的
11、完备投影的二维傅立叶变换一定能够完全填充该物体的三维傅立叶空间,因此物体的完备投影与物体的三维结构是等价的。实验中,我们收集到大量全同颗粒在不同方向的投影(单颗粒),或同一样品在不同角度的投影(断层成像),首先通过等价线(commonline).投影匹配等方法确定每张投影图像的取向和中心(断层数据角度已知,只需精修即可),然后对每张投影图进行傅立叶变换,按照投影方向填充到三维傅里叶空间对应的切面,并进行差值计算得到倒空间的网格点数值,最后再进行反傅立叶变换,就可得到实空间的三维结构。三维重构理论的建立使得利用电子显微镜来解析蛋白质等生物大分子的三维结构成为可能,但是需要解决的问题是电子束打到生
12、物样品上时会带来比较严重的辐射损伤,从而丢失了许多结构信息,在低温电镜(低温电镜的目的是提高生物样品对电子辐射的耐受力,同时减少图像热噪声)和低剂量辐照成像技术出现以前,人们只能采用重金属负染的方法来获得生物大分子的嵌影结构(不是真正的分子结构)。到了80年代,快速冷冻含水生物样品的制备技术和低温电子显微镜技术的快速发展并实用化,为利用电子显微技术研究蛋白质三维结构奠定了基础。特别是1984年,Dubochet等发表了第一张病毒的低温电子显微镜照片,开创了低温电镜的研究时代。自此,在低温电子显微术、低剂量辐照成像术和电子显微三维重构理论的基础上,一门新的学科领域形成了,即低温电镜结构生物学,这
13、一领域无论是在方法学上还是在蛋白质结构研究上,在近二十多年间都获得了快速发展,取得许多重要成果。利用低温电子显微术和三维重构技术解析蛋白质超分子复合物的结构迄今已分化发展为三种具有不同特点和适用范围的方法:电子晶体学(EIeCtronCrystallography),主要处理二维晶体样品;单颗粒三维重构技术(SingleParticleAnalysis),主要解析具有全同性的蛋白质分子的三维结构;电子断层三维重构技术(EleCtrOnTomography),主要针对不具有全同性的超分子体系和亚细胞体系。第一种:电子晶体学象并结合电镜的成像数据,我们就可以解析出这些大分子的三维结构;第二种:单颗
14、粒三维重构等;第三种:电子断层三维重构。质谱方法(MassSpectroscope,MS)是通过正确测定蛋白质分子的质量而进行蛋白质分子鉴定、蛋白质分子的修饰和蛋白质分子相互作用的研究,基本原理是带电粒子在磁场或电场中运动的轨迹和速度依粒子的质量与携带电荷比(质荷比,M/Z)的不同而变换,从而可以据此判断粒子的质量及特性。但长期以来,质谱方法仅限于小分子和中等分子的研究,因为要将质谱应用于生物大分子需要将之制备成气相带电分子,然后在真空中物理分解成离子。但如何使蛋白分子经受住离子化过程转成气相带电的离子而又不丧失其结构形状是个难题。20世纪70年代,解吸技术的出现成功地将蛋白分子转化成气相离子
15、。尔后快原子轰击与其紧密相关的溶液基质二次离子质谱法使得具有极性的、热不稳定的蛋白分子可经受住电离过程。但这些方法仅限于IOkD以下蛋白分子的研究。80年代电喷雾电离(ESD和软激光解吸(SLD)电离技术的发展则使得质谱方法应用于高分子量蛋白分子的研究。在用于蛋白质分析的质谱技术中,蛋白质样品首先被选定的蛋白酶水解,形成多肽。不同质量电荷比的多肽离子被质谱仪分离、检测出来,得到一级质谱。这些肽离子可以进一步被打碎,形成碎片离子。碎片离子被分离和检测便得到串联质谱。用质谱鉴定蛋白质的方法因此分为两大类:第一类是基于一级质谱的,称作肽质量指纹作图。这类方法搜索已知蛋白质数据库,用指定的酶对蛋白质进
16、行模拟水解,得到理论一级质谱。理论一级质谱与实验一级质谱进行比较,结果按照匹配的程度排序。这样的系统有MOWSE,Mascot,ProFound,PeptIdent,MS-Fit等等。肽质量指纹作图适用于蛋白质样品包含一种蛋白质或简单的混合物的情况。其缺点是由于蛋白质混合物和污染物、部分酶解、残基修饰(所谓氨基酸残基是指去掉一个水分子的氨基酸)、质量精度等因素的影响,往往误差较大,导致搜索结果错误。第二类是基于串联质谱的。这类方法首先利用串联质谱技术(TandemMassSPeCtrOmetry,MS/MS)准确测定肽的氨基酸序列,再通过肽序列鉴定蛋白质的序列。所以,这种方法可以用于鉴定复杂的
17、蛋白质混合物或者验证肽质量指纹搜索的结果,是目前最常用最有效的主流方法。为了鉴定蛋白质,从串联质谱鉴定肽的氨基酸序列是中心问题。从串联质谱鉴定肽序列的计算方法有三种:数据库搜索方法、从头测序方法、序列标签查询方法。其中最常用的是数据库搜索方法,在这种方法中,数据库中的蛋白质序列被理论水解和碎裂,生成理论串联质谱。把理论质谱与实验质谱相比较,从而找到生成实验质谱的肽序列。(四)分子动力学模拟方法分子动力学模拟方法是在原子水平上利用经典牛顿力学方程研究分子状态的计算机模拟方法。随着计算机计算能力的提高,分子动力学模拟已经成为生物大分子理论研究的一种有力工具,和实验手段相比,除了其经济的优点外,基于
18、全原子模型的动力学模拟可以在原子结构层次揭示生物事件随时间的发展过程,这些信息不仅帮助我们认识生命现象,而且也具有实用价值,比如蛋白质稳定性研究、蛋白质折叠、构象转换、分子识别、离子传输、辅助研究关于药物设计以及验证X射线晶体衍射方法和核磁共振方法得到的分子体系的实验结构。自1977年基于一个简单的力场对牛胰岛素抑制剂(BPTI)在真空中短时间分子动力学的模拟被报道以后,分子动力学模拟方法无论是在采样效率还是在势能函数准确性上都取得了巨大的进步。进行分子动力学模拟的基本过程如下:首先给出生物体系里每个原子的初始位置以及初始速度,选择使用何种溶剂模型处理溶剂效应以及何种分子力场计算分子之间相互作
19、用能;对初始结构进行简单能量优化、结构平衡,防止初始结构中原子之间位置冲突;开始分子动力学模拟,根据所选用的经验势可以得到每个原子上的作用力以及原子运动的加速度,原则上可以求得任意时刻任何原子的位置和速度,但是实际模拟时必须选择合适的时间步长,模拟中步长必须足够小,一是保证能够正确的计算体系中最快的运动,比如共价键的振动,二是防止原子位置冲突,但是步长又不能太小,否则需要很长的模拟时间才能获得足够多的采样;最后对模拟结果进行分析处理。分子动力学模拟结果的可靠性和准确性主要依赖于模拟中所选用的势能函数,包含分子力场以及溶剂化模型。(五)计算机辅助药物设计计算机辅助药物设计根据受体的结构是否已知,
20、分为直接药物设计和间接药物设计。计算机辅助药物设计的方法始于八十年代早期。当今,随着人类基因组计划的完成、蛋白组学的迅猛发展,以及大量与人类疾病相关基因的发现,药物作用的靶标分子急剧增加;同时,在计算机技术推动下,计算机药物辅助设计在近儿年取得了巨大的进展。计算机辅助药物设计的一般原理是,首先通过X单晶衍射技等技术获得受体大分子结合部位的结构,并且采用分子模拟软件分析结合部位的结构性质,如静电场、疏水场、氢键作用位点分布等信息。然后再运用数据库搜寻或者全新药物分子设计技术,识别得到分子形状和理化性质与受体作用位点相匹配的分子,合成并测试这些分子的生物活性,经过几轮循环,即可以发现新的先导化合物
21、。因此,计算机辅助药物设计大致包括活性位点分析法、数据库搜寻、全新药物设计。数据库搜寻技术在药物设计中广为应用,该方法发现的化合物大多可以直接购买得到,即使部分化合物不能直接购买得到,其合成路线也较为成熟,可以从专利或文献中查得,这都大大加快了先导化合物的发现速度。但是,数据库搜寻得到的化合物通常都是已知化合物,而非新颖结构。近年来,全新药物设计越来越受到人们的重视,它根据受体活性部位的形状和性质要求,让计算机自动构建出形状、性质互补的新分子,该新分子能与受体活性部位很好地契合,从而有望成为新的先导化合物;它通常能提出一些新的思想和结构类型,但对所设计的化合物需要进行合成,有时甚至是全合成。全
22、新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、LeapfrogsGROW、SPRoU等,其中LUDl最为常用。二、生命科学算力解决方案生命科学算力解决方案包含传统的高性能计算解决方案和人工智能加速解决方案。(一)高性能计算生命科学解决方案在生命科学计算领域,高性能计算的软件种类非常多,可以根据计算的类型选择使用。以下介绍生命科学主要软件的特点和高性能生命科学解决方案架构。1、生命科学的主要软件和特点生物领域中的高性能计算最大的特点是种类多,从研究领域区分可以分成如下大类:(1)生物分子的结构测定:IllUmina公司的bcl2fastq
23、,GenomeAnalys,HiSeq2000,GAPiPeIine等;ABl公司的SoIid3,Solid4,Bioscopeo电镜EMAN,SPlDER;利用Xray方法测量用软件CCP4、ARP/wARP,CNS进行解析等;质谱仪TandOnI等。(2)生物信息学类计算:最常用的有BLAST,FASTA,HMMER,ClustalW,DNASTAR,PHYLIP,PML,PAUP,T-Coffee,EMBOSS等。(3)分子动力学类计算:主要软件有AMBER,Charmm,NAMD,Gromacs等,这类应用非常适合大规模并行。(4)计算机辅助药物设计类计算:应用软件有DOCK,Auto
24、Dock,FlexX,DiscoveryStudio,ZDOCK,RDOCK,MORDOR等。生命科学的主要软件应用特点,与生命科学学科的计算工作负载有关。表1主要生命科学学科的工作负载学科解决方案数据/应用程序特点主要应用程序生物信息学-序列分析搜索、对齐生物序列(DNA和蛋白质)并对其进行模式匹配结构化数据整数占主导,频率依赖性,大量缓存和内存BW并非关键,一些算法适合进行SlMD加速NCBIBLASTWUBLAST、ClustalW、HMMER、FASTA,Smith-Waterman生物信息学-NGS对齐并合并DNA短片段,以重建原始序列 一些需要大量内Phrap/phred、存CAP
25、3/PCAP、Velvet 许多为TO密集ABySS、SOAPdenovo、型任务Newbler.MAQBOWTIE. 字符串分析和匹BFAST、SOAP、配算法BioScopeSAM工具、GATK,BowtiexBwa等二代测序的比对工具,Fastqc等数据预处理工具生物化学-药物研发筛选大型数据库,查找具有所需生物活性的潜在药物大多为浮点数据计算密集型极高高度并行任务Dock、Autodock、GLIDE、FTDock、Ligandfit,Flexx计算化学-分子模拟和量子力量使用分子动力学和量子力学技术对生物分子进行建模 需要处理大量浮CHARMM/CHAR、点数据GROMACS、Des
26、mond、 延迟至关重要AMBER、NAMD、 频率依赖性Gaussian、GAMESS、 可缩短到100秒Jaguar、NWCHEM以下蛋白质组学解读质谱分析数据,将频谱与蛋白质数据I库进行匹配 整数比较 FFT频谱分析具有浮点数据 对通信要求不高Mascot、Sequest、ProteinProspector、X!Tandem.OMSSA结构生物学用物理学方法,配合生物化学和分子生物学方法研究生物大分子结构与功能的新学科数据量大ReIiO为典型代表(GPU计算密集型优化)2、生命科学高性能计算参考架构 一 4Mb 生命科学 fflRfflP用户管理网络 4Mbam* 噩用程序劣用于云运总周
27、展从0H3M HCf桂修家快取累。SS福性餐”行图1生命科学高性能计算架构通过生命科学研究领域的应用软件的分析,生命科学需要大量的科学计算。对计算服务器的要求,不但要有高密度的计算服务器,也需要有大内存的胖节点服务器完成不同类型的计算。在整个的计算的过程中,因为生命科学有大量的数据需要处理,在架构内还要配置高性能的并行存储系统,以及高速互联网络,将计算服务器、存储等设备有效的连接起来,实现高效率的计算和存储访问。总的来讲,生命科学高性能计算参考架构,主要包括计算系统、存储系统、网络系统。(1)计算系统计算系统需求上要求计算性能高,内存大,功耗低,密度大等要求和特点。计算性能高:高性能计算应用最
28、为核心的需求仍然是计算能力,高性能计算机峰值计算能力代表着高性能计算机的整体处理能力,而对于大部分的高性能计算应用,对计算资源的海量需求仍然是最为迫切和直接的需求。内存需求高:在高性能计算过程中,会进行大量的内存访问,对内存的容量和访问速度都有很高的需求。尤其随着CPU多核化的快速发展,对内存的访问能力提出了新的需求,CPU的直连架构、内存控制器高度集成,避免多个CPU访问时的内存争抢。同时,随着CPU的不断升级,内存通道的数量及内存的频率也在不断升级。对于用户计算配置兼容的性能最高的内存规格,且要求内存条的数量与CPU的内存通道数量匹配。适合高性能计算应用:用户应用需求是高性能计算机发展的驱
29、动力。高性能计算机的部件及架构要适合具体的高性能计算应用。例如,如果应用软件需要大内存、共享存储扩展等需求,则系统需要配置大内存及多路胖节点;如果应用软件的扩展性不好,则尽量考虑高主频、核心较少的计算方案;如果系统扩展性很好,则尽量考虑总体计算峰值最高的方案。每瓦性能高:高效能代表着高性能计算的每瓦性能较高,这是评价高性能计算机架构是否科学、配置是否合理的重要指标。能源的利用率对于降低总体拥有成本、节能减排有重要意义。总体功耗低:高性能计算机是能耗大,在低碳低能耗要求下,降低高性能计算机功耗,建立绿色数据中心非常有意义。降低功耗一般可以通过选购效率较高的IT设备、提高制冷及空气调节效率、使用功
30、耗控制软件等几个方面实施。联想的温水水冷技术提供了优化的绿色的解决方案。联想直接水冷刀片系统是业界最新的高密度计算解决方案。以其灵活、开发和简化数据中心的特点为高性能计算、网格计算、仿真和分析以及大规模高性能计算和人工智能等应用提供了优秀的基础架构。高密度:较高密度能满足用户机房空间有限的需求,同时,较高的密度能够有效节约空间,降低运维成本,降低管理难度。高可靠性要求:高性能计算机主要架构为集群架构,一般工作方式为若干台x86服务器通过标准网络连接,通过作业调度软件将计算任务分发到不同计算节点上。在一套高性能计算机系统中,网络系统、存储系统、管理登陆服务节点等都属于系统级组件,单一组件的不可用
31、会导致整个系统的不可用,对可靠性要求非常高;而集群计算节点由于作业调度可自动将不同作业分发到不同的节点上,即使少量节点的故障也会导致整作业结果不能及时产生,需要重新提交作业,这样会造成计算资源的极大浪费。提高计算节点高可用性至关重要。(2)存储系统高性能计算集群在多个节点进行大规模并行计算的同时,需要进行大量文件及数据访问,对于系统的存储性能也提出非常高的要求,系统对存储要求主要归结为以下几点:全局文件的统一映像:高性能集群为保证参与计算的所有节点具有统一的文件印象,在任何一个节点、对某一个文件的读写、修改都会在其它节点生效,实现这一个功能,往往需要通过网络文件系统来实现。由于集群规模的增大和
32、访问性能的要求逐渐提高,并行文件系统在中大规模的高性能集群中使用越来越广泛。全局文件的高速访问:对于某些规模较大集群,或者某些高IO应用集群,由于对存储的访问量很大,对共享存储的访问性能也提出了较高要求。需要通过提高磁盘阵列的性能、存储介质的性能、磁盘阵列访问接口的性能和IO节点的网络性能来提高存储的访问性能。对于更高IO需求的系统,可以通过并行存储系统来实现海量文件的并发读写。存储系统的大容量:由于高性能集群的规模巨大、数据处理能力惊人,高性能集群集中存储的容量也非常惊人,达到数十TB,在某些对海量存储需求的系统中,存储往往达到上百TB,甚至PB量级。存储系统的高可靠性:高性能集群承担着重要
33、的科研任务,用户的数据具有极高的价值,同时,存储为全局系统,一旦出现故障,将导致整个系统不可用。所以在存储系统中,无论IO节点、存储交换机、还是存储磁盘阵列,存储介质,每个环节都要尽可能的保证高可靠性和高可用性。可以通过冗余电源、高级别RAID、双机热备、数据备份等各种手段保证存储系统的高可靠性。(3)网络系统以MPl为代表的并行高性能计算程序,在多节点并行运行时有频繁大量的网络数据通信,计算网络的性能对并行程序的计算性能、并行加速比以及可扩展性有决定性的影响。这主要反映在两方面。如果并行计算程序的数据通信以小数据包为主,且数据交换非常频繁,这一类并行程序对计算网络的延迟性能非常敏感,计算网络
34、的延迟越低,程序的并行性能越好;如果并行计算程序数据通信大数据包较多,则对计算网络的带宽性能敏感,计算网络的带宽越高,程序的并行性能越好。实际情况中,大部分并行应用程序对计算网络的带宽和延迟性能都非常依赖,低延迟、高带宽的计算网络是大规模并行计算必不可少的要素。另一方面,目前大规模高性能计算集群均采用并行存储架构,集群的规模越大,或者应用程序对存储I/O性能要求越高,则对并行存储系统的存储网络性能要求越高,要求存储网络具有低延迟、高带宽的特性。(二)人工智能加速生命科学解决方案随着Al应用多样化且越来越成熟,AI应用不断落地加速社会生产力的提升。人工智能在生命科学领域的应用,也加速行业转型。1
35、、Al发展加速生命科学的应用在智慧科研方面:通过人工智能的应用,使AIPhaFOld2计算精准预测蛋白质结构;用FoUrCaStNet将天气预报提速45000倍;DeePMD-kit提升分子动力学极限至10亿原子规模并保持高精度;用流体、结构PDE方程Al求解。图2Al应用加速行业转型AI技术在基因数据分析和医疗影像识别中的应用,面向临床方面,应用于医疗影像识别、基因突变和疾病诊断、基因表达分析;面向科研,应用关于鉴别基因中的组分、蛋白同源性分析和结构预测。图3Al加速生命科学领域应用人工智能在生命科学的应用方法,首先有算法和框架,应用产生数据,通过人工智能的计算能力提高,进一步加速应用。算法
36、和框架:在应用中,合理的算法和模型设计十分关键;可以把算法设计/优化问题转化为深度学习模型设计/优化问题,从而借鉴深度学习其它领域的成果;利用TenSOrFlOW、Caffe等框架来简化模型/算法开发时间。数据:DNA测序价格的持续走低提供了海量的数据,传统的统计分析方法跟不上数据爆炸式增长的节奏;AI为我们提供了挖掘数据价值的更佳方式。计算能力:GPU加速芯片可以为模型训练提供强力支撑,GPU加速芯片和设备可以在推理时加速数据处理,应对海量数据挑战。2、联想人工智能解决方案框架联想的人工智能算力框架可以应用于生命科学的应用。AI基础设施提供硬件层次的基础架构,如训练服务器、边缘服务器、高速网
37、络和存储,以及硬件虚拟化、操作系统和计算中间件。中间层是对算力的调度,算力平台的使用管理、算力行业使能和工具使用;最上层是行业的应用。智能医疗行业生命科学是人工智能的重要领域。A行业应用A训族平台A算力调度虚拟化 WFW葡aES.力行业使;! A基础设施AurtaoMig。玉QloRA计算、存限Gn (MlG)液冷系疑SVbIC PusiorMegatrocCengS/RedhaVSuss/RoCfcy/UbuntAlUl性T槌务SS边蜘务最、小站风冷系统mO。人 效字字使(HtJBLn0ct1APMi 一KVIDIA Ti QKtd Twin Rtv Jdgav计算中间件4oe,5MlCMX
38、Net,用户可以基于LiCO7.0平台,直接编写自己的算法,调用LiCO7.0平台中的函数库和软件包,进行训练学习,省去多种深度学习框架的安装和部署等容易带来异常的繁琐步骤。1.iCO7.0平台为人工智能用户使用Al算法带来非常大的便捷。三、生命科学参考客户案例联想的生命科学算力解决方案已经服务于多个和生命科学相关的领域与行业,联想在这方面积累了丰富的经验。典型的有高校的生命科学研究平台,和服务于国内主流的三甲医院的研究和临床平台。(一)某医院组学和深度影像学习平台某总医院是集医疗、保健、教学、科研于一体的大型现代化综合性医院。医院的信息化建设一直走在全国前列,取得了对行业发展有重要影响的系列
39、成果,拥有一支素质高、能力强的技术人才队伍,积累了丰富的数据资源。为了充分挖掘医院的数据资源潜力,支撑医学科技创新发展,医院在行业中率先成立了医疗大数据中心,系统化开展数据资源开发利用工作。近年,医院更获批为国家“医疗大数据国家实验室”建设单位,面向医疗行业开展大数据应用创新。医疗大数据中心的主要发展方向是,围绕医疗大数据整合、数据处理与分析、智能化辅助诊疗、医院管理决策、安全隐私保护等开展技术创新、标准创新、产品创新和应用创新。为医疗大数据技术的研发应用提供一流的支撑保障。大数据中心已经拥有大量的组学、蛋白组、影像等医学数据,客观上存在深入研究的数据基础,但是在实际研究中发现基因组学研究需要
40、大量的计算能力、存储能力,医疗影像分析需要支撑机器学习的计算能力、图形处理能力以及相应的算法基础平台。这些需求促使我中心进行高性能集群建设。1、学科平台需要支撑运行的软件表2学科平台需要支撑运行的软件学科解决方案数据/应用程序特点主要应用程序III生物信息学-序列分析搜索、对齐生物序列(DNA和蛋白质)并对其进行模式匹配结构化数据整数占主导,频率依赖性,大量缓存和内存BW并非关键,一些算法适合进行SIMD加速NCBIBLAST、WUBLAST、ClustalW.HMMER.FASTA,Smith-Waterman生物信息学-NGS对齐并合并DNA短片段,以重建原始序列 一些需要大量内存 许多为
41、IO密集型任务 字符串分析和匹配算法Phrap/phred.CAP3PCPVelvet、ABySS、SOAPdenovoNewblerMAQBOWTIE、BFAST、SOAP、BioScope.SAM工具、GATK计算化学-分子模拟和量子力量使用分子动力学和量子力学技术对生物分子进行建模 需要处理大量浮点数据 延迟至关重要 频率依赖性 可缩短到100秒以下CHARMM/CHAR、GROMACS、DesmondAMBER、NAMD、GaussianGAMESSJaguarNWCHEM蛋白质组学解读质谱分析数据,将频谱与蛋白质数据库进行匹配整数比较FFT频谱分析具有浮点数据对通信要求不高Masco
42、t、Sequest、ProteinProspector、X!Tandem.OMSSA结构生物学用物理学方法,配合生物化学和分子生物学方法研究生物大分子结构与功能数据量大计算密集型Relio为典型代表(GPU优化)根据中心研究课题安排,建设两个集群:基因组学集群,深度影像学习平台。基因组学集群:用途:基因、蛋白质、生物序列,分子研究;数据源:自有数据及第三方公开数据集;主要应用:clcgenomicsworkbench;用途:临床辅助;深度影像学习集群:用途:肝肺等、肿瘤Al研究;数据源:自有数据及各医学研究中心相关影像数据;主要应用:基于TenSorfloW,Pytorch自研应用;用途:临床
43、辅助。2、算力平台建设要求和主要特点(1)架构要求通用性:有大型案例验证的通用性架构,能够使用业内常用的框架。可扩展性:未来会根据研究成果和科研需求对集群进行扩建,所用架构必须具有技术持续性,未来扩展在原集群扩建即可。(2)网络要求高带宽:特别是组学分析,对带宽要求高低时延:多任务并发,时延问题将会放大无阻塞:计算存储要求网络一致,做到无阻塞连接,防止形成集群短板。(3)计算能力要求经调研,组学集群需50TFloPS以上浮点运算能力。经调研,深度影像集群需160TFlOPS以上浮点运算能力,选用训练能力和推理能力均衡的NVDlATeslaVlOOGPUo(4)存储要求容量要求:组学分析需不少于200TB容量,深度影像学习平台需不少于100TB容量。带宽要求:组学分析对带宽要求比较高,要求多流读写达到7GBs以上,单流读写3GBs以上。文件系统要求:非开源的商业版文件系统,有成熟应用案例,技术支持有保障。可扩展要求:随着未来集群的成熟使用,数据一定会有海量增加,存储架构要可扩展到海量容量;同时由于现阶段,机房空间和供电有限,需要考虑整体功耗,未来扩展给机房带来的空间和功耗压力。(5)集群管理平台要求具有管理、调度、监控功能,兼容常用的调度系统,具有良好的交互能力。最好两个平台使用的集群管理平台为同一个(兼顾高性能与AI框架),减少学习成本。(6)平台系统