《2024AI技术框架结构.docx》由会员分享,可在线阅读,更多相关《2024AI技术框架结构.docx(30页珍藏版)》请在三一办公上搜索。
1、2024AI技术框架一.为什么要做Jittor鉴于国外主流深度学习板架Tensorftow和Pytorch已经梅H起了宛事的产业悠和庞大用户群体.那为什么潴年大学要辩发计图“(Jittor)这样一个AI框架?为了回篝这个问题,首先介绍了深度学习框架的一些背景知识.认为,以深度学习为代表的新一代人工智能技术已妊产生非常大的影响,浅度学习在J1.I种程度上已舞成为科学研究和工程应用的一种新范式,数系驱动的思想已好米入人心。机朗学习程架是人工智能的一种核心技术,它不仅要负提机器学习、模型的训嫉.推理管理人工智能应用所需要的大城横数据却模型,而且还要负责底层的计算设备调度和资期备之上,在应用之间的一个
2、番架层或者平层.0总值ew识别ZWt制日文本时pyt6rch6caffe2IeasofF1.ow(intei)OGoOgIenvDA*申请.所以Jf1.下IB1所示,它是在计算设人工智能应用机器挈框架计算设备图1:机器学习程策所处;三次接下来回反了深度学习框架十年来的演进情况“2008年图灵奖获得者B扁方HiWi号的实里空提出了第一个比较成熟的椎策Theanoe这个框架更定了很好的戛处,但是很遗憾在2017年就停止整护了,M三戌员后来参加了Tensorf1.owe在2013年时.加州帕克利大学博士生贾扬清卖出了Caffe平台.后来他加盟了谷欧和Facebook,并在Facebook期间发布了或
3、具影峋力的Caffe20但真正在工业界、学术界产生重大推动作用的,是2015年由谷歌开赛的TenStXf1.OWe因力谷歆的强大影喇力,其2017年发布的TenSOrf1.OW1.。版本在学术界一度取得了垄断俊的应用地位。众所周知.在2017.2018年左右,嫌大多数和深度学习相关的论文实的都是用Tensorf1.ow来做的。这股势头直到2018年PytorCh1.0的出现才发生了变化。Pytorch最初发布于2016年,特色是提出了动态图的概念。到了2019年,学术界将近70%的文单实辑是用Pytorch这个平台来做的,由此可一Ja功态图思想.的主导性地位。深度学习框架的十年间演进2008#
4、牛USA实於室theano6caffe22O13i5*,1.)BV1.C2017caffe2A(facebookN2017.停止维妒,转FjTF2019.发布20,增加eafgemodefacebook2O15JfgCCWe(2O17.RW1.oJTensorFIowGOvg1.e2018发布102016发布0,引入,力态用PYTbRCHfacebook图2:濠度学习框架的十年向演进认为,我们国家人工智能研究尽管非常活疚.也取博了很多大的进展,但是整体上的研究布局并不均衡:我们在算法应用方面做得比较多,在学习平台壑策方面却做得比较少.而且我1的算法应用研究大多是基于国外平台TenSOrf1.6
5、v和PyorCh等,春被咔脖子的风险。这美风随的透我已经在蔓延,比如华为清单事忤中.华为松谷歌萦用安卓系统比JD今年1月6号美国勃朗普签胃法案,要禁止人工智能软件的出口等,指出为什么做中国自己的机88学习率6T?首先是自主创斜的善姿,比如EDA,中国在20世妃90年代在EDA翼法上是非常较先的.但由于没得注里平台研发和发麻,号姓现在非常被动。第二,做平台也是人才培弊的需要我们提要培养自己的一代新的人工智能顿军人才.JittOr计图天元MindSporeI2016jHiJF141.s动态图支将BaiB2020320正式发1Z3,3槽或率100%IwSIO应用类型目标检澜实例分割3SSDMagRC
6、NXFJIE率96%93%注:费盖率的计算标准为该应用使用隹少好可以使用元算子实现W12:元算子的覆貌情况2.3创新点二:统一计口图讨管图星深度学习梅架里面用来描述检型的数据结构,例如何恺明关于Resnet的论文中有一张很长的网,从顶上到底下.款是通过计算图把这个模型展示出来的。下图是一个医像分割的例子,给入图像的目标是生成谓义分副.震要通过卷枳.激活省等构造覆S1.这样的结构使是计算图”.4输入图片1.池化层出13一个匡像分寄樗经网络的计真图实例机留学习总架有动态静态之争,早期是静态图,它是把全图一次性发送到计算设备上做优化和计算。比如早期的TenSOrf1.tiQGAN20174276Pi
7、M1.DA2017670Conditima1.CAX20143217Bicyc1.eGAS2017457VasserateinCANCP20172822EnhancedSuper-Ref1.o1.utionCAS201836SIassorstoinGAND1.V20172822Ro1.ativiitxcCAX2018184InfoCAS20161S26MAC2017122ContextEncoder20161712BouManTzkiGAX2017&S1.eantSquar*GAN20t71312C1.usterGAK201936AdyMXia】AU1.oCTnodwr20151193SciS
8、UGAN201817Auxi1.iaryC1.assifierGAN20171152SoftaaxGAS2017UVX1.T17971使22:主流GAN埃型序Pi2PixCyc1.eGANW/55S,333335333,4JW*6ZCf4602VFtf99cfoc99,夕9夕夕夕夕夕彳99gqqq9q000000400J33333393.V“ydu,vyYV80SgQJgefgO4XBicyc1.eGANC1.usterGAN23:GAN模型库部分模型生成效果SpeedRatio(%)图24:GAN模型左性能对比4提供一邮换功能,从PyIOrehSK到计图并不府用一空耀作系妣就常忙揖代码改了,
9、原来的工作拿过来都可以用,帚助转换,非常方便。5分布式;在计图框架下,可以很方便运行多卡训球.洪月多机代码。比为公卡训缥就一个命令行.多卡训媒命令前面只加几个字符来搭定谀金,再增m前面一小段就行了。单卡训练代码python3.7-mjitter.test.test-resnet分布式多卡训练代码mpirunnp4pyt11on3.7jittortest.testresnet#指定特定显卡的多卡训练代码CUDAVISIB1.EDEVICES-2i3mpirun-np2pytho3-7-mJ1.ttor.test.test-resnet围25:单卡调劣和分布式训炼接下来.介皑了计图正在推送的一些工
10、作,第一,支持Res2net这是南开大学提出的新骨干网络。这个得干网络在很多应用上性缝非常强,而Je它做到计图平台后.除了让它本身性能很到外,在计算效能上还有10%的提升通过构建层间多尺度,实现更强特征表达,显著提升多种常见视觉分析模型性能 物体分类 语义分割 目标检测 实例分割 关键点估计 深度图项测Jittor上10%+能提升ResNetvs.Res2NetJResistANew,*a的akboneArchtKtxe,HETPAA17)|V|:1M-1OOM图2:图网络的3个示制近期,为应对全球新冠病毒CoVIeM9,亚马逊上海A1.实验空眼合其地合作伙伴刚刚完成了一项老药新用”的工作,构
11、建了大规模药物,定位知识的浸DPKG(DrugRepurposingKnsFedgeGraph),以及一套完!1的用于药物定位研究的机器学习工具,以便帮助相关斫究人员更右效的对新53病毒进行药物定位研究。用于计算某种现成的药和一和新的疾病之间是否存在某种关联,从而判断这科现成的薪是否可以硬用于治疗相惧的疾病(M3)c这项技术已经获得了广迁应用,并取得了初步成效。 11oftop41areunderc1.ina1.tria1.sforCond-19 Comp1.ete1.yopensource卜ISshjb4Qm11n4drUKCG图3:大理授为就亶定位知识BEi1.DPKdOugRcpurpo
12、singKnow1.edgeGraph)二、DG1.的开发过程、设计和性能DG1.从2018年初开始开发,至2018年底NeurIPS大会上正式次布了V0.1版本.2019年迭代了4个版本。一年半时间从一个学术界的科研成果转变为可以供产业界成用的壑架。目前最新的版本是VO43,预计今年内会发布V0.5版本,增加分布式训练功能,M1.-100kGCMCI0.02X012M1.-1MGCMC0.62540.470.0560103M1.-I0mGCMCI1.KSM0.6IH(XM!B6:DG1.5PyG的性能比DG1.的设计理念足框架中立(frameworkneura1.rty),即在模型中只处理最
13、少和或关里的部分(例如DG1.Graph),而不考意其余部分.例如自动求导、内存管理和稠密张量运算等都交给不同的平台处理。DG1.-开始也没在考启Fi己做精玳张量运算,经过实验,后期也寄希端张量运篝加入到了上述最少和最关键的都分。为了做到电架中立.模组在不同的也架下地起来有一些移植的工作量,理论上说性能叶会有区别,但DG1.做到了模型本身没再变化,而且性能影晌很小。DG1.的Pytordea:可坦合重用性(ComPoSabiMybPyToreh中的很多,埃(boCky都是可黛用的,在iSitH己的模型时候往往继承nnMode1.这一气性,而设计好的模型本身又是一个mode1.这种模块之间的复合
14、非常的容易,也可以很方便和其他人共享1.块:,丰富的工具片和生卷(RichEcosystemofToo1.sand1.ibraries卜PyTorch具有非常丰富的颈定文好的模IVY)Orttorchc1.sNt(torch.nn.Modu1.e):defIftic(se1.f):se1.f.fc1.torchnn.1.1.nearIBt6481.ffc2-torch.nn.1.ir(64.1)dfforward(81I9x:totch.t1.u(v1.f.Cc1.Iocwtd(Ix-torch.dropcut(9p-O.S)Xetorchsqtnoidse)f.fc2.forward(x)r
15、eturnx*iDc1.udvAtruetNet:?crnh:nn::du1.(:fC1.(8/1.tc2t,”(rcgistcr-Bou1.c(rc1.,:c1.);egicrodub.(.fc2);FCQch:Tensorforward(torch:Tenserx)IX-r(三:re1.u(fe1.forw1.rdforward(x)J;r,-ij:n:trch三:nns51.11arFc1.rfe2;PYTHON图2:PyTOrch模型定义的PythOn和C实现接下来我们来看一个简单的例子.通过PyTocch来定义一个简单的神经网络。S2是定义楂SJ的代码.可以看到模型率身是一个nn.M
16、oe四、怠结&答疑总结报告的内容,天元做浅度学习程架的核心设计理念是 具有强大的动静合一的计算图机制,更好的进行训练和推理. 灵活高效的机制,能等使它跑得更快: 认然推理一体化的方式,筒化Ift程: 面向大加槎分布式深度学习,这是A1.和汉度学习的未来。图11:横向Jr展的经济优2.5一站式深度学习平台OneBrain前面讨论比较多的是效率问题.一流科技除了解决效率的问M还矍解决黑用性和完备的同跳.即程架要在什么环境下去使用。一流科技提供了一套林常完整的一站式的深度学习平台,用K8S和docker管理各种各杵用户的作业.数貂集.横三!以及各种各样板架的镇像.i+B椎架费源管理图度学习OneFI
17、owTn*cW9图12OneF1.OW一站式深度学习平台三、OneFIoW的差异化优筠框架发展到圾在为止不到10年时间,也经历了一些迭代.前期主要是学术界在研发短架.到石面基本是工业主号,特别是从TensorFIow-蜕天下.我后面PyTorch匍起,现在到2020年还有什么可以发挥的地方?袁进辉认为这是每一位深度学习框策从业者震要思考的问题“xnet国13:深度学习车架叁点下面是3SI度学习根架市场份被的调用.都是采用第三方的调研数38.比Jf1.找工作最流行使用什么根柒.GtHub松架的使用情况,以及学术界发表论文使用桩架的情况,BJtt*SJPyTorchN本和TensorF1.ow用户
18、量不相上下。W14深度学习椎聚市场恰较从更梁的关摄用户揩标来说,袁道博认为最亶要的有三个维度一个是完漏Ij团用户您.要的名备号样工具是不是都有,训缄的、部署的、可视化的,推理的等等,另外一个是易用性.众所周知,PyTOrCh做得非常极致,但是还右一个技术挑StiRiW的维度还没有被攻克,那就是高效性.效率又分维设各效率和集群层面的效率。单设备效率更多的是在编译器层面,集群层面的效率就是横向犷展的效率,它主妾涉及分布式.分布式里面数据用亍相对来说是解决得比笠好的.但更大参数寓要的根0并行和淡水并行是现在开源框架还没解决的地方,一硼技想找的突破点是在这个地方.PYTbRCHmuBIiBnsorFt
19、ow图15:关健用户体助IS标下图是各个艳笑在完备性、易用性和高效性这几个维度上的优劣对比.袁进辉冷型OneFk2开浜之后给大家雷下的印象是它在效率上做得非常出色。OneF1.OW开源也在索伊接薮做准令,预计OneF1.OW在一个月之内就会和大家见面.食进理指出.一个新的框架需要有差异化的竞争优势,才有可能在市场上立足,图16:差弁化竞争优为什么OneF1.oW首先从效率上攻克代?袁逸超谈到,就像促珠辖Bfi玛修样,有两个路烧,一个是中IS境内的北坡,一个是尼泊尔的南坡,从北坡的中国境内刚开始较为容易,但是70米以上就非常因雄。南城在低高度处强风险,但再高一些就容易揩超。从柢架角度来说,Jf1
20、.黑从St率先入手,就有点像从南城去感.从完备性和易用性角度去攻克的话戟有点像从北展去爬.对比一下就有点像各个框架的高度现在是不一样的.TensorFIOWsIPyToPh配的高度是非常高的.OneF1.oW的高度现在是低的.但袁迸婷认为后面OneFkW比我的容品程度会好一些,相信有机会更早把到最高用17:OneFtoW从寓效性走向充番性最后,袁进蟀希里这个枢荣要交的开源社区的开发省去评价和彝达,也在行业一些公”的BenChmarte.歙像缰赛一样.很多常用的模批和很多常用的福架,可以放在搐台上进行比较,论输*是次要的,更要的是通过比较梃够在技木的发履上得到更多启发,最后逐未形成一个共识.比如
21、框架从易用角度来说是不是一定要像PyTorch这么去做.从效率角度是不是一定要像OneFtow这个角度去停.大家在技术上可以形成螺虚式的上升。四、结语袁道蟀的这番报告.向我)清晰地展示了一JR科技OneF1.ow怎样解决目前深度学习横向犷展遇到的第地。相比TenSXF1OW和PyTO案进辉:这个间IM常好.这个分两类.一类是CNNBERT哨实是10%,百分之几十的效率,动力不太大.后面提到的需要模型并行的场景,比如工业级广告推和.非常大规1的人脸识别.还有OPenA1.的GPT-3都是需要模型并行的.It于现有的开”电架来实现这个的戏度还是很大的。一方面是正眄性的问题,还有一个是效率问题,使用
22、OneFtoW相信会比改写已有的框架容易徂多,所以这个有一定的动力.再一个,在使用椎口上,W在越来越趋于一致了.比如大家发现PyTorch容易用.所以在Python层面大家都非常相像,而且中间层的表示大家也是非常相似的。所以在上层接口层面相信它是呈收敛趋势的,大家越来越像,据娘之间的迁移会越来越方便.这是我相信的趋势.附二:更多关于OneFIoW的参考资源30名工程师,历时1300天打造,又一“国产AI枢架开源了https%mp.wig.qq.co11Vs/XOIkGV1._dwzUOusHMz1u1.ATensorFIow和PyTorch迎来了“后浪.https:mp.Wfrtxnqq.coVMOP(QtjfSNkNnb9cUB36Q挑战TensorFIov/,PyTorch.6S,OneFIow有没有机会https:mp.We1.xingq.co11VsZ9JYPsb7exUgTr1.8EfpRYg中关村导刊,对一流科技进行报道https:mp.wexnqq.8VsStfbHUCFTAxtof11xan