《AI芯片产业生态梳理课件.ppt》由会员分享,可在线阅读,更多相关《AI芯片产业生态梳理课件.ppt(25页珍藏版)》请在三一办公上搜索。
1、AI芯片产业生态梳理,AI芯片产业生态梳理AI芯片产业生态梳理目录AI芯片分类1AI芯片产业生态2中国AI芯片公司3 42,目录,AI芯片分类,1,AI芯片产业生态,2,中国AI芯片公司,3,4,AI芯片分类从功能上分,Training训练,通过大量的数据输入或采取增强学习等非监视学习方法,训练出一个复杂的深度神经网络模型,涉及海量的训练数据和复杂的深度神经网络构造,运算量巨大,需要庞大的计算规模,对于处理器的计算能力、精度、可扩展性等性能要求很高,主要使用NVIDIA的GPU集群来完成,Google自主研发的ASIC芯片TPU2.0也支持训练环节的深度网络加速,Inference推理,利用训
2、练好的模型,使用新的数据去“推理出各种结论,如视频监控设备通过后台的深度神经网络模型,判断一张抓拍到的人脸是否属于黑名单。Inference的计算量相比Training少很多,但仍然涉及大量的矩阵运算。在推理环节,GPU、FPGA和ASIC都有很多应用价值。,可以分为Training(训练)和Inference(推理)两个环节,AI芯片分类从应用场景分,Cloud/DataCenter云端,在深度学习的Training阶段,由于对数据量及运算量需求巨大,单一处理器几乎不可能独立完成一个模型的训练过程,Training环节目前只能在云端实现,在设备端做Training目前还不是实际。在Infer
3、ence阶段,由于目前训练出来的深度神经网络模型大多仍非常复杂,其推理过程仍然是计算密集型和存储密集型的,假设部署到资源有限的终端用户设备上难度很大,因此,云端推理目前在人工智能应用中需求更为明显。GPU、FPGA、ASIC(Google TPU1.0/2.0)等都已应用于云端Inference环境。,Device/Embedded设备端,在设备端Inference领域,智能终端数量庞大且需求差异较大,如高级辅助驾驶ADAS、虚拟现实VR等设备对实时性要求很高,推理过程不能交由云端完成,要求终端设备本身需要具备足够的推理计算能力,一些低功耗、低延迟、低本钱的专用芯片也会有很大的市场需求。,可以
4、分成“Cloud/DataCenter(云端)和“Device/Embedded(设备端)两大类,AI芯片分类从技术架构分,通用芯片,GPUFPGA,基于FPGA的半定制化芯片,深鉴科技DPU、百度XPU(256核、基于FPGA的云计算加速芯片与赛灵思Xilinx合作),全定制化ASIC芯片,TPU寒武纪 Cambricon-1A等,类脑计算芯片,IBM TrueNorth、Westwell西井科技、高通Zeroth等,AI芯片分类象限图,Training,Inference,GPU,VS,Cloud/DataCenter,Device/Embedded,?,GPU/FPGA/ASIC,FPG
5、A/ASIC,AI芯片产业生态,Inference On Device设备端推理,Mobile,ADAS,CV,NLP,VR,Inference On Cloud云端推理,GPU,FPGA,ASIC,TrainingOn Cloud云端训练,GPU,ASIC,TrainingOn Device设备端训练,?,Training训练,CPU VS GPU 架构,Control,ALU,ALU,ALU,ALU,Cache,DRAM,DRAM,CPU,GPU,CPU和GPU比照说明,CPU架构,2007年以前,人工智能研究受限于当时算法、数据等因素,对于芯片并没有特别强烈的需求,通用的CPU芯片即可提
6、供足够的计算能力。Google Brain工程,使用包含16000个CPU核的并行计算平台,训练超过10亿个神经元的深度神经网络。CPU的串行构造并不适用于深度学习所需的海量数据运算需求,用CPU做深度学习训练效率很低,在早期使用深度学习算法进展语音识别的模型中,拥有429个神经元的输入层,整个网络拥有156M个参数,训练时间超过75天。在内部构造上,CPU中70%晶体管都是用来构建Cache(高速缓冲存储器)和一局部控制单元,负责逻辑运算的局部(ALU模块)并不多,指令执行是一条接一条的串行过程。,GPU架构,GPU整个就是一个庞大的计算矩阵,GPU具有数以千计的计算核心、可实现10-100
7、倍应用吞吐量,还支持对深度学习至关重要的并行计算能力,可以比传统处理器更加快速,大大加快了训练过程。GPU 由并行计算单元和控制单元以及存储单元构成,拥有大量的核(多达几千个)和大量的高速内存,擅长做类似图像处理的并行计算,以矩阵的分布式形式来实现计算。同CPU不同的是,GPU的计算单元明显增多,特别适合大规模并行计算。,通用计算GPUNVIDIA一家独大,2021年NVIDIA就开场布局人工智能产品,2021年发布了新一代PASCAL GPU芯片架构,这是NVIDIA的第五代GPU架构,也是首个为深度学习而设计的GPU,它支持所有主流的深度学习计算框架。2021年上半年,NVIDIA又针对神
8、经网络训练过程推出了基于PASCAL架构的TESLA P100芯片以及相应的超级计算机DGX-1。DGX-1包含TESLA P100 GPU加速器,采用NVLINK互联技术,软件堆栈包含主要深度学习框架、深度学习SDK、DIGITS GPU训练系统、驱动程序和CUDA,能够快速设计深度神经网络(DNN),拥有高达170TFLOPS的半精度浮点运算能力,相当于250台传统效劳器,可以将深度学习的训练速度加快75倍,将CPU性能提升56倍。,Training市场NVIDIA竞争对手Google,Training市场目前能与NVIDIA竞争的就是Google。今年5月份Google发布了TPU 2.
9、0,TPU(TensorProcessing Unit)是Google研发的一款针对深度学习加速的ASIC芯片,第一代TPU仅能用于推理,而目前发布的TPU 2.0既可以用于训练神经网络,又可以用于推理。TPU2.0包括了四个芯片,每秒可处理180万亿次浮点运算。Google还找到一种方法,使用新的计算机网络将64个TPU组合到一起,升级为所谓的TPU Pods,可提供大约11500万亿次浮点运算能力。Google表示,公司新的深度学习翻译模型如果在32块性能最好的GPU上训练,需要一整天的时间,而八分之一个TPU Pod就能在6个小时内完成同样的任务。目前Google 并不直接出售TPU芯片
10、,而是结合其开源深度学习框架TensorFlow为AI开发者提供TPU云加速的效劳,以此开展TPU2的应用和生态,比方TPU2同时发布的TensorFlow Research Cloud(TFRC)。,传统CPU/GPU厂家也进入Training市场,传统CPU/GPU厂家Intel和AMD也在努力进入这Training市场,如Intel推出的Xeon Phi+Nervana方案,AMD的下一代VEGA架构GPU芯片等,但从目前市场进展来看很难对NVIDIA构成威胁。初创公司中,英国Graphcore公司 的IPU处理器(IntelligenceProcessing Unit)据介绍也同时支持
11、Training和Inference。该IPU采用同构多核架构,有超过1000个独立的处理器;支持All-to-All的核间通信,采用BulkSynchronous Parallel的同步计算模型;采用大量片上Memory,不直接连接DRAM。总之,对于云端的Training(也包括Inference)系统来说,业界比较一致的观点是竞争的核心不是在单一芯片的层面,而是整个软硬件生态的搭建。NVIDIA的CUDA+GPU、Google的TensorFlow+TPU2.0,巨头的竞争也才刚刚开场。,Intel Xeon Phi+Nervana,AMD 下一代VEGA架构GPU芯片,Inferenc
12、e On Cloud云端推理FPGA应用,相对于Training市场上NVIDIA的一家独大,Inference市场竞争那么更为分散。业界所说的深度学习市场占比(Training占5%,Inference占95%),Inference市场竞争必然会更为剧烈。在云端推理环节,虽然GPU仍有应用,但并不是最优选择,更多的是采用异构计算方案(CPU/GPU+FPGA/ASIC)来完成云端推理任务。FPGA领域,四大厂商(Xilinx/Altera/Lattice/Microsemi)中的Xilinx和Altera被Intel收购在云端加速领域优势明显。Altera在2021 年12月被Intel收购
13、,随后推出了Xeon+FPGA的云端方案,同时与Azure、腾讯云、阿里云等均有合作;Xilinx那么与IBM、百度云、AWS、腾讯云合作较深入,另外Xilinx还战略投资了国内AI芯片初创公司深鉴科技。目前来看,云端加速领域其他FPGA厂商与Xilinx和Altera还有很大差距。,Inference On Cloud云端推理FPGA应用,Inference On Cloud云端推理ASIC应用,ASIC领域,应用于云端推理的商用AI芯片目前主要是Google的TPU1.0/2.0。其中,TPU1.0仅用于Datacenter Inference应用。它的核心是由65,536个8-bit M
14、AC组成的矩阵乘法单元,峰值可以到达92 TeraOps/second(TOPS)。有一个很大的片上存储器,一共28 MiB。它可以支持MLP,CNN和LSTM这些常见的神经网络,并且支持TensorFLow框架。它的平均性能(TOPS)可以到达CPU和GPU的15到30倍,能耗效率(TOPS/W)能到30到80倍。如果使用GPU的DDR5 memory,这两个数值可以到达大约GPU的70倍和CPU的200倍。TPU 2.0既用于训练,也用于推理,上一节已经做过介绍。国内AI芯片公司寒武纪科技据报道也在自主研发云端高性能AI芯片,目前与科大讯飞、曙光等均有合作。,Inference On De
15、vice设备端推理,设备端推理的应用场景更为多样化,智能手机、ADAS、智能摄像头、语音交互、VR/AR等设备需求各异,需要更为定制化、低功耗、低本钱的嵌入式解决方案,这就给了创业公司更多时机,市场竞争生态也会更加多样化,Inference On Device设备端推理智能手机应用,华为2021年9月初发布的麒麟970 AI芯片就搭载了神经网络处理器NPU(寒武纪IP)。苹果2021年最新发布的A11仿生芯片也搭载了神经网络单元。高通从 2021 年开场也公开了NPU的研发,并且在最新两代骁龙 8xx 芯片上都有所表达,,Inference On Device设备端推理自动驾驶应用,NVIDI
16、A去年发布自动驾驶开发平台DRIVE PX2,基于16nm FinFET工艺,功耗高达250W,采用水冷散热设计;支持12路摄像头输入、激光定位、雷达和超声波传感器;CPU采用两颗新一代NVIDIA Tegra处理器,当中包括了8个A57核心和4个Denver核心;GPU采用新一代Pascal架构,单精度计算能力到达8TFlops,超越TITAN X,有后者10倍以上的深度学习计算能力。Intel收购的Mobileye、高通收购的NXP、英飞凌、瑞萨等汽车电子巨头也提供ADAS芯片和算法。初创公司中,地平线的深度学习处理器(BPU,BrainProcessor Unit)IP及其自研雨果(Hu
17、go)平台也是重点面向自动驾驶领域。,Inference On Device设备端推理机器视觉应用,Intel收购的Movidius是其中的一家芯片提供商,大疆无人机、海康威视和大华股份的智能监控摄像头局部使用了Movidius的Myriad系列芯片。目前国内做计算机视觉技术的公司中,商汤科技、Face+、云从、依图等,未来有可能随着其自身计算机视觉技术的积累渐深,局部公司向上游延伸去做CV芯片研发。国内还有如人人智能、智芯原动等创业公司提供摄像头端的AI加速IP及芯片解决方案。,Inference On Device设备端推理其他应用,微软为自身VR设备Hololens而研发的HPU芯片,这
18、颗由台积电代工的芯片能同时处理来自5个摄像头、一个深度传感器以及运动传感器的数据,并具备计算机视觉的矩阵运算和CNN运算的加速功能;语音交互设备芯片方面,国内有启英泰伦以及云知声两家公司,其提供的芯片方案均内置了为语音识别而优化的深度神经网络加速方案,实现设备的语音离线识别;在泛IOT领域,NovuMind设计了一种仅使用33卷积过滤器的AI芯片,第一款芯片原型预计今年底推出,预计可实现耗能不超过5瓦进展15万亿次浮点运算,可以广泛应用于各类小型的互联网“边缘设备。,全新架构类脑计算芯片,类脑芯片:是指参考人脑神经元构造和人脑感知认知方式来设计的芯片,其目标是开发出打破冯诺依曼架构体系的芯片。
19、这一领域目前仍处于探索阶段,如欧盟支持的SpiNNaker和BrainScaleS、斯坦福大学的Neurogrid、IBM公司的TrueNorth以及高通公司的Zeroth等;国内Westwell、清华大学、浙江大学、电子科技大学等也有相关研究。总体来看,类脑计算芯片领域仍处于探索阶段,距离规模化商用仍有比较远的距离,全新架构类脑计算芯片,IBM的TrueNorth,2021年公布。在一颗芯片上集成了4096个内核,100万个神经元、2.56亿个可编程突触,使用了三星的28nm的工艺,,国内AI初创公司西井科技Westwell是用FPGA模拟神经元以实现SNN的工作方式,有两款产品:1、仿生类脑神经元芯片DeepSouth(深南),第三代脉冲神经网络芯片SNN,2、深度学习类脑神经元芯片DeepWell(深井),处理模式识别问题的通用智能芯片,,中国AI芯片公司,谢谢观赏,谢谢!,