手机主流处理器CPU参数及性能的总论(暨高通,联发科,ARM.docx

资源描述

《手机主流处理器CPU参数及性能的总论(暨高通,联发科,ARM.docx》由会员分享，可在线阅读，更多相关《手机主流处理器CPU参数及性能的总论(暨高通,联发科,ARM.docx（58页珍藏版）》请在三一办公上搜索。

1、从2007年iPhone发布开始，手机开始迈入真正的智能时代。处理器从最早的ARM11 400MHz一路飙升；2008年我们拥有了ARM11 533MHz；2009年进化到Cortex A8 400MHz；2010年则瞬间提升至Cortex A8 1GHz；2011年，双核Cortex A9 1.2GHz开始普及；2012年，四核Cortex A9 1.4GHz出现.智能手机处理器的运输能力几乎以每年2.5倍的速度在提升。如果以平台的寿命来看，ARM9平台大约拥有5年的寿命，ARM 11为4年，在这之后，Cortex A8在主流市场坚持了一年半，而单核Cortex A9被直接跳过，双核Cort

2、ex A9一年、四核Cortex A9也是一年。为何市场会出现如此强大的推动力，让企业可以集中全行业的技术和利润，去疯狂推动一台小小的手机疯狂升级？最主要的原因是因为手机本身的定位发生了变化，过去大家需要用PC实现的应用和功能，如今都开始往手机上转移，这是推动手机硬件爆炸发展的原动力。这样的需求转变给手机带来了无穷无尽的性能需求，也催生了手机的大屏化我们需要呈现越来越多的信息，手机的屏幕自然就要同步增大。第一轮洗牌的赢家是苹果（必须承认的是，即便没有苹果，这个时代依然会到来，因为硬件性能的提升是客观存在且不会停止的）。然而，硬件规格大幅提升之后，伴随而来的是同样大幅增加的功耗和发热。疯狂的硬件

3、军备竞赛催生出了智能手机的黄金时代，也给整个行业埋下了定时炸弹，一场危机近在眼前。“安装飞机发动机的自行车”如果我们给奇瑞QQ轿车安装1000马力的发动机，可以获得与超级跑车相近的性能吗？答案是否定的，因为奇瑞QQ的车体根本无法承受这样的动力输出。同样的道理，我们把英特尔酷睿i7处理器装在手机上也没有意义，因为手机根本无力承担它的功耗。在这个层面上，我们是理性的，厂家也是理性的，至少在相当长一段时间内是这样。然而，这部分理性如今却在逐渐消失。一个被业内视为默认规则，而听起来又异常奇怪的现象是：2012年之后的旗舰智能手机，没有几台能让CPU做到长时间满负荷工作不降频。厂商不断地往手机里塞入更快

4、、更强大的硬件，与此同时，却不得不限制它们的工作频率与工作时间。你看到的产品手册上赫然写着“四核1.7GHz”，但实际使用中你永远无法得到这样的性能。这方面的例子比比皆是，从Nexus 4冷柜跑分暴涨30%，到K3V2的GPU频率缩水6成，大多数旗舰手机都无法发挥出它应有的性能。来自Anandtech的著名测试：把Nexus 4扔进冰箱，结果跑分提升了20%以上！根据第三方测试，目前的旗舰手机能以最高频率工作的时间少则数十秒，多的也只有几分钟，之后便不得不降低频率以缓解发热。消费者听着“性能提升xx%”的宣传，花费高额费用抱着“四核1.7GHz”的手机回家，却只能享受30秒的快乐，这难道不是一

5、种讽刺？往一台手机里安装根本无法全速运行的“强大”处理器，与开头提到的往奇瑞QQ上安装1000马力的发动机有什么区别呢？下面的表格是一个实例：LG为Optimus G Pro配备了强大的骁龙600处理器，但持续高负载工作3分钟后，实际性能却不如搭载了上一代APQ8064芯片的SONY Xperia Z。配置更高的新产品，在实际使用中却输掉了“性价比”，我们得到了配置，却没有得到性能。你也许会说，反正价格没有更贵，能不能全速没啥损失，但这样的观点也是错误的。记住：你永远是在为手机的标称性能埋单，而不是为实际性能埋单。八核手机即使只能发挥出四核手机的性能，它的价格也是“八核”级别的。硬件上所有的成

6、本最终都会以各种形式转嫁在消费者身上。问题是：我们为什么要为发挥不出来的性能埋单呢？这样的趋势在2013年乃至更远的未来并没有缓解的迹象。作为消费者，我们必须要明确自己的立场：这种趋势是错误的，我们有必要制止它进一步恶化！否则我们所付出的金钱将只能换来几个纸面上的数字，而“安装飞机发动机的自行车”迟早有一天要到来。然而，指出错误很简单，纠正错误却很困难。如果无法得到一个对于正确的评价标准，那么对于未来的分析也就没有意义，这就启发我们去寻找一些不会被技术所改变的东西，作为衡量正确与错误的标准。接下来，我们将提出一个相对客观的评价标准，并以之为准绳，对2013-2014年市面上主流的手机处理器进行

7、逐个分析。“不可逾越之墙”什么是技术所无法改变的事物？对于智能手机而言，一是客观存在的物理定律，二是人的生理需求。因为本文的主题是处理器，因此我们把目光集中在处理器系统上。可以确定的是，只要技术还没有进步到手机可靠意念操作，那么人体对设备温度的可以接受上限就是确定的；而只要手机还符合物理定律，在一定温度下它所能散发的热量也是固定的（不考虑主动散热，例如内置风扇），这就勾勒出了一条“生死线”在舒适的前提下，一个确定尺寸的手机，所采用的硬件功耗，或者说处理器系统的功耗是有极限的，只要超越这条线，就必须要降低工作频率，否则将会无法阻止温度的上升，性能自然也就无从谈起。因此我们认为，“手机的极限功耗不

8、应该超过其最大可散热功耗”可以作为衡量产品的准绳。长久以来，业界都习惯于用配置和价格的关系作为评价标准，但是如果联系到配置与性能脱节的现实，这个标准已经濒临失效，因此我们需要提出一个新的评判标准，不妨姑且将其称为“体效值”。何谓体效值？我们将体效值定义为设备体积与能耗系数的乘积，它代表了一台手机所可以连续提供的极限性能。将这个参数与理论最大性能联合评价，能得出以下的结论：如果系统的体效值小于最大性能，那么这套系统就必然是错误的，因为存在着浪费。但是如果体效值大于最大性能，那么这套系统有可能陷入“性能不够用”的疑问。最佳情况是体效值和最大性能相同，这意味着这套系统所蕴含的性能可以全部发挥，做到了

9、设计可以得到的极限。你可以把“体效值”简单理解为“每瓦特性能”。手机绝对性能的测量相对简单，因此体效值中最关键的部分是“体”，即手机体积所能容纳的最大功率。这方面目前没有明确的行业标准，因此我们需要做一些假设。首先，我们假设在现在以及将来的一段时间内，手机将主要依靠外壳进行被动散热，不会像电脑一样引入风扇等主动散热手段。其次，我们将人体感温度舒适上限设为40度，而耐受极限设为50度。最后，我们将手机工作时环境温度设为25度，并且假定没有气流存在。无外界对流时，手机的热量散发主要依靠空气的自然对流与本身的辐射。假定手机的温度为介于舒适上限与耐受极限之间的45度，那么与环境温度的差值即为20度。相

10、对于手机这个体积的设备而言，四个边侧面的散热贡献可以忽略不计，主要的散热面为前后两个面。计算时假定手机为垂直放置。下面计算开始，首先计算对流散热量，我们选择iPhone 5作为标准对象。iPhone 5的尺寸为123.858.67.6毫米，因此正面的面积为0.0073平方米。垂直放置的情况下，iPhone 5一个正面的传热系数为4.65W/(m2)，也就是说这样一个表面可以靠对流散发的热量是0.68W，由于有两个表面，因此靠机身自然对流可以散发的热量为1.36W。考虑到还有侧边的存在，我们可以认为这个功率是1.5W。接下来计算辐射热量。由于iPhone 5的材质是铝合金和玻璃，氧化铝合金的辐射

11、率大约在0.3左右，而玻璃的辐射率大约是0.85，因此整体辐射率取0.6，那么在外壳温度整体为45度的时候，靠辐射可以散发的热量经过计算大约是1.16W。也就是说，一台通体45度，垂直置于静态25度的环境中的iPhone 5，可以散发的热量极限是2.66W。实际环境中，考虑到用户体验，手机不会也不可能做到整机均匀发热，这无疑会降低手机的散热能力，但由于人体与手机的接触也可以带走一定的热量，因此两者互有增减，相信整体的散热功率不会与计算数值差距过大。因此，大约2.66W就是iPhone 5所能承受的最大整机功率（这里直接使用了整机功率，这是因为目前电子产品除了天线部分以外，消耗的电能绝大部分都转

12、化成了热量，耗电量和发发热量基本相等）。再来看看Galaxy S4。由于计算的方式是相同的，因此过程就不给出了，唯一的不同是，作为塑料外壳的Galaxy S4，在热辐射效率上要远高于铝合金的iPhone 5，具体来说在0.9左右（看来塑料机还是有一些好处的）。结果直接给出，Galaxy S4在同等条件下的散热量为4.15W。Galaxy S4旗舰安卓手机的代表，因此更大尺寸的机器我们就不计算了。结果显而易见，对于iPhone 5这种尺寸的手机而言，系统的极限功率是2.66W，而Galaxy S4尺寸的产品则为4.15W。体积处于两者之间的产品，散热能力则介于它们之间。至此，体效积中的体就已经有

13、了结论。因为这个参数是不会因为技术提升而改变的，所以它可以作为我们判定未来新技术与新可能的良好标准。也就是说，对于一台5寸手机而言，我们可以得到的最大性能就是4.15W每瓦特性能，不论这台手机的理论性能有多么强大。换句话说，只要一台5寸手机的整机最大功耗超过了4.15W，那么我们就一定可以判定：它的性能无法发挥。进一步的，对于一台手机而言，屏幕所占据的功耗大约从4寸的1.2W到5寸的1.8W不等，因此我们可以得出，极限散热功耗中，留给CPU、GPU、内存等计算系统的功耗上限，对于iPhone 5尺寸的手机而言是1.5W左右，对于Galaxy S4尺寸的手机而言是2.5W左右。需要说明的是，在计

14、算散热量时，我们所关注的对象是手机外表面，至于内部是如何传热的，对结果不会有影响。可能你会存在疑问，某手机内含热管，某手机拥有石墨散热膜，散热要好得多这是错误的，辅助散热措施只是增加了手机内部的热传导效率，最终效果是提高手机整体的温度均匀性，而我们在计算的时候已经假定了这个数值是100%，也就是内部热传递设计为完美状态的极限结果。至此，我们可以对智能手机“核战争”带来的问题给出一个精确的描述：由于近年来手机配置的疯狂提升，导致手机的最大性能已经超越了体效值。这个前提下，任何理论性能的提升都是纸面的，功耗已经成为了一堵不可逾越的墙。在可以预见的未来，如果我们希望继续提升手机的性能，那就只能在能耗

15、系数上下功夫。带着这个结论，让我们来重新审视一番市面上的主流手机处理器。产品审查：高通骁龙800首先我们来看一看高通。之所以首先观察高通，是因为相对而言高通的产品是变化幅度最小的，因此我们可以借用的历史数据就最多。在四核处理器上成文时，高通的最新产品是S4 Pro APQ8064。而在我们撰写本文时，高通重新命名了它的产品线，S4 Pro有了继任者骁龙600。这是一颗和APQ8064区别很小的芯片，最大的提升在于内存从双通道LPDDR2 533变成了双通道LPDDR3 1066，因此我们不打算深究这颗芯片。高通的重头戏，以及下半年乃至明年的主打，将是骁龙800。它拥有改进后的Krait 400

16、核心，主要改动是调整了内部缓存架构，降低异步设计带来的影响。同时，骁龙800引入了HPM工艺，主频达到了2.3GHz，成为手机SoC中的一个超过2GHz大关的产品。除此之外，骁龙800还集成了新的Adreno 330 GPU，性能与规模再次翻倍。文件压缩速度，骁龙600的Krait 300内核同频性能甚至不如Cortex A7相信看过之前的文章后，现在的你已经不会被上面充满诱惑力的宣传所击倒。是的，我们再次重复一遍：绝对性能的提升没有意义，决定用户体验的是体效值，或者说每瓦特性能。那么骁龙800的每瓦特性能有没有提升呢？首先我们来看一看CPU部分。由于缓存的增强，Krait 400核心的执行效

17、率必然会得到一定的提升，但是Krait核心从本质上来说依然是一个“增肥”版的Cortex A9，它所面对的最大问题其实是由于指令队列的不足，导致架构的IPC受限。Krait的后端就像是规模巨大的工厂，而经过持续的升级，Krait的前端已经从小港口变成了大型码头但是连接它们的依然只是一条省道。这样的架构也许可以在理论测试中获得极高的成绩，但是在实际变幻莫测的应用代码面前，往往无法发挥应有的效率，根据某些第三方测试，在诸如视频解码、文件压缩与解压缩等应用中，Krait 300核心的同频性能有时会不如Cortex A9甚至A7。这虽然不足以定性的给这个架构下结论，至少也可以说明一部分的问题。因此，综

18、合来看，Krait系列核心的能耗，恐怕是比较悲观的，即APQ8064的执行效率并不如Cortex A9，Krait 400核心虽然经过了两次升级，但是考虑到Krait 300的实际表现，我们认为其执行效率至多只能达到略高于A9的水平。也就是说，Krait 400架构效率上并没有大幅超越Cortex A9。那么产品效率呢？在这之前笔者需要稍微岔开一些话题。不知道你是否发现，我们在对比效率的时候往往都会和Cortex A9相比，准确来说是和SAMSUNG Exynos 4412相比。为何要用它作为基准？这并不是因为偏心或是对于三星有着额外的好感，原因很简单，那就是根据之前我们对手机极限功耗的定义，

19、在那样的功耗限制之下，Exynos 4412是体效值与绝对性能之间最接近的产品：Exynos 4412的核心，工作在1.4GHz时单颗功耗约为440mW，1.6GHz约为600mW，总功耗即为1.8W与2.4W。因此Exynos 4412是一个极好的标准如果有产品的效率比4412高，它就可以发挥出比4412更加优越的实际性能，否则就只能在降频中工作。在骁龙800以外的产品中，高通采用的是28LP SiON/Poly工艺，这会导致漏电增加，继而降低能耗比。在上篇中我们引用外媒Anandtech的结论，得知28LP工艺的骁龙APQ8064，运行在1.5GHz的频率下，单个核心的功耗大约是700mW

20、。而到了骁龙800，高通终于引入了先进的HKMG技术，将工艺更换为了28HPM。那么，这个工艺是否能提升骁龙800的能耗比？根据TSMC对于28HPM的工艺描述，我们认为这个答案同样也许是比较悲观的，因为28HPM本质上是用来提升性能的工艺，它的主要目的是让骁龙800得以运行在使用28LP的骁龙600所无法达到的高频下，但是处理器本身的漏电并不会因此而减小。台积电四种28纳米工艺的区别我们粗略估计，运行在2.3GHz下的Krait 400核心，即便只考虑频率的提升，单个核心满载的功率也将超过1W，四核心的总功耗则会远超2.5W的散热功耗上限。至于能耗比，在低频段，骁龙800的能耗比也许可以略超

21、龙600，但是总体来说我们并不认为骁龙800在CPU部分的能耗比会大幅领先于Cortex A9，也就是说骁龙800的体效值将明显小于极限性能。按照我们之前的分析，骁龙800在手机上的长期性能表现就将不会比Cortex A9提升太多（短期性能表现，例如基准测试，会因为设备的热容以及温度滞后效应而大幅提升，但是只要工作足够长不超过三分钟的时间后，性能将会降低到Cortex A9水平）。使用工具监控骁龙APQ8064的CPU频率变化，运行2分钟以后，CPU频率降低到了1GHz以下那么GPU部分呢？这方面的问题可能会比CPU更加严重。高通Adreno 300系列GPU的超低能耗比已经是众人皆知的问题，

22、其严重程度远超CPU。由于GPU相对于CPU而言是低频大规模电路，因此它对于漏电的敏感程度要远高于CPU，对于频率的敏感程度则不如CPU。骁龙800所集成的Adreno 330相对于Adreno 320而言规模提升了一倍，因此功耗的提升幅度自然也不会小到哪里去，我们假定Adreno 330可以借助HPM工艺，完全避免功耗的提升，它的能耗比能有多高？使用工具监控骁龙600的CPU频率变化，Krait 300核心根本无法维持全速工作对于这个问题，我们可以通过一个粗略的测试来判断。Galaxy S4和配备了骁龙600的手机，在3Dmark中的得分基本是相同的，但是根据耗电量得出的整机功耗估值方面，G

23、alaxy S4所具备的SGX544MP3 GPU的功耗几乎只有Adreno320的15%甚至更低，换句话说就是SGX544MP3的能耗比几乎是Adreno330的7倍实际上，根据粗略测试的结果，Adren 320的功耗已经达到了大约6W，不论这个数字是否精确，Adren 320早已远远超过了2.5W，甚至4.15W的散热功耗极限。性能翻倍dreno 330即使维持功耗不变，也将和CPU一样，在实际工作中也将永远不可能发挥出其最大性能，它的体效值同样远远小于理论最大性能。最终，我们对于骁龙800的预期表现是比较悲观的。我们认为，在CPU部分，配备骁龙800的产品，并不能让用户得到远超四核心Co

24、rtex A9如宣传、测试以及参数上那样的实际体验，而GPU方面则更会远远不如SGX544MP3，不论理论测试有多么强大。骁龙800并没能有效提升能耗比，因此装有骁龙800的产品，其体效值将远远小于宣传的性能，作为结果，消费者购买的大部分参数和数字，将会永远停留在纸面上当然，还有基准测试软件里。产品审查：Tegra 4与Tegra 4i虽然都属于Tegra 4家族，但是实际上Tegra 4和Tegra 4i的核心并不相同：前者基于Cortex A15，而后者基于改进版Cortex A9。对于后者我们不会多加论述，我们将主要关注前者。如同Tegra3，Tegra 4也引入了nVIDIA自行设计的

25、vSMP 4+1技术。因此对于Tegra 4的效率分析，将会分为两个部分：4核部分与附加单核部分。首先是4核部分。Tegra 4的所有核心都是典型的Cortex A15架构，工艺使用了TSMC 28HPL，因此对于这一部分的分析我们可以找到一个极好的参照物，那就是Nexus 10所配备的Exynos 5250。后者是一枚双核Cortex A15、32nm HKMG LP工艺、工作频率1.7GHz的SoC。根据已有的测试结果，Exynos 5250的CPU功耗为4W，也就是说单核功耗为2W。这项对于Exynos 4412的440/600mW而言是一个相当大的数值，这也意味着Cortex A15的

26、性能必须要四倍于Cortex A9，才可以维持效率的一致。NV做到了吗？很明显，也很遗憾，没有。Cortex A15的性能提升幅度远远没有功耗提升幅度大，两者之间的差距导致了Cortex A15的每瓦特性能相对于Cortex A9来说有着至少一半的下降。那么回头来看看Tegra 4。由于核心是相同的，我们只需要对比工艺。TSMC 28HPL相对于三星32nm HKMG LP，究竟有没有性能和漏电方面的提升我们很难判断，但是大体上两者属于同一时代的同一水准工艺，相信差距并不会过大，我们假设台积电的28LP工艺总体能耗比三星降低30%这已经几乎是同一代工艺可以存在的最大差距这也远不足以抵消Cort

27、ex A15和Cortex A9近乎200%的差距，更何况Tegra 4的主频高达1.9GHz，这进一步降低了它的功耗可以低于2W/核心的可能性。这也就意味着，即便只有一颗核心工作，Tegra 4的功耗就已经逼近了4寸手机的散热功耗极限，而四核同时工作，如果不加限制，CPU部分的总功耗必将轻松突破8W。Tegra 4功耗有多大NV很清楚，所以给自家的Shield游戏机装上了风扇！既然能耗比如此之低，那么技术有何改变、理论性能有何提升、在哪里提升就完全没有意义了。在手机上，Tegra 4的四枚Cortex A15所能发挥出的长期性能，除了极少数情况下，可以几乎肯定的说，将远不如一个设计优秀的四核

28、Cortex A9处理器。那么辅助的拌核部分呢？NV没有公布拌核的细节资料，我们假设它工作在1GHz，由于HPL工艺带来的低漏电，预计可以让这枚核心的功耗降低到0.6W左右，大约等同于一颗1.6GHz的Cortex A9。在这个工作条件下，Cortex A15的能耗比和Cortex A9比较接近，因此它们具备了接近的体效值。但是此时的Tegra 4，绝对性能只有四核Cortex A9的四分之一，体效值远远高于绝对性能，这也就意味着此时的Tegra 4会因为过慢而无法满足用户需求。综上所述，Tegra 4不论在哪个模式下，所能提供的最大性能都难以超越四核心Cortex A9处理器，把这样一颗处理

29、器做进手机唯一的意义也许只有一个想方设法让手机坚持满载运行三分钟，跑出一个惊世骇俗的基准测试分数，给手机发烧友作茶余饭后跑分攀比的资本，就好比购买超级跑车上下班，除了炫耀以外没有任何意义。至于Tegra 4的GPU部分，由于目前资料较少，所以无法给出分析对比。当然我们也需要明白，Tegra 4的悲剧并不全是由于Tegra 4本身或是nVIDIA的技术实力导致的，究其根本，元凶还是Cortex A15核心过低的能耗比。这也决定了不仅是nVIDIA，其他任何试图在产品中引入标准Cortex A15架构的厂家，例如未来的华为海思K3V3，最终都将难逃“性能超不过A9”的魔咒。对于手机等便携式设备而言

30、，Cortex A15毫无疑问是一个失败的设计，也无怪乎高通和苹果在几年前就决定放弃这个架构，自行以Cortex A9为基础发展自己的强化核心。这也从另一个方面看出，至少在目前可以看到的ARM产品中，Cortex A9依然是可以提供最强实际性能的产品，即便它已经问世超过了2年。最后提一下Tegra 4i。相信NVIDIA规划这样一个产品，也是因为NV实际上非常明白Cortex A15是一颗怎样的核心。因此，我们甚至可以理解为，Tegra 4i才是针对手机市场所推出的高性能产品。改进的Cortex A9 r3p1核心可以带来最多15%的同功耗性能提升，也就是更高的体效值与实际性能。但是Tegra

31、 4i却如同骁龙800一般选择了HPM工艺，并且因为需要集成基带而无法在2013年上市，这对于Tegra 4i和NVIDIA而言无疑是彻头彻尾的悲剧，尤其是如今Cortex A12箭在弦上的情况下。如果说Cortex A15可以看作ARM在被成功冲昏了头脑之后的大跃进，那么后者就可以看作是ARM在大跃进失败后的反省之作，肩负了Cortex A9正统继任者的使命。对于它，我们在后面予以讨论，这里暂不多言。产品审查：三星Exynos 5 Octa最后来谈一谈技术最为复杂，同时争议也最大的三星Exynos 5 Octa（Exynos 5410）。这个芯片最大的特色就是整合了ARM的big.LITTL

32、E技术，内部集成了8个核心四个Cortex A15为一组，四个Cortex A7为一组，从而成为了手机上第一枚超越四核的片上系统。也许你会提出质疑，NV的Tegra 3和Tegra 4实际上也拥有5个核心，为什么它不能算作是五核SoC呢？原因很简单，因为Tegra多出来的那一枚核心其实设计上是作为四个主核心其中之一的映射，在实际工作中系统是识别不出这一颗核心的。但Exynos 5 Octa不同，它的八颗核心在某些情况下是可以同时运行的，因此可以称之为八核SoC，虽然实际情况下这样的工作模式不一定会被用上，关于这点，即Exynos 5 Octa是否是伪八核，同样也是围绕这颗芯片的众多争议中最大的

33、一个，对此后面我们会详细讨论。除了big.LITTLE以外，Exynos 5 Octa本质上是一颗非常典型的处理器，它拥有标准的Cortex A15核心、标准的ARM系统IP，支持的规格与系统配置也一如三星以往的风格，顶级而不顶尖。LPDDR3 1600的内存支持与12.8GB/s的理论带宽在手机SoC中实为翘楚，而PowerVR SGX544MP3运行在533MHz的高频下，假如不考虑信息尚不明确的Tegra 4，性能也足以进入ARM世界的前三：仅次于iPad4的SGX554MP4和骁龙800的Adreno 330。工艺方面，三星使用了自家最新的28nm HKMG LP，根据三星的宣传资料，

34、相对于32nm HKMG，28nm HKMG主要的提升在于集成度，也就是单位面积下可以实现更多的晶体管，提升幅度大约在35%左右。至于漏电等工艺性能，我们有理由认为不会和32nm HKMG，也就是上一代的Exynos 4412所采用的工艺有太大的差别，具体原因在上篇中我们也多有提及。三星32nm HKMG实际上是一个性能相当强悍的工艺，Exynos 5 Octa的基础至少也是有所保障的。不过，如同之前说过的，Cortex A15本身不是一个利于手机使用的架构，只要把它做进手机，都要面对功耗难题，三星也不能例外。Exynos 5 Octa的最高频率目前并没有明确的说法，也许会在1.7到1.9GH

35、z之间，但我们知道的是，在Galaxy S4上，Exynos 5 Octa的最高频率只开放到了1.6GHz。1.6GHz的标准Cortex A15核心满载功耗不会低于1.8W，三星即使经过大量优化，Exynos 5410四颗A15核心的总功率也依然要在6W以上，这大大超越了2.5W乃至4.15W的散热极限。实际情况可以作为这个推断的最佳例证：Galaxy S4的CPU满载工作的时间只能达到区区10秒，之后就不得不因为核心温度突破90度而被迫关闭Cortex A15核心。Exynos 5 Octa是一个明显的市场导向产品，三星在设计它的时候，考虑优先点是市场对于参数的需求，而完全不顾这样规模的硬

36、件是否可以安全的工作。当然，作为应对，ARM提出了big.LITTLE，三星也将其引进到产品中，但是这样的行为并不能本质上改变这个设计的失败之处。有人也许会说，这不是很好吗，何来失败？那就让我们继续研究下去。现在让我们来打个赌：如果你是Galaxy S4八核版的用户，你绝对会有这样的体会：Exynos 5410处理器主频在实际运行中非常不稳定，低于标称的1.6GHz是常态。在Exynos 5410中，Cortex A15四核的最低工作频率是1.2GHz，而Cortex A7四核的最高工作频率也是1.2GHz。问题是，这两者的同频性能并不一样，导致以频率为控制参数的算法比较难写。于是三星在系统中

37、将Cortex A7的有效频率显示为实际频率的一半，并以此作为控制参数，就实现了较为线性的频率性能曲线。运行5秒钟以后，猎户座5处理器的A15核心即开始降频也就是说，只要你看到Exynos 5 Octa的工作频率是1.2GHz以上，就意味着现在是Cortex A15在工作，而600MHz则意味着Cortex A15已经关闭，系统已经切换到1.2GHz的Cortex A7。由于频率调节十分频繁，所以这给我们计算Exynos 5 Octa的效率带来了一定的困难，不过我们依然可以从实际工作的情况下对于极限性能给出近似的计算。Exynos 5410 CPU + GPU同时满载的情况，注意下方的频率曲线

38、enet的测试结果显示，在满负荷工作的时候，Exynos 5410的工作模式大约如下：Cortex A15于1.6GHz工作6秒左右，于1.2或1.4GHz工作4秒左右，然后切换到1.2GHz的Cortex A7工作10秒左右，并且在这样的序列下循环。由于频率调节的目标是功耗以及温度，因此我们可以近似认为在这样的工作序列下，处理器系统的平均功耗大约是2.5W左右。如果将Cortex A15的性能归一化为同频Cortex A9的1.5倍，Cortex A7为0.7倍，因此我们可以得到在这20秒内，Exynos 5 Octa所输出的总性能相当于四核Cortex A9运行在1.53GHz时的性能。也

39、就是说，Exynos 5 Octa所能提供的持续性能，甚至还不如Exynos 4412，因为后者在2.5W的功耗限制下可以运行在1.6GHz。当然，这个结论有些粗略，我们只验证了基准测试时猎户座5处理器的CPU频率变化，实际应用中可能有所不同，但有一点可以确定，那就是Exynos 5410在手机上可以发挥的性能远远低于硬件设计的极限性能。Cortex A7与Cortex A15联合的效率，大约和Cortex A9不相上下，这也就意味着配备了Exynos 5 Octa的设备，其体效值并不会比Exynos 4412高。然而，这并非Exynos 5 Octa的最佳工作模式。ARM big.LITTL

40、E技术其实包含有三种工作模式：整体迁移、非对称多核心与异构多核心。整体迁移模式指Cortex A15或Cortex A7轮流工作，两者无法同时激活，具体开启的核心数字根据系统负载决定。非对称多核心则是将Cortex A15四核簇和Cortex A7四核簇看作两组非对称多核心簇，依靠外部总线工作在异步模式下，从而启动所有的八个核心。而第三种是最诱人的，也就是将每一个A15与A7组合成为一个“处理器对”，将其看作一个单独的处理器，系统根据需求开启若干个“处理器对”，而每一对处理器究竟使用Cortex A15还是Cortex A7，完全根据该核心的负载决定。从理论上来说，Exynos 5 Octa支

41、持全部的三个模式，但是三星目前在系统中却只支持了第一种模式，产品中的工作模式也只有整体迁移。这导致一些人认为三星这颗CPU的技术开发尚未完成，是“半成品”，因此并没有实现最佳的工作效果。甚至有一些分析表示，这是源于Exynos 5 Octa的硬件设计缺陷导致的，需要在未来的产品中才能修复。对此，我们认为这样的说法既是对的，也是错的。为什么这样说？前提是，单纯的降低功耗并没有意义，只有提升体效值才可以获得更强的性能。对于Exynos 5 Octa而言，其他的两种工作模式似乎可以降低功耗，但可以提升每瓦特性能吗？这是一个未知数，而且是一个相当不容乐观的未知数，原因之一就在于Exynos 5 Oct

42、a的两组处理器，二级缓存的大小不同。根据架构图，Exynos 5 Octa的Cortex A15部分，二级缓存为2MB，而Cortex A7部分只有512KB。如果是Cortex A9时代，这并不是问题，因为所有的二级缓存都是靠总线实现的访问。但是在Cortex A15和A7时代，ARM为了提升缓存效能，将L2 Cache整合进了多核心控制器SCU中，它的坏处就在这里：一旦系统内同时存在着激活的Cortex A7和Cortex A15，那么由于二级缓存的大小不同，两组核心之间的联合工作将会变得非常麻烦。二级缓存是内存的映射，所以所有核心所访问的二级缓存的数据必须完全相同。Cortex A15和

43、Cortex A7各自拥有自己独占的二级缓存，当两者协同工作时，缓存是无法共享的，维护两组L2之间的数据一致性会变成一件非常重要同时也非常影响性能的事情。高通的异步架构之所以有性能损失，一致性开销就是其中很重要的因素之一。在Exynos 5 Octa中，两组A15和A7核心的二级缓存大小不同，这就意味着即便是在最好的情况下，也会导致Cortex A15处理器簇的有效L2从2MB缩减到512KB，这对性能的影响极为巨大。所以，三星选择了只实现第一种工作模式。在这个模式下，缓存一致性无需维持，只需要在切换时通过内存将缓存数据复制即可（A7到A15可以视作部分填充，而A15到A7可以丢弃超出512K

44、B的部分），甚至可以更简单的直接丢弃L2数据，令其重新填充。因为相对于联合工作所需要的一致性维护需求（其频繁程度与缓存命中率相关，可能只比处理器时钟频率低23个量级）而言，由于动态频率控制导致的核心切换要少的多，至多只有每秒百次的水平，因此这样的损失是最少的，换句话说，另外两种big.little模式虽然看起来更美好，但实际上反而会导致系统效率的降低，从而进一步降低搭载Exynos 5 Octa设备的体效值，使其变得比Cortex A9更慢。从这个意义上说，如果你需要一颗手机处理器，至少在CPU部分，Exynos 5 Octa实际上相对于Exynos 4412而言是倒退的。这无疑是对于畸形市场

45、需求的最佳打脸：超高的规格，强大的指标，性能却在偷偷的后退，不知道这到底迎合了谁的需求。当然，Exynos 5 Octa也不全都是坏处。由于LPDDR3的引入，翻倍的内存带宽可以极大提升系统在日常使用中的感受，因此总体而言Exynos 5 Octa的体验不会有之前评价的那么悲观，只是会距离你所认为的强大相去甚远罢了。至于另一个好处则来源于PowerVR SGX544MP3这枚GPU。就如同PC一样，手机对于GPU的需求也慢慢超过了CPU。不客气的说，现在的日常需求，一枚四核心Cortex A7就可以满足了，但是游戏所需要的性能却是永无止境的。在Exynos 4210“猎户座”刚刚发布的时候，M

46、ali400MP4几乎可以满足所有游戏，这枚GPU不仅速度飞快，而且极为省电，能耗比相当高。但是随着手机游戏的进步，在Exynos 4412上这枚GPU已经显出了疲态。三星在Exynos 5 Octa上作出更换GPU的决定非常及时。Exynos 5 Octa的3D性能达到了目前手机处理器的顶级水平，在日常使用中你有很多机会可以体验到它带来的提升。根据粗略测试，搭载Exynos 5 Octa的Galaxy S4在运行3Dmark的时候，整机功耗不会超过2.5W，这也就意味着这枚GPU的满载功耗将不会超过1.5W。这无疑是一个非常振奋人心的数据，这意味着PowerVR SGX544MP3在维持了M

47、ali 400MP4能耗比的基础上（严格来说仍然有一定的下滑，但是远远高于继任者Mali T604）将其的最大性能扩展了几乎四倍，这样的提升才是符合用户需求的提升。对于这样的进步，我们需要高举双手给予掌声。新一代处理器性能对比分析虽然说我们之前通篇都在论述的观点是目前旗舰手机平台的性能受限于功耗，无法在日常使用中体现，但是不得不承认基准测试也是部分用户日常使用的功能之一，而且这些芯片“不管实际情况，就跑分到底谁最快”也是很多人很有兴趣的问题之一。当然，相对于前几年的产品而言，现在的平台下跑分的意义不论如何都在变得越来越小，因此我们不会再像上篇一样做连篇累牍的深入分析。取而代之的，我们只会从几个

48、理论测试软件的成绩里大概的看一下它们之间的胜负关系与潜力。由于新一代手机处理器的降频问题十分严重，因此我们不能简单的去比较频率与分数，因为无法确定在实际测试中它们运行在什么频率下。这个问题对于骁龙800而言相对小一些，因为Krait 400核心的实际功耗并没有超越设备散热极限太远，因此我们有理由认为在诸如Antutu跑分这类间歇性满载，且满载时间不超过一分钟的测试程序中，骁龙800是可以运行在全负荷的2.3GHz的（除非厂商设定的温度控制阈值极为激进，）。Exynos 5 Octa的情况在之前已经有所说明，但是由于Antutu的满载压力并没有系统稳定性测试软件那么高，因此我们假设Octa在跑A

49、ntutu时的频率分布为1.6GHz、1.4GHz Cortex A15和1.2GHz Cortex A7各占1/3时间。这样根据DMIPS的数据折算，整体性能相当于1.19GHz的Cortex A15。考虑到Cortex A7在整数部份的同频性能与Cortex A15的差距并没有DMIPS所显示的大，但是浮点性能方面的差距非常明显，因此在整数部分，等效频率将会接近1.5GHz，而浮点部分则维持1.19GHz。至于Tegra 4，对于一般手机而言它几乎不可能跑到1.9GHz的满载频率，但是我们找到了nVIDIA Shield的测试结果。由于Shield拥有足够的空间安装散热片，因此可以避免频率的下降，因此在测试全程中，频率应当都可以维持在1.9GHz。下

展开阅读全文