通用 CPU 逐渐失去竞争力的现状与未来发展趋势分析

作者:Neil C. Thompson是美国麻省理工学院计算机科学与人工智能实验室和数字化经济项目的创新学者。Svenja Spanuth是瑞士苏黎世联邦理工学院的管理、技术和经济系的博士研究生。

芯片和电路板在融化

也许没有其他技术像计算机一样数十年来一直大幅逐年改进。据估计,自1974年以来,美国的所有生产力提升中三分之一归功于信息技术(IT),IT成为促进国家繁荣发展的最大功臣之一。

主要观点:

推动摩尔定律的是技术成就和“通用技术”(GPT)经济周期,在这种经济周期中,市场增长和技术进步方面的投入相互强化。这为用户实现标准化、采用快速改进的CPU提供了强大的经济动因,而不是设计各自的专用处理器。

如今,GPT周期日渐式微,导致市场增长较弱、技术进步减慢。

随着CPU方面的改进减慢速度,经济动因将把用户推向专用处理器,这带来了分裂计算界的风险。在这种计算格局下,一些用户将处于“快车道”,受益于定制的硬件,而另一些用户将被留在“慢车道”,继续使用取得的进步逐渐消失的CPU。

以下为详细内容,供大家参考~

计算机的崛起不仅归因于技术上的成功,还归因于为它们提供资金的经济力量。Bresnahan和Trajtenberg为计算机之类的产品创造了通用技术(GPT)一词,这类产品具有广泛的技术适用性,产品改进和市场增长可以数十年相互促进。但是他们也预测,GPT可能在生命周期的尽头遇到挑战:随着进展减慢,其他技术可能取代GPT,尤其是在特定的小众领域,破坏这个经济因素强化的周期。随着中央处理器(CPU)方面的改进减慢,今天我们正目睹这种转变,因此许多应用转向专用处理器,比如图形处理器(GPU);专用处理器可以完成的任务比传统的通用处理器要少,却能更好地执行这些功能。许多引人注目的应用已经追随这个潮流,包括深度学习(一种机器学习)和比特币挖掘。

在这种背景下,我们现在可以更准确地阐述本文《通用技术计算机已衰落》。我们倒不是说计算机将失去技术能力,因而“忘记”如何执行一些计算,而是说导致使用通用计算平台,并由迅速改进的通用处理器支撑的经济周期让位于分裂周期:经济因素将用户推向由专用处理器驱动的不同计算平台。

这种分裂意味着计算的各部分将以不同的速度取得进展。这对于进入“快车道”的应用而言是好事,会继续迅速改进,但对于这类应用而言却是坏事:不再得益于行业领头羊推动计算前进,因此被打发到计算机改进的“慢车道”。这种转变还可能减慢计算机改进的总体步伐,危及促进经济繁荣的这个重要来源。

通用计算和专用计算

早期——从专用到通用。早期的电子产品不是可执行许多不同计算的通用计算机,而是旨在专门处理一项任务的专用设备,比如收音机或电视机。这种专用方法有其优点:设计复杂度可控,处理器高效,运行速度更快,功耗更低。但专用处理器也“更狭窄”,因为它们只能被更少的应用所使用。

早期的电子计算机、甚至旨在力求“通用”的计算机实际上是为特定算法定制的,很难适应其他算法。比如说,虽然1946年的ENIAC理论上是一台通用计算机,但它主要用于计算火炮射程表。如果需要哪怕略有不同的计算,也得手动重新为这台计算机连线,以实施一种新的硬件设计。解决这个问题的关键是可以存储指令的新计算机体系结构。该体系结构使计算机更灵活,因而可以在通用硬件上而不是在专用硬件上执行许多不同的算法。这种“冯•诺依曼体系结构”极其成功,如今依然是几乎所有通用处理器的基础。

通用处理器的崛起。许多技术被推向市场时,经历了良性强化周期,帮助它们日臻完善(图1a)。早期采用者购买产品,从而为砸钱改进产品提供资金。随着产品不断改进,更多的消费者购买,这为下一轮改进提供了资金,依此类推。对于许多产品而言,由于产品改进变得过于困难或市场增长停滞不前,从中短期来看这种周期逐渐结束。

图1、通用处理器的历史良性周期(a)变成分裂周期(b)

GPT的特点是,随着不断发展,能够继续得益于这一良性经济周期——正如数十年来通用处理器经历的那样。市场已从军事和航天等领域的几种高价值应用,发展到全球所使用的逾20亿台PC。这种市场增长推动了更大笔的投资,以改进处理器。比如说,英特尔在过去十年往研发和新的制造设施上投入了1830亿美元。这带来了丰厚回报:据估计,自1971年以来,处理器性能已提升了约400000倍。

替代方案:专用处理器。通用处理器必须能够很好地执行许多不同的计算。这导致了使许多计算快速完成的设计折衷方案,但没一个是最优的。这种折衷方案带来的性能开销对于非常适合专门化的应用来说很大,这些应用包括如下:

大量计算可以并行化处理

要执行的计算很稳定,以固定的间隔(“规律性”)出现

特定数量的计算需要比较少的内存访问(“局部性”)

可以用较少的精度有效数字来执行计算。

在上述每种情况下,专用处理器(比如专用集成电路即ASIC))或异构芯片的专用部分(比如IP功能块)可以更快地执行,因为可以针对计算来定制硬件。

对典型CPU(主导性的通用处理器)和典型GPU(最常见的专用处理器类型)比较一番,就能看出专门化在多大程度上导致了处理器设计方面的变化(参阅下表)。

图2、CPU相比GPU的技术规格

GPU的运行速度较慢,大约是CPU时钟频率的三分之一,但在每个时钟周期,它能够并行执行的计算量大约是CPU的100倍。处理并行度很高的任务时,GPU比CPU快得多,但处理并行度低的任务时较慢。

GPU常常有多出5到10倍的内存带宽(这决定了一次可以移动多少数据),但是访问该数据的滞后时间长得多(离最近的内存滞后至少6倍的时钟周期)。这使得GPU处理易于预测的计算(可以预料来自内存的所需数据,并在适当的时间传入到处理器)时表现较好,处理不易预测的计算时表现较差。

对于与专用硬件很匹配的应用(又有可利用该硬件的编程模型,比如CUDA)而言,性能提升相当大。比如在2017年,GPU的领先制造商英伟达估计,深度学习(AlexNet以及Caffe)在GPU上而不是在CPU上运行,速度要快35倍以上。今天,这种提速幅度还要大。

专用处理器的另一大优点是,它们使用较低的功耗即可执行同样的计算。这对于受电池续航时间限制的应用(手机和物联网设备)以及进行大规模计算的应用(云计算/数据中心和超级计算)特别有价值。

截至2019年,十台最节能的超级计算机中有九台使用英伟达GPU。

专用处理器也有几大缺点:它们只能运行种类有限的程序,编程难度大,还常常需要运行操作系统的通用处理器来控制它们。设计和制造专用硬件也可能成本高昂。如果是通用处理器,固定成本(又叫非经常性工程成本即NRE)分摊在大量的芯片上。相比之下,专用处理器的市场常常小得多,因此单个芯片的固定成本更高。更具体地说,采用先进技术制造采用专用处理器的芯片的总成本约8000万美元,使用老一代技术可以使该成本降低到约3000万美元。

尽管专用处理器有其优点,但缺点非常大,因此在过去数十年几乎未得到采用(GPU除外)。就算得到了采用,也仅限于性能改进非常有价值的领域,包括军事应用、游戏和加密货币挖掘。但这种情况正在开始改变。

今天专用处理器的现状。所有主要的计算平台:PC、移动设备、物联网和云/超级计算变得更专门化,其中PC仍是最广泛的。相比之下,由于电池续航时间,能效在移动和物联网中显得更重要,因此,智能手机芯片上的大部分电路和RFID标签等传感器使用专用处理器。

云/超级计算也变得更专门化。比如说,前500台超级计算机的新增成员在2018年首次从专用处理器获得的性能高于从通用处理器获得的性能。

国际半导体技术路线图(ITRS)协调促进摩尔定律发展所需要的技术改进,该组织的行业专家在最终报告中默示认可了向专门化转变的这一趋势。他们承认,“一刀切”的缩小晶体管尺寸的传统方法再也不该决定设计要求,而是应针对具体应用来定制。

下一部分将探讨所有主要的计算平台向专用处理器转变对生产通用处理器的经济因素带来的影响。

通用技术分裂

支持GPT的良性周期来自一系列相互强化的技术和经济力量。遗憾的是,这种相互强化也适用于相反的方向:如果在周期的某个部分改进变慢,在周期的其他部分改进也会变慢。我们称这种对应为“分裂周期”(fragmenting cycle),因为它有可能将计算业分裂成一组关系松散的孤立部分,这些孤立部分以不同的速度前进。

如图1(b)所示,分裂周期有三个部分:

技术进步缓慢

较少的新用户采用

为创新提供资金较困难

这个周期背后的道理很简单:如果技术进步缓慢,采用它的新用户较少。但是如果没有那些用户带来的市场增长,改进技术所需的不断上涨的成本可能高得离谱,从而减慢进步。因此,这个协同反应的每个部分进一步强化了分裂。

下面我们描述计算周期的这三个部分中每个部分的现状,表明分裂已经开始。

技术进步缓慢。为了衡量处理器的改进速度,我们考虑了两个关键指标:性能和性价比。在过去,这两个衡量指标都迅速改善,主要是由于晶体管小型化促使每块芯片的晶体管密度更高(摩尔定律)、晶体管开关速度更快(通过Dennard缩放比例定律)。遗憾的是,由于技术难题,Dennard缩放比例定律在2004/2005年终结;由于制造商在现有的材料和设计方面遇到瓶颈,而这些瓶颈需要花更大的力气才能克服,摩尔定律即将终结。小型化丧失其优点,这在性能和性价比方面的改进减慢上体现得一清二楚。

图2(a)和图2(b)显示了通用计算机性能提升的减慢有多显著,前者基于Hennessy和Patterson用SPECInt基准测试来描述的进展,后者基于美国劳工统计局的生产价格指数。如果性价比每年以48%的速度提高,那么10年后将提高50倍。相比之下,如果每年仅以8%的速度提高,那么10年后只会提高2倍。

图3、微处理器的改进速度,按(a)SPECint基准测试的年度性能改进和(b)质量调整后的年度价格下降来衡量

较少的新用户采用。随着通用处理器的改进步伐减慢,开发的拥有新功能的程序会较少,因此客户没有多大动力来更换计算设备。英特尔首席执行官Krzanich在2016年证实了这点,称PC的更换速度已由每四年一次变为每五六年一次。有时,客户甚至在多代处理器改进后才更新。其他平台也是如此,比如2014年美国智能手机平均每23个月升级一次,而到2018年已延长到31个月。

用户从通用处理器向专用处理器转变是我们认为计算分裂这一观点的核心,因此将进行详细讨论。设想用户既可以使用通用处理器,也可以使用专用处理器,但想要以最低成本提供最佳性能的处理器。图3(a)和3(b)为我们的分析提供了依据。每个图块显示了通用处理器和专用处理器随时间而推移的性能,但通用处理器的改进速度不一样。在所有情况下,我们假设选择时间T,因此专用处理器的较高价格正好由一系列(不断改进的)通用处理器的成本所抵消。这意味着两条曲线成本上相等,因此出色的性能也意味着出色的性价比。这也是为什么我们称专用处理器在这段时间内有恒定的性能。

图4、最佳的处理器选择取决于专用处理器提供的性能提升以及通用处理器的改进速度

如果专用处理器提供更大的性能初始提升,它更具吸引力。但是如果通用处理器的改进从快速(如图块a所示)变为较慢(如图块b所示),它也变得更具吸引力。我们通过考虑两条时间路径中哪一条带来更大效益来对此正式建模。也就是说,如果

,专用处理器更具吸引力。其中通用处理器和专用处理器在时间T内提供性能iP u和P s,而通用处理器以r的速度改进。我们在在线附录(https://doi.org/10.1145/3430936)中列出了该模型的完整推导。该推导让我们得以从数值上估算专门化优势压倒更高的成本所需要的芯片数量。

专用处理器在性能提升更快或其成本可以分摊到更大的芯片数量时更具吸引力,这不足为奇。然而,从通用处理器的改进步伐来看,专用处理器变得具有吸引力的临界值发生了变化。重要的是,这种影响不是因我们假设专用处理器与通用处理器之间取得进展的速度总体上不同而出现的——假设所有处理器都能够使用当前最先进的制造技术。相反,它是因必须分摊专用处理器更高的每单位NRE以及在此期间这与升级通用处理器相比有多好而出现的。

一个数字例子清楚地表明了这种变化的重要性。在摩尔定律巅峰时期,每年以48%的速度改进,假使专用处理器的速度比通用处理器快100倍(即

,相差悬殊),就需要制造约83000块芯片才使投资有回报。另一方面,如果性能只提升2倍,需要制造约1000000块芯片才使专用处理器更具吸引力。这些结果清楚地表明了为什么在摩尔定律的鼎盛时期,专用处理器很难进入市场。

然而,如果我们以8%的改进速度(2008-2013年的速度)重新计算处理器选择,这些结果发生了显著变化:对于提升100倍的应用而言,所需的处理器数量从83000个降至15000个,对于提升2倍的应用而言,则从1000000个减少至81000个。因此,在通用处理器进展减慢之后,多得多的应用适用于专用处理器。

为创新提供资金较困难。2017年半导体行业协会估计,建造和配备下一代芯片制造设施的成本约70亿美元。下一代指更小型化的芯片部件(或工艺“节点”)。

投入于芯片制造设施的成本须由带来的收入来证明合理性。2016年,业界3430亿美元的年收入中可能多达30%来自尖端芯片。因此收入可观,但成本在增长。在过去25年,建造先进制造设施的投入(如图4a所示)每年增长11%!,这主要归因于光刻成本。算上工艺开发成本,成本更是每年增长13%。拿摩尔“第二定律”(芯片厂的成本每四年翻番)开涮的芯片制造商对此深有体会。

图4、芯片制造日益恶化的经济因素

在过去,固定成本如此快速增长对单位成本的影响只是被强劲的整体半导体市场增长(1996年至2016年CAGR为5%)所部分抵消,这使半导体制造商得以在更大的芯片数量上分摊固定成本。固定成本每年增长13%与市场每年增长5%之间巨大缺口的其余部分,预计导致竞争力较弱的玩家退出市场,剩余玩家在更多数量的芯片上分摊固定成本。

如图4(b)所示,行业确实出现了大整合,生产尖端芯片的公司越来越少。从2002/2003年到2014/2015/2016年,建有尖端芯片厂的半导体制造商数量从25家减少到仅仅4家:英特尔、台积电、三星和格罗方德。格罗方德前不久宣布,不会致力于继续开发下一代节点。

我们发现这种合并很有可能是由于固定成本快速上升且市场规模仅适度增长带来的经济因素恶化所致。通过一番粗略计算,可以看出市场整合在多大程度上改善了这些经济因素。如果市场在不同的公司之间均匀划分,这意味着平均市场份额从2002/2003年的

增长到2014/2015/2016年的

。以年复合增长率表示,这将是14%。这意味着生产商可以通过市场增长,并获取退出市场的厂商的市场份额,弥补日益恶化的芯片厂建造经济因素。

实际上,市场并不均匀划分,英特尔占有主导性份额。因而,英特尔无法以这种方法抵押固定成本的增长。的确,在过去十年,英特尔固定成本与可变成本的比率从60%上升到了逾100%。这显然显眼,因为近些年来英特尔已放慢了发布新工艺的步伐,预计这会减慢英特尔在固定成本方面进行投入的步伐。

分裂周期。由于分裂周期的三个部分中每个部分已经在相互强化,预计会看到越来越多的用户面临通用处理器微不足道的改进,因此有兴趣转向专用处理器。对于有足够需求,计算又很适合专门化的应用(比如深度学习)而言,这将意味着大幅改进。对于其他应用来说,专用处理器并不是一种选择,它们将留在改进越来越慢的通用处理器上。

带来的影响

谁会走专用化道路。如图3(c)所示,专用处理器将被改弦易辙后速度大幅提升的那些人所采用,需要足够数量的处理器来证明固定成本很合理。按照这些标准,大型科技公司率先投入于专用处理器也许不足为奇,比如谷歌、微软、百度和阿里巴巴。不像仍惠及众多应用的GPU方面的专门化,也不像对大多数用户来说颇有价值的加密电路中的专门化,我们预计未来专门化面向更窄的应用,因为只需要少量的处理器就能使经济因素颇具吸引力。

我们还预计这些人会大量使用:不是专用处理器的原始设计者,但重新设计算法以充分利用新硬件,就像深度学习用户大量使用GPU那样。

谁被抛在后面。未转向专用处理器的应用可能会失败,因为它们:

性能方面得到的好处甚微

市场不够大,无法证明前期固定成本的合理性;或者

无法协调需求。

前面描述了四个特征,它们使计算经得起使用专用处理器提速的检验。若没有这些特征,只能从专门化获得极小的性能提升(如果有的话)。一个重要的例子是数据库。我们采访过的一位专家告诉我们,在过去几十年,面向数据库的专用处理器显然可能很有用,但是数据库所需的计算不适合在专用处理器上运行。

不会获得专用处理器的第二组应用是需求不足以证明前期固定成本合理性的应用。我们通过模型得出,需要成千上万处理器的市场才能证明专用处理器的合理性。这可能影响小规模执行密集计算的人(比如执行罕见计算的研究科学家),或者计算随时间快速变化,因此需求迅速消失的人。

可能落在后面的第三组应用是没有单个用户带来足够需求,协调很困难的应用。比如说,即使成千上万个小用户共同有足够大的需求,也很难使他们共同促成厂商生产专用处理器。云计算公司可以在减小这种影响方面发挥重要作用,只需为生产专用处理器提供资金,然后将这些处理器租出去。

技术进步会帮助我们摆脱困境吗?想回到用户回过头来改用通用处理器的收敛周期,需要性能及/或性价比迅速提升。但是技术趋势指向相反的方向。比如性能方面,预计小型化的最终好处将以高价作为代价,可能仅用于重要的商业应用。甚至存在要不要完成所有剩余的、技术上可行的小型化这个问题。Gartner预测,会完成更多的小型化,到2026年将大规模生产5nm工艺,台积电前不久宣布计划在2022年兴建一座造价195亿美元的3nm芯片厂。但许多受访者对于长时期的小型化是否值得表示了怀疑。

另一种技术改进是否可以恢复通用处理器改进的步伐?当然,业界在热议此类技术:量子计算、碳纳米管和光学计算。遗憾的是,专家们预计,至少再过十年,业界才能设计出一种应用更广泛,因而有可能替代传统通用计算机的量子计算机。前景更广阔的其他技术可能仍需要大量资金来开发、投放市场。

结束语

传统上,计算的经济因素由通用技术模型驱动:通用处理器变得越来越好,而市场增长促进投入加大,以不断完善和改进处理器。数十年来,这个良性GPT周期使计算机成为促进经济增长的最重要因素之一。

本文提供的证据表明,该GPT周期已被分裂周期所取代;在分裂周期中,这些因素在减慢计算界、分散用户。我们表明,分裂周期三个部分中的每一个都已经在进行中:通用处理器的改进速度已出现了急剧减慢,而且越来越慢;购买通用处理器与专用处理器之间要权衡的经济因素已明显偏向专用处理器;建造更好的处理器的固定成本不断上升,再也无法由市场增长速度来承担。

总之,这些发现结果清楚地表明,处理器的经济因素已发生了显著变化,将计算推向了大不相同的专门领域,给彼此带来的好处更少了。而且,由于这是自我强化的周期,因此它会永久存在,进一步分裂了通用计算。因而,更多的应用会分化出来,通用处理器的改进速度将进一步减慢。

因此,本文着重介绍了经济因素推动计算的方向出现了重大转变,对那些想要抵制计算分裂的人提出了挑战。


发表评论