破解数据暴增与大算力痛点，“可重构计算芯片”受关注_南方plus

人工智能社会数据量指数级增长，AI大模型快速演进，算力大爆炸时代已经来临，在这一背景下，支持大算力的芯片面临怎样的挑战？8月18日-20日南京半导体大会上，北京清微智能科技有限公司首席架构师于义作“大算力可重构芯片赋能超大模型训推一体”主题分享。

一般来说，通用性最强的CPU，能效比最低，ASIC虽然解决了能效比的问题，却以失去灵活性为代价。依托于清华微电子所技术沉淀，在成立的三年时间内，已有三颗芯片量产，上千万颗芯片落地应用，成为全球商业应用规模最大的可重构计算芯片企业。

超大算力面临多重挑战

“如何用架构创新来迎接大算力时代的挑战？”于义首先问道。他说，我们已经逐渐进入了智能社会，AI大模型也在快速演进，以蛋白质分析为例，Google的DeepMind几乎破解了所有已知的蛋白质结构，这是依赖于大模型的发展。而且在药物研发、自动驾驶以及人机对话等方面，ＡI大模型也都有很大的应用和进展。

与此同时，随着AI大模型的发展，算力的需求指数级增长，现有芯片能否提供大模型需要的算力支撑？有关机构研究发现，随着AI大模型的发展，算力需求每三四个月就会翻一番，但根据摩尔定律和芯片工艺演进的发展，算力每两年翻一番，特别是随着摩尔定律失效，可能每两年翻一番都难以做到。

数据显示，2010年以来，人工智能模型计算量增长了1000亿倍。最近PaLM模型训练需求算力的数值比较惊人，需要在840万个TPUv4上训练64天。面对这种芯片实际增长算力与算力需求不匹配的情况，需要开发新型大算力芯片来解决大算力训练推理时间问题。

目前来看，实现超大算力面临多重挑战：一是访存墙问题，CPU、GPU这种计算架构都属于共享存储式计算架构，它的计算过程是数据不断在计算单元和存储器中来回搬运，也要通过服务器、交换机之间扩展，很容易形成访存瓶颈，称之为“访存墙问题”，出现计算能效下降、频繁访存，很多能量都没有真正用在计算上。

二是算力扩展问题，算力扩展一般都是多个GPU卡插在服务器上，服务器通过交换机之间算力扩展，当面对超大算力扩展，需要很多高性能网络设备，计算性能卡在通信带宽瓶颈上，限制了算力进一步提升。

三是编程墙问题，大算力基础架构是多层次的结构，现在很难有一种通用单一的编程模型来调度起来整个大算力平台。

“第四代芯片”比GPU提升47倍能效

清微智能探索一个新的解决方案，可重构计算架构是一种数据流式的计算架构，能够实现数据流驱动，不同于传统的共享分布式架构。

一方面能够提高计算性能，另一方面还能提高计算能效，同时在算力扩展时，和芯片内部通信一样实现“点对点”的通信，这就能带来高能效。在芯片之间扩展和服务器之间扩展时，都能通过Mesh网络和TSMLink方式直接扩展，而不依赖于交换机，能够达到近似算力线性扩展的效果。由于消除了交换机，也带来了低成本和低延时。统一的扩展结构也形成在顶层编程员看来是扁平化的编程结构，消除了编程墙问题。

“现在通过可重构计算架构把原来存储为中心的计算模式演变成一种以Mesh互联通信为中心的计算模式，可以有效破解大算力扩展的问题。”于义说。

他说，以清微智能可重构计算机芯片为代表的第四代芯片CGRA技术路线，和前三代支撑人工智能计算的芯片对比有以下优势：

第一代是CPU，以典型的英特尔、AMD公司为代表，问题是能效最低，性能已经出现了瓶颈。

第二代是FPGA，问题存在于编程资源利用率很低，编程时间也很长，计算能效低。

第三代常用的是GPU，以AMD、英伟达公司产品为代表，是通过GPU指令驱动的架构发展来的，现在能效和性能均已经接近瓶颈。

清微智能的可重构计算芯片，能够在性能上突破原传统计算架构的瓶颈，提升可达一个数量级。在灵活性方面，因为AI的各种场景非常丰富，对于灵活性的需求也非常大，可重构芯片具有接近CPU的可编程性和灵活性。在资源利用率上能接近专用芯片的资源利用效率。在设计规模上，能够很方便实现大规模扩展。随着可重构技术的发展，完善的应用生态已经初步形成。

“传统CPU或GPU架构是指令驱动的计算模式，计算过程有取指、译码、访存等操作，很大比例的能量消耗在了指令开销上，真正用于计算上的能量只占一小部分。这种模式就限制了计算能效不会很高。”于义说。

于义现场展示的一组数据显示：相比于CPU同样算力下，可重构计算芯片有接近80倍的能效提升；相比GPU约有47倍的能效提升；CGRA采用的是算子级重构，直接把用户程序转化成数据流，把数据流映射到计算阵列上，这种配置力度比FPGA更快，而且支持动态重构，再次改变算法时不需要停机重编程。

【记者】郜小平