DRAM存算芯片，引领AI大模型算力革命-icspec

DRAM存算芯片，引领AI大模型算力革命

来源:电子工程专辑发布时间:2023-03-30

分享至微信

AI技术越来越成熟，应用越来越广泛。但是训练AI模型需要大量的算力，这对芯片提出了不少的挑战，而在芯片内部，不仅仅存在着性能提升的瓶颈，同时还存在内存访问的大瓶颈，这方面，国际国内各大公司在多年的技术研发过程中不断的进行着探索与研发。发现3DStackedDRAM存算芯片或许是目前最高效的技术。

在2023中国IC领袖峰会上，视海芯图创始人许达文博士以“DRAM存算芯片，引领AI大模型算力革命”介绍了存算芯片的技术演变和产品研发等情况。

许达文博士，毕业于中国科学院计算技术研究所，期间赴加州大学圣芭芭拉分校(UCSB)博士联合培养。归国之后，分别在AMD中国研究院工作和高校任教，曾主持和负责国家自然科学基金项目，在TransactiononComputers,TCAD,TVLSI、ICCD、ICCAD等顶级期刊和会议发表多篇论文，具备多次AI流片经验与创业经验，曾从事指纹芯片工作，次年销售额即达到两千万元，获昆山市创业领军人才，19年退出后指纹芯片公司，之后创办视海芯图。

许达文博士分三个部分介绍了存算芯片方面的市场和技术：大模型对现有芯片的挑战、DRAMPIM和PNM历史以及GPT芯片设计和应用。

大模型对现有芯片的挑战

从AI发展与受限制的硬件趋势看到，AI模型每2-3年规模增长1个数量级，芯片峰值算力平均每两年提升3倍，这落后于AI模型的发展，其中内存性能方面落后更多，平均每两年内存容量上涨80%，在带宽方面提升40%，在延迟方面几乎不变。

从另一个角度看，单位算力所匹配的内存容量以及带宽和延迟是什么样的情况呢？

我们可以看到下降越来越严重，换句话说存储管墙的问题也越来越严重。

目前火爆的ChatGPT的模型计算需要消耗的资源非常庞大。

单个模型需要2600多个服务器，换算成经费大概是3.4亿美金，耗电量是每天大概41万度，OpneAI每三四个月要翻一番，也就是到2026年服务器费用每年需要1700亿美金，耗电量需要750亿度，这个消耗量是很难接受的，特别是随着通用AI的普及，我们需要特别低的边际成本，也就是在保持高算力的同时，需要高能效和低成本。

当前，芯片进入后摩尔时代，在水平方面做集成密度放缓了，垂直方向上目前发展起来。

像AMD等公司都采用这种技术做芯片，在架构方向上目前主流是分析程序，根据程序算法特征以及数据特征来结合工艺重新设计计算架构，存储架构以及计算单元之间的互联。

GPT相比于原来CNN特性，它是访存密集型程序，数据搬运不规则，数据量大，对硬件要求需要内存提供比较大的带宽，而且存储容量要求也比较高，访问延迟尽可能低。这方面DRAM刚好可以提供很好的支撑。相比SRAM，DRAM成本低特别多，在可靠性方面也非常成熟，商业化比较有可能。

DRAMPIM和PNM历史

内存有两种方式，一种是存储颗粒里面采用DRAM器件构建一个逻辑电路，早在1992年多伦多大学就提出了ComputationalRAM，另一种同样是在DRAM颗粒内部，但是它是修改存储阵列，让每个存储单元同时具备存储和计算的能力。这种方式比提高计算并行度高，而且可以减少数据搬运。但这两种方式都会存在一个问题，它采用DRAM来构建逻辑运算，所以成本比较高，商业化目前来说不太成功。

第二种是智能DIMM，在内存条上面放置一个运算电路，三星提出了AxDIMM，加速了一个推荐系统，facebook也有类似的工作，比如RecNMP。

这两种方式存储的颗粒以及计算芯片是两个不同的芯片，他们被集成在一块PCB板上，通信之间的带宽还不够大，而且成本多增加了一个计算芯片，目前来说这也不是特别广泛。

2011年镁光提出了HMC技术。

它把多个DRAM堆叠在一个逻辑芯片上面，构建HMC芯片，HMC芯片与处理器进行互连，这样可以把内存容量做的较高。HMC可以完成一定的运算，曾有人用它完成了数据库的应用。问题是HMC颗粒与处理器是通过PCB板做互连，其实延迟还是比较高的，因为这个逻辑功能比较简单，还是会增加一些成本，最后镁光放弃了这样一个技术。

HMC之后，三星推出HBM。

它把DIMM堆叠在逻辑芯片上面，更进一步做成2.5D集成，这种方式极大的缩短了存储颗粒与处理器之间的距离。它的好处是容量比较大，带宽也会比较高，功耗比HMC好很多，缺点是成本比较高，互连有一些限制，通常来说，一个处理器只能连4个HBM颗粒。

2022年，达摩院与紫光把25纳米DRAM堆叠在55纳米逻辑芯片上，构建了神经网络计算以及推荐系统里的匹配加速等。

在这个工作上面达到了1.4TBs贷款，CPU即便是采用55纳米，相比CPU性能提升了9倍，能效比提升了几百倍。

对比美中方式的特色和优缺点，可以认为3D堆叠技术已经成熟，国内企业已经具备成熟的实现方案。最近的杀手级应用，譬如Transformer，图计算，图数据库兴起对带宽延迟的刚性需求在兴起，或许预示着3DStackedDRAM与逻辑的商业化时机已经到来。

GPT芯片设计和应用

3DDRAM延迟和带宽逼近于末级缓存，逻辑是移除面积占比较大的末级缓存，让3DStackedDRAM保证高带宽和低延迟，芯片会有更多的算力。

我们通过3D堆叠技术可以把处理器与DRAM之间的距离做到微米级甚至亚微米级，这种情况下的走线非常短，延迟比较小。通过这种技术，单位平方毫米可以完成数千甚至几十万的互联联线，实现的带宽更高。省去PHY，更短的走线，将带来更低的功耗，更好的性价比。整个芯片是由多个Tile构成的，每个Tile由DRAM和逻辑堆叠而成.DRAM部分主要是提供高存储容量高传输带宽，逻辑部分主要是做高算力和高效互联，

在去除末级缓存之后，如何保证性能不受影响？

首先在算法上面做模型量化，模型剪枝，模型压缩，同时会有混合精度的设计，再配上压缩感知DMA，在数据流方面有数据并行，Tensor并行等等。

模型压缩中有一个基于时延压缩的方式，可以做到把一个驰源系列里面的冗余特征去除，这样可以很好的降低计算量。

数据布局，按照数据计算方式，设计数据布局，来尽量避免rowconflict之类的问题。结合算法特性，采用数据并行，模型并行以及流水并行，减少核间的数据交互。

容错策略方面，因为是多颗晶圆堆叠，3颗堆叠在一起芯片良率就变成0.9×0.9×0.9，降低到70%左右，这样将很难实现大规模应用。

这时，需要在芯片上和DRAM上堆叠冗余的逻辑，保证错误逻辑之后还可以通过容错手段让芯片正常工作。