
虽然英特尔和AMD在桌面和移动CPU上来回打球,但AMD在服务器处理器市场份额上保持着稳步增长的趋势,越来越多的云服务提供商和数据中心转投AMDYes阵营,今年第三季度打破市场份额记录,达到16%。今年上半年推出第三代可扩展处理器后,英特尔最近透露了更多关于下一代服务器处理器SapphireRapids的信息。
在Arm虎视眈眈、RISC-V新秀崛起的情况下,的竞争也进入了白热化阶段。自ZenCPU架构推出以来,AMD的总市场份额一步步迎头赶上。虽然英特尔和AMD在桌面和移动CPU上来回打球,但AMD在服务器处理器市场份额上保持着稳步增长的趋势,越来越多的云服务提供商和数据中心转投AMDYes阵营,今年第三季度打破市场份额记录,达到16%。尽管英特尔仍占据70%以上的市场,但在各种压力下,这一优势似乎难以维持。
今年上半年推出第三代可扩展处理器后,英特尔最近透露了更多关于下一代服务器处理器SapphireRapids的信息。鉴于我们在12代消费级桌面处理器酷睿上看到了Intel7制程带来的惊人改进,下一代Xeon处理器是否也能在明年发布的时候一鸣惊人?
考虑到SapphireRapids将于明年发布,新一代AMDEPYC处理器即将发布,英特尔没有发布太多关于通用计算性能的信息。但从英特尔在Innovation2021和LinleyFallProcessor两次大会上发布的模块化芯片设计中,也可以看出SapphireRapids并非一般的一代。
Sapphire代酷睿一样,SapphireRapids也引入了对PCIe5.0的支持,进一步提升了处理器的DDIO和QOS能力。此外,还支持CXL1.1和全新UPI2.0。
内存也是服务器和数据中心应用中最容易出现瓶颈的组成部分。从ADUC814BRU芯片原理图中可以看出,Sapphirerapids集成了4个内存控制器,以支持8通道DDR5内存。英特尔还为其傲腾持久内存Optane300系列提供支持,作为内存支持,也可用于存储。英特尔还将推出支持HBM的版本,提供远高于8通道DDR5的内存带宽。这个版本将提供两种HBM模式,一种是HBMFlat模式,支持HBM+DDR5混合或只使用HBM模式。另一种是HBM缓存模式,类似于L4缓存,将HBM作为DRAM的备用缓存。
一般计算中的AI加速
随着人工智能在服务器工作流中的比例逐渐增加,人工智能计算能力已经成为每个服务器处理器不可避免的参数,这也成为英特尔在推广SapphireRapids时不可分割的话题。在第三代强可扩展处理器中,英特尔内置了深度学习加速器和AVX-512向量扩展,支持int8和bfloat16数据的推理和训练。在Sapphirerapids中,英特尔增加了两个新的加速引擎AMX(先进矩阵扩展)和DSA(数据流加速器)。
AMX是一种支持切片操作的全新加速器,也是英特尔专门为张量操作准备的指令集扩展。该扩展由切片和加速器两部分组成。切片由8个2D寄存器堆组成,支持加载、清除和设置常量等基本数据操作符。每个寄存器堆的大小可以达到1KB,但设计师也可以根据自己的算法来减小其规模。此外,英特尔还证实,Linux5.16版将正式增加对AMX的支持。
英特尔目前只发布了TMUL加速器(切片矩阵乘法单元),但AMX是一个可以继续扩展的架构。未来可以添加新的加速器,也可以改进现有的TMUL加速器,实现更高的性能,从而在单个指令和单个微操作下表达更多的工作,节省fetch、decode和OOO的功耗。在测试中,同一个Sapphirerapids处理器分别使用AMX指令和AVX-512VNI,AMX的运行速度是后者的7.8倍。
在过去使用AVX-512时,经常会出现功率上升后频率下降的情况,很多人也担心新AMX是否会出现类似的情况。英特尔确认,AMX在快速、自动、适当的电源控制下不会有频率抖动。
在高性能存储、连接和密集处理的应用中,人们总是想找到解放处理器的核心来提高整体性能。英特尔推出了DSA数据流加速器,可以转移CPU缓存、DDR内存等I/O附加设备的数据。其目标是为数据转移和转换操作提供更高的整体系统性能,解放CPU周期,完成其他更先进的功能。根据英特尔给出的数据,在OpenvSwitch的虚拟交换机应用中,CPU占用率降低了39%,数据转移性能提高了2.5倍。
最强能代替GPU吗?
众所周知,今天的服务器市场不再是CPU的主导地位。无论是语音识别还是图像处理,GPU带来的人工智能计算能力都渗透到每一个场景中。GPU是任何深度学习炼丹师的首要硬件设备。在英特尔对SapphireRapids的描述中,称其AI性能比上一代IceLake芯片提高了30倍。这么大的提升能取代GPU吗?
英特尔为SapphireRapids提供的对比对象是英伟达的A30GPU,在ResNet-50v1.5的图像分类推理中,单个A30的输出速度为每秒15411张,而两个SapphireRapids的输出速度为每秒24000张。这个数字对比似乎有很大的优势,甚至接近每秒29855个A100GPU,但测试中使用的是高端Sapphirerapids型号(40核以上),功耗和价格都远远超过A30。
因此,在这个阶段,仍然使用大量AI负载的服务器不会从现有的GPU或ASIC架构迁移。然而,Sapphirerapids本身并不仅仅是针对人工智能的特殊产品。x86CPU之所以要努力提高人工智能性能,也是针对通用计算和人工智能结合等越来越普遍的轻度人工智能场景。
小结
夺回AMD的市场份额并不容易,英特尔也不再面临本世纪初双雄争霸的局面。Sapphirerapids可以说是换帅、换工艺、换架构后的第一款服务器产品。如果不能一鸣惊人,很多客户未来可能会被AMD更注重成本效率的Zen4D和Zen5夺走。面对Arm、RISC-V、GPU、ASIC等人工智能的挑战,如果英特尔仍然想保持x86的主导地位,他还必须加快自己的xe服务器GPU的开发,并继续扩大x86下的人工智能加速器生态。
暂无评论哦,快来评论一下吧!
