思科系统公司可能仍然是数据中心中开关和路由器的最大供应商,但是从长期以来,它一直在被Broadcom所超越,因为博通的芯片除了提供本身的开关功能外,还提供了一点点路由的功能。
尽管在商用以太网开关芯片市场上有很多竞争,当中包括Nvidia(Mellanox),Innovium,Intel(Barefoot Networks),Marvell,以及少数其他新贵都在这个市场中,并且它们在开关中的份额越来越大,尤其是那些决定网络步伐的超级扩展程序和云构建者。
但是,上述芯片厂商需要击败的是开关芯片设计商博通,而不是思科。因为无论思科为其Silicon One路由器和现在针对高端产品的开关芯片制造怎样的声势,并高调宣布公司进入商户市场。但其实自2000年代末以来,思科本来可以选择制造商用芯片来抵御来自Broadcom的攻击,但直到去年,思科才这样做。
随着2020逐渐走向尾声,Broadcom推出了主要针对超大规模产品和大型公共云制造商的“Tomahawk”系列以及旨在实现企业转换的“Trident”系列芯片,针对思科在十月份公布的六款新的Silicon One芯片。
Broadcom所做的第一件事是扩大了其Tomahawk 4产品线系列,该系列的最早的产品是于去年12月发布的,拥有25.6Tb/sec的速度,可以驱动运行速度为400 Gb/sec的64个端口,现已批量生产。
Broadcom的“Tomahawk”和“Trident”系列产品经理Vecchio告诉The Next Platform。这是博通第二款7纳米的开关ASIC(在台积电公司生产),第一款是2019年6月推出的Trident 4芯片。Del Vecchio表示,这两种芯片都是单片芯片,Broadcom除非绝对需要,否则不会切换到小芯片设计,因为将多个芯片块捆绑在一起会对性能产生影响。(其他公司,例如Barefoot Networks,已在不同的模块中实现了SerDes电路和开关引擎,并使用芯片之间的高速链接将它们组装成一个封装。这增加了复杂性和封装成本,但也提高了小芯片的良率,因此降低了成本封装中的问题。)
正如我们之前所指出的,Broadcom试图满足各种各样客户的开关和路由选择需求,并且该公司认为,它无法将所有功能都塞入一个ASIC并由其完成。他们需要重复去理解这些不同的市场是什么,它们的需求是什么,以及Broadcom芯片能解决哪些问题。以下是他们按客户设置的细分:
Del Vecchio认为,企业通常不会像服务提供商和hyperscalers/云构建商那样推动带宽限制。但是他们在网络上拥有更多的设备和多种类型的设备。此外。由于用户以服务器所没有的方式来回移动,因此需要对访问和安全性进行更多基于策略的控制。
相比之下,服务提供商往往拥有大量的远程骨干网,因此他们需要在其开关和路由器中进行深度缓冲(deep buffering),以帮助掩盖这些骨干网中的延迟。服务提供商也往往在其网络中有更多的超额订购,以减少开关的数量,这在一定程度上控制了网络预算。这就是Del Vecchio所谓的“超级共享”(hyper shared)网络,其中的服务质量(包括大型访问控制列表,开关或路由表之类的硬件以及交付该服务的软件)是关键。
借助hyperscalers和云构建器,大多数流量都在数据中心内的设备之间(所谓的东西方流量),并且它们带宽要求非常高。这样的话他们能在数据中心的100000个服务器的许多微服务链接在一起,已组成其所需的应用。他们需要低延迟,但是在各种各样的网络条件下可预测的延迟才是最重要的,这也是为什么hyperscalers和云构建者往往拥有非常超额配置网络的原因。
以下是博通针对不同客户群的ASIC映射:
这些不是硬性界限。例如,Broadcom收购Dune Networks获得的“ Jericho” ASIC具有很深的缓冲区,但每个ASIC的总带宽却总不如Trident或Tomahawk器件。然而 hyperscalers喜欢在其网络的核心和骨干网中使用Jericho开关,也许链接区域或在数据中心的区域内科充分利用深层缓冲区,但在可编程性更为重要的边缘需要使用Trident ASIC,数据中心内的主要结构则是Tomahawk芯片最合适的地方。
重要的是,所有这些ASIC除了支持Broadcom的SDK和API堆栈以外,还支持由Microsoft创建并由开放源代码社区采用的Switch Abstraction Interface(SAI),这样的话就可以在不同制造商的Switch ASIC上提供API虚拟化层,为此其网络操作系统可以不需要理会是谁的ASIC,也都可以运行。(对于Microsoft Azure云中的许多用例来说,其SONiC网络操作系统也是开源的,它在SAI上运行;在其他情况下,Microsoft使用不同的是NOS。)
据我们所知,有十多种网络操作系统可用于开关制造商或开源社区,其中还有由 hyperscaler 或云构建者在内部开发并保持专有的系统。在过去的几年中,这些NOS有了很大的发展,但是从长远来看,市场是否会接受如此多的选择还有待观察。反正在服务器市场是肯定不可能。在刚开始的时候,世界范围内的公司数据中心中可能有两打服务器架构和三到四打操作系统,但现在,我们基本上可以在大多数情况下使用Linux或Windows Server。
我们认为hyperscalers和云构建者不会停止构建自己的NOS,这比他们停止构建自己的Linux发行版可能性更高,因为这两者对于其庞大平台的性能和安全性至关重要。但是我们确实认为便携式操作系统很重要,而Arrcus的ArcOS很有可能它将以跨平台NOS的形式出现后。
我们还认为Nvidia将竭尽全力扩展Cumulus Networks通过其同名平台所做的工作,并将其与Mellanox的多个平台融合在一起。Arista将其EOS和来自Big Switch Networks的SDN堆栈相结合的方式还有待观察。在许多具有IOS和NX-OS的数据中心中,Cicso是默认的选择。因为他们的软件最便携,能提供最高性能,并可以涵盖最多场景。这就像Broadcom通过为特定用例提供精确的ASIC赢得了商用芯片市场一样。
通过介绍上述背景,我们可以了解Broadcom现在发布的新品的逻辑。
正如我们上文所述,将近一年前宣布的“Tomahawk 4 ” ASIC于2020年初开始提供样品,如今在宣布后不到一年的时间就开始批量供货。对于开关ASIC来说,这非常快。Tomahawk 4 ASIC拥有更多的内存,但拥有和Trident 3上的相同“ Blackhawk” SerDes,该SerDes在25.8 GHz上运行,但是因为选择了PAM-4调制(每个信号可以做两位)的方式,其每个SerDes通道可以提供50 Gb /秒的有效的带宽。最大的Tomahawk 4-50G芯片在其边缘蚀刻了512枚Blackhawk SerDes,总开关带宽为25.6 Tb / sec。此设备上支持的最密集的开关配置为以400 Gb /秒运行的64个端口。
但是现在,Tomahawk 4系列正在扩展有两个新成员:
第一个是Tomahawk 4-100G,它拥有与Blackhawk 相同SerDes,但将时钟频率提高到51.6 GHz,并向其添加了相同的PAM-4调制,以使每条通道可以达到100 Gb/秒的速度。然而,由于考虑到散热问题,这个芯片上只集成了256个SerDes。但是,由于热量随时钟速度呈指数级增长,即使其SerDes为Tomahawk 4-50G的一半,Tomahawk 4-100G的运行功率也略高于350瓦,约为400瓦。
Tomahawk 4系列中的第二个新芯片是“战斧4-12.8T”,它用户有128个SerDes,同样也是采用PAM-4调制。
如您所料,这两种新的Tomahawk4开关ASIC均使用台积电7纳米工艺制造。博通没有给出这些芯片的具体晶体管数量和die尺寸。但他们表示。这些新的Tomahawk 4 ASIC将于明年批量供货,这意味着又一个快速的增长。
因为这两个新的Tomahawk 4芯片每通道的速度为100 Gb /秒,那么他们建立以给定速度运行的端口,就仅仅需要一半的通道数,这是很有价值的。因为这就意味着一切都取决于 hyperscaler 和云构建者客户想要部署的光学器件,而100 Gb / sec PAM-4光学器件具有更高的功率效率,因此功率效率的净收益转移到了速度更快的开关ASIC上。每个端口温度更高,开关基数更低,因为光功率消耗低得多。
由于思科是商用芯片市场的新生力量,也许是Broadcom在数据中心开关和路由中面临的最大威胁,因此该公司似乎在其Tomahawk 4芯片的演示文稿中选择了Silicon One作为对比对象。
我们认为这种比较针对的是Silicon One,但从概念上讲,这个对比适用于其他12.8 Tb / sec芯片,包括博通在2018年1月推出的Tomahawk 3芯片。即使新一代ASIC芯片的成本更高,但您也需要六倍的芯片才能使用Tomahawk 3创建25.6聚合带宽。另一种说法是,Tomahawk 4它的价格是Tomahawk 3的六倍,并且仍然具有空间,散热,弹性和巨大的延迟优势,可以提供与端口相同的原始带宽。
Broadcom还选择了竞争性商户芯片中的切片架构,这使我们再次相信它正在围攻思科的Silicon Silicon One:
虽然Broadcom并不反对在其开关ASIC中增加可编程性,但该图表似乎着眼于Tomahawk 4的流水线分组处理与网络处理单元(NPU)之间的性能差异,后者是使用P4编程的Silicon One软件包的一部分:
这些比较告诉您Broadcom在考虑什么,以及它在担心谁。
如果我们用SmartNIC来减轻服务器的网络处理负担,那么也许我们也需要SmartTOR,这会将其中一些功能从SmartNIC或服务器中分离出来并整合到它们所属的位置:在开关上。Broadcom明确认为这可能是网络的未来,并且正在使用称为Trident SmartTOR的Trident 4开关ASIC的变体来测试这一想法,后者的缩写显然是机架顶开关。
这个网络负载的想法并不新鲜。多年以来,Mellanox(现在是Nvidia的一部分)一直将网络工作从服务器转移到ConnectX网络接口卡上,在过去的几代InfiniBand和以太网开关ASIC中,它一直在将某些功能整合到开关本身上,加速集体操作等自然属于开关的工作。
Trident 4芯片的SmartTOR变体的总开关带宽仅为8 Tb / sec,并且由于采用PAM-4调制,它具有160个SerDes,以25.6 GHz运行,每通道传输50 Gb / sec。(与其他Trident 4芯片和原始的Tomahawk 4芯片相同的速度和调制。)
正如您所料,该Trident SmartTOR芯片还采用了台积电7纳米工艺。(Broadcom的下一代设备已经达到5纳米了,它在过去的一周中在概念上进行了讨论,而没有谈论它计划为数据中心,云和5G用例在5纳米上创建的确切ASIC。) SmartTOR设备具有用于网络上第2层到第7层服务的可编程管道,并提供了Del Vecchio所说的“大规模”:300万个流量,300万个ACL条目,100万个隧道,和一百万个柜台。该芯片还具有以线速运行的数据的MACSec和IPSec加密。
比例尺如何映射到上一代Trident 3-X5芯片:
Trident SmartTOR的用例很有趣。Del Vecchio表示,企业客户有兴趣在裸机而不是虚拟化的云基础架构上部署其应用程序,在这种情况下,很多由服务器虚拟化管理程序或SmartNIC(很少会)完成的虚拟网络需要:以某种方式集中完成。将其放入开关很有意义。
如果您希望在X86 Iron甚至FPGA上运行这些网络服务,则尤其如此,这通常发生在分散在数据中心周围的网络设备中:
问题是这个,我们还不能回答:将所有这些功能整合回开关成本上,而不是在X86服务器或FPGA设备上运行它们。直到开关制造商使用Trident SmartTOR创建设备,我们才知道。
责任编辑:tzh
暂无评论哦,快来评论一下吧!