
微软(Microsoft)对资料中心的创新追求不遗余力,2013年开启的Natick研究计划,将资料中心整柜伺服器密封后放置深达117英尺的苏格兰海域,如今,微软美国华盛顿州Quincy的资料中心,也是全球首家导入两相式浸泡机柜的业者,为资料中心提供更好的散热效能。
微软在其公司网页详尽说明其研发两相式浸泡机柜的缘由与做法,其中一句话,带出其研发两相式浸泡机柜的关键幕后推手:纬颖。微软表示,两相浸泡冷却可让伺服器功耗降低5~15%,因此让微软与资料中心IT制造设计业者纬颖,合作开发两相式浸泡冷却解决方案。
纬颖总经理张顺来表示,外界看浸泡式机柜,只是将伺服器放置在密闭柜体中,然其中牵涉到的关键技术,多达上百项。从单纯概念落实成实际产品,过程艰辛且复杂。他跟负责工程师,曾争得脸红脖子粗,甚至直接撂下话,失败他来扛责。
张顺来表示,协助客户开发两相式浸泡机柜,除了完成对客户的承诺,更重要的是,在此过程中,负起纬颖为地球环保贡献心力的责任,以及他个人对台湾工程师训练的使命感,期望最后结果,能提升企业获利,以符合股东对公司的营运期待。
不要怕失败 关键技术要自己掌握
张顺来回想当初,旗下的工程师拿著与某厂商的合作NDA要给他签,强调该厂商有很多经验,尤其在机柜密封技术,然被他一口回绝,双方争执不下,他只好撂下狠话说,有事他负全责,因为他坚持,不论如何,关键技术必须自行开发。
张顺来说,他那时候才发现,台湾小孩子其实很怕失败,所以要找别人合作,责任可以分担,然没有第一次尝试,怎会有后面的成长机会?他鼓励工程师说,第一次做得比别人差没关系,下次改进即可,此状况也更加深他想训练台湾工程师的想法。
事实上,对纬颖来说,当第一个并不陌生。从48V的伺服器平台、液冷单项式散热等技术,到内部采用的自然进气的测试用伺服器机房设计,都是做没人做过的事。张顺来机械工程背景,也发挥效用,当过去伺服器机房仰赖的冷冻空调技术,无法实现自然进气设计时,他决定自己来。
他表示,若去Facebook等资料中心参观过,就会发现,现在的伺服器机房,是透过自然进气,将外面空气引进,经过滤净器,再散发一些水,到冷通道,经过机房后再从热通道将散热后的空气带出,而在冬天时,热通道的风还可与外面空气混合,转换成室内暖气使用。
台湾伺服器机房都采密闭设计,在冷空气带走机器的热度后,需用冷冻空调把热风再变成冷风。张顺来说,台湾地处亚热带,平均气温在20多度,其实只要让冷风进来,热风排出即可,但是台湾的冷冻空调不会做这种设计,中间经历了不少沟通与争辩,才完成现在的测试机房。
台湾通常会把热风变成冷风,50度变20度,再用冷气吹进来,效率不是很好,现在的资料中心不是这样做,若是热风就让他出去,冷风让他进来,晚上也不需要,不考虑湿度,里面排出来是50度,外面是28度,就用外面空气即可。
资料中心机房的能耗以PUE(Power Usage Effectiveness)计算,国外的资料中心PUE1.1,把伺服器冷却系统加上去后,约1.3,然台湾是1.4,甚至1.7以上,因为还要将冷却的耗电量算入。他说,透过自然进气的伺服器机房,不只为了台湾,也为地球,尽份心力,同样地,浸泡式散热也是如此。
资料中心扩增 耗电随之拉升
资料中心的能耗量,其实相较于10年前,有明显下降。随著半导体制程演进,运算力提升速度远高于能耗量,根据自然期刊(Nature) 2020年的一篇报导,2010年到2018年间,资料中心运算成长6倍,流量成长11倍,储存能力成长26倍,电力使用只增加6%。
然随著云端服务蓬勃发展,更多企业上云,民众习惯各种串流服务,加上COVID-19带动的远距办公、学习的生活新型态出现,都让云端服务商持续扩展资料中心,以满足更多市场需求。研究机构Omidia统计,2020~2021年,全球资料中心面积都在成长。
2020年下半全球35家云端与托管服务供应商的资料中心总计增加1,000万平方英尺面积,预估2021年,会再增加约2,000万平方英尺。根据该机构调查,受访的云端及托管服务商有49%表示,大流行疫情已加速资料中心的扩展计划。微软已宣布,每年将会新增50~100座资料中心。
另一项持续提高资料中心整体耗能的原因,在于市场对数位服务的需求,正呈现指数级成长,不论网路流量、物联网连接速度,都在倍数成长,加上企业对AI、虚拟实境、区块链等新技术的需求提升,也带动CPU与GPU持续追求高效能,然无可避免的,散热需求也在提升。
以英特尔最新发布的第三代Xeon可扩充伺服器处理器(代号为Ice Lake)为例,最高热设计功耗(TDP)可达到270瓦;超微第三代Epyc Milan处理器,整体效能将提升15~20%,旗舰的Epyc 7763,热功耗已达280瓦。目前主机板通常装2颗CPU,就达到540~560瓦,更遑论还有GPU。
从资料中心本身数量的提升,到内部伺服器、交换器的热功耗提升,到还有3~4成的环境散热需求,带动资料中心整体用电提高,业界预估,与2010年相较,2030年资料中心用电需求,将会拉升3~10倍,占全球用电量将达13%。
液冷散热有两种 有何差异?
资料中心整体用电量持续拉升,如何节能,对资料中心营运商将越来越关键,中国的阿里巴巴,提出单项式浸没式散热,而微软提出的是两相式浸没式散热,而更多被导入的液冷散热,是直接将液体接到CPU或GPU的水冷板(cold plate)散热。
张顺来指出,浸没式液冷散热才刚起步,目前资料中心导入比重难预估,然可确定的是,因为CPU与GPU的能耗持续扩大,气冷终究不是好的解决方案,中国有份研究报告预估,2025年在液冷散热市场,将会有四成采用浸没式液冷散热,另外六成采取水冷板散热。
浸没式散热仍有几个关卡待突破,首先是浸没式采用的介电液,成本偏高,其次是供应与服务体系产业链,尚未完整。此外,若采用浸没式散热,要达到最佳化效能,伺服器本身与资料中心建筑的设计,也须改变,包括提高机柜内伺服器主机板配置密度,降低楼地板高度等等。
张顺来进一步解释,提高机柜内伺服器主机板配置密度,就可降低采用柜内液体使用量,降低成本,然提高配置密度,改变主机板设计,需要其他关键零组件的配合,此部分将会是下个阶段的发展方向,也需要类似OCP等组织统合成标准,才可进一步加速导入。
此外,微软采用的是两相式浸没式液冷散热,阿里巴巴采用的是单相式液冷散热,两者有何不同?张顺来指出,单相需要用油性介电液,透过扰动散热,需要帮浦运作,而油性介电液会增加维修难度。反观两相式,由于是在气体与液体间的物理变化散热,气体挥发是主要问题。
两相式浸没式散热,在密封柜体内进行气体与液体物理变化来散热,如何不会有气体泄漏问题?由于介电液与机柜比重为1.7:1,如何让柜体不变形?此外,不只主机板,从基板管理控制器、网路交换器到电源供应器,都要浸泡在内,如何控制?零组件、黏著剂是否会被溶掉?
这些都是看似简单,实际却不简单的问题。此外,这些问题也牵涉到客户的导入意愿,比如在主机板维修时,如何能够尽量减少维修次数与每次维修的时间,才能够让气体挥发的比重压在客户可接受范围内,因为如上述,介电液的价格高昂,气体挥发量,与成本直接相关。
透过解决上述问题,张顺来实践训练台湾工程师的承诺,也同步提升纬颖的能力,从单纯的伺服器硬体供应商,成为系统整合商。
张顺来表示,两相式浸没式散热的软硬体,背后设计都有纬颖参与,担任系统整合商,不只需要技术,更需要串连生态系,而当成为生态系,就可争取到更多资源,比如一开始不愿配合测试的介电液厂商,后来也主动表达意愿配合。
纬颖日前宣布,以1,000万美元参与资料中心液冷技术厂商LiquidStack的A轮融资,取得一席董事席位,也是在为了成为系统整合商的角色,进行布局。LiquidStack在北美及中国都有SI及服务体系,此外其本身在东欧就有很大部署经验,都能与深耕研发制造的纬颖,达到互补双赢。
两相式液冷散热的市场有多大,又能带来多少利润?张顺来坦言,现在很难预估,因为供应链与后端服务的体系未完备,初估若浸泡式液冷散热占整体资料中心有5%市场,纬颖较早切入,可拿到其中的2%,其毛利率高于现在产品的3倍,就有机会为公司增加60%的获利。能为地球尽份心力,又能为股东及员工做事,何乐不为?
暂无评论哦,快来评论一下吧!
