数据中心(又称机房)的建设规模和数量随着当前大规模并行计算(超算)、大数据、云计算、新一代5G通信技术、互联网+、人工智能(AI)产业和物联网边缘计算的爆炸式发展而出现激增[1].数据中心的散热问题和能源消耗增长均十分严峻,每年须消耗大量的高品位电力能源来对服务器进行冷却,将其产生的热量传输到外界环境中,确保服务器的稳定可靠工作.2017年美国和中国数据中心耗电分别达到7.18×1010和1.223×1011 kW∙h,占全国总用电量约2%,并仍将持续增长[2-4].最近研究报道,全球数据中心的年耗电量之和占世界全部耗电量的比例已高达1.3%;快速增长的电力消耗给全球环境的可持续发展带来了巨大挑战[5-6].另一方面,在摩尔定律、反摩尔定律和安迪-比尔定律三大IT产业规则的共同影响下,服务器芯片的核数、主频或功率快速增大[7],截止到2018年CPU功耗已达到250 W,GPU功耗达到300 W[8];加上小型化封装带来的集成度越来越高[9],其单位面积上承受的热流密度急剧增大,数据中心的散热问题将更为凸显,散热挑战带来的能耗问题变得更加不可忽视.数据中心散热技术的好坏和效率的高低决定了其能源利用率和能耗水平的高低.寻求更为先进、高效的散热/冷却技术,是实现数据中心能耗降低、产业绿色可持续发展和社会碳排放减少的主要手段之一.数据中心散热技术根据热沉载体的形式可以分为风冷和液冷技术两种[10];根据散热路径的远近可以分为房间级、机柜级和芯片级(又称服务器级)散热技术3种[11].芯片级散热技术是一种液冷技术,它直接针对服务器内的发热源(CPU,GPU等)进行冷却和降温,大大缩短传热路径和热阻,较大幅度地提高散热效率,被认为是下一代高密度绿色数据中心散热技术发展的主要方向[12-13].当前的芯片冷却技术有热管强化风冷散热器[14]、微槽道液冷[15]、喷雾/喷射冷却[16]、热电制冷[17]和相变材料散热[18]等.在数据中心服务器中应用的芯片级液冷散热技术路径主要有冷板式[12-13]、浸没式[19]和热管式[20-21].冷板式存在水泄漏隐患,有驱动泵运动部件和液体回路压降大等不足[22];浸没式须完全定制化设计,成本较高、运维不便.热管式散热技术弥补了冷板式和浸没式的上述部分缺陷,主要采用普通圆柱铜水热管[20]和环路热管[21](loop heat pipe,LHP)两类技术.其中环路热管具有气液相分离、蒸发和冷凝端分离及灵活布置等特征[23],决定了单个热管的传热量和长距离热量传输能力均远强于普通热管,是实现小空间内高功率服务器发热源快速散热的可靠技术路径.Maydanik等[24]关注基于环路热管的数据中心芯片级散热技术,但处于理论研究和概念探索阶段.本课题组开展了航天军用环路热管技术在民用数据中心服务器芯片散热的转化研究,完成了现有服务器的两款环路热管工程化样机的自主研制和在服务器上的控温实验;研究了在不同冷端温度条件下(有助于提高机房外循环管路的水温)环路热管对服务器CPU芯片的冷却控温效果,为大幅降低数据中心的制冷能耗提供了数据支撑.1 实验装置及方法液冷式环路热管LHP(见图1(a))和风冷式环路热管(见图1(b))两种环路热管原理样机.两种热管能分别与机房液冷和风冷进行耦合集成,满足不同散热形式的匹配需求.两种环路热管的运行原理、结构和技术参数、启动和传热性能见文献[25-27].10.13245/j.hust.240339.F001图1LHP原理样机根据数据中心应用的实际需求,液冷式环路热管的测评平台选用了某型主流机架式服务器,并研制了用于该型服务器实验的热管工程化样机(见图2).在图2(a)中,服务器电子器件采用风冷散热模式,这属于现有服务器的经典散热结构形式,由图中4个蓝色风扇组成一个风扇墙建立服务器内部气流流动风场.CPU芯片是服务器发热量的主要来源,在两个CPU芯片上都安装有一个翅片热沉,并且每个翅片热沉的前端都嵌套了一个黑色风扇结构来强化散热.该服务器每个芯片的功耗为135 W.图2(b)为液冷式环路热管的实验平台,两个CPU芯片上的翅片热沉散热器已被环路热管替代.环路热管的平板型蒸发器底面直接贴合芯片发热表面,环路热管的冷凝器布置于服务器的外部从而保证冷却水不进入服务器,有效避免因为意外而液体管路及接头发生的微泄漏.环路热管的安装方法和传统翅片热沉相类似,都是利用螺钉锁紧在主板上的螺纹孔位上,不会对服务器内的其他电子器件产生影响.另外,图2(b)中风扇墙处的风扇数量减少了一半,翅片热沉上的风扇被移除,因此服务器噪声将会得到大幅度降低.图2(c)为服务器内两个环路热管分别冷却两个芯片的安装位置.其中一个热管水平安装,另一个热管考虑空间关系而设计冷凝器高于蒸发器布置.10.13245/j.hust.240339.F002图2某机架式服务器开展液冷式LHP工程样机风冷式环路热管工程样机在服务器上的应用测试选取在某型主流刀片服务器上开展.图3给出了实验热管的实物图和安装示意图.图3(a)显示了替换前该服务器的传统风冷散热结构形式,每个CPU芯片上有一个较大体积的翅片热沉模块.每个CPU的功耗为95 W.由于刀片服务器较薄,厚度一般不大于30 mm,因此内部可利用的空间有限,限制了翅片热沉的体积和有效散热面积的扩大.图3(b)显示了替换后采用风冷式环路热管散热模组的服务器全新结构形式,服务器的翅片热沉已被环路热管所替代.环路热管的平板型蒸发器底面直接贴合芯片发热表面,环路热管的冷凝器布置于服务器的外部.外部空间相对较为宽阔,仅从风冷散热所需的翅片有效散热面积角度而言,采用环路热管的翅片散热表面积可以从传统在服务器内的600 cm2增大到新布置在服务器外的4 000 cm2左右.采用腔体热管翅片结构,翅片的等温性和肋片热效率相比传统翅片都能得到较大的提高.图3(c)显示了刀片服务器内两个环路热管分别冷却两个芯片的安装位置关系.由于刀片在机柜中是竖向插拔安装的,因此两个热管的蒸发器和冷凝器均设计为竖直安装,同时保持冷凝器与蒸发器之间的液管为水平.10.13245/j.hust.240339.F003图3某刀片式服务器开展风冷式LHP工程样机实验测试方法及步骤如下.a.通过服务器系统中安装的加载软件,对服务器的CPU、内存和硬盘进行100%负荷压力的加载状态持续运行,称之为满负荷压力测试.b.通过服务器系统中安装的通用核温读取软件,读取每个CPU自带内嵌核温监控数据.获得:服务器采用原有风冷翅片散热模组在常温20 ℃下的满负荷压力测试核温数据;服务器采用环路热管散热模组在20 ℃冷却条件下的满负荷压力测试核温数据;服务器采用环路热管散热模组在冷却端温度改变条件下的满负荷压力测试核温数据;服务器采用环路热管散热模组在冷却端工质流量改变条件下的满负荷压力测试核温数据.c.每种负荷测试运行时间12 h;热管模组可靠稳定性测试超过60 h.测试中温度传感器的误差为±0.25 ℃,流量传感器的误差为±0.5 cm3/s,风速仪的误差为±0.05 m/s.2 结果与讨论2.1 液冷式LHP实验结果首先开展了服务器原有风冷翅片散热模组的实验.服务器内部所有风扇和散热结构都保持出厂设置,加载实现满负荷压力运行,实验时环境温度为20 ℃.靠近风扇墙的CPU1的核温为72 ℃,远离风扇墙靠近服务器末端出口的CPU2的核温为75 ℃.对于商用服务器CPU而言,其设计长期稳定可靠工作的上限温度值一般是75 ℃,称之为上限安全阈值.若CPU工作温度超过这个阈值温度就会导致两种现象出现:一是服务器自我保护启动,CPU降频运行,但消耗电功率不减少,计算处理能力大大下降;二是如果长期高温运行,那么CPU的寿命时长和可靠性将会降低.此外还发现:由于两个CPU的核温均已超过70 ℃,因此服务器中风扇墙的4个风扇都处于最大转速运行状态,2个CPU上面的翅片风扇也处于最大转速运行状态.此时进行噪声测量,服务器整机噪声的声压值为75.1 dB,服务器内气流流动产生的气动噪声完全覆盖了IT电子器件运行产生的噪声.在这种散热模式下服务器的运行噪声较大,这也是数据中心噪声污染严重的主要噪声源之一.通过调节负荷运行大小还发现:当CPU核温达到并超过70 ℃时,服务器的控制策略将会控制变频风扇处于100%额定转速运行;当CPU核温超过60 ℃小于70 ℃时,风扇转速为额定转速的80%~90%;当CPU核温超过55 ℃小于60 ℃时,风扇转速为额定转速的50%左右;当CPU核温低于55 ℃时,风扇转速为额定转速的25%左右,从而风扇消耗的功率也会相应的降低.开展了液冷式环路热管散热模组的满负荷压力实验,所有工况环境温度均为20 ℃,实验数据结果见表1.10.13245/j.hust.240339.T001表1机架服务器采用LHP散热模组满负荷实验结果工况入口水温/℃水流量/(m3∙h-1)水流速/(m∙s-1)核温/℃CPU1CPU21200.1681.6543432200.0550.5448493300.1681.6552524300.0550.5457585400.1681.6561626400.0550.546768LHP冷却端入口水温为20 ℃时CPU1和CPU2核温为43 ℃.与风冷翅片模组的散热方式相比,此时2个CPU工作温度的均匀性明显提高,这是热管芯片级散热技术的一个优势.因为风冷散热模式的效果取决于风量的供给大小和风场中温度场的分布情况,而CPU2相比CPU1在风场中处于下游位置,所以工作温度会高一些.在相同的环境温度或实验条件下,环路热管对CPU 的控温效果与风冷翅片模组相比下降了29~32 ℃.这是由于先进的散热技术具有更高的散热效率和更低的传热热阻.此时测量服务器整机的噪声值为46 dB,相比风冷模式噪声降低接近30 dB.LHP控制服务器CPU工作温度实现大幅度降低,为LHP冷却端冷却介质温度的提高创造了可能,从而为机房制冷系统节能和大幅度利用机房外环境自然冷源创造了重要条件;如果LHP冷却端冷却介质温度在较大幅度提高的情形下仍能有效控制CPU工作温度在上限安全阈值之下,并且CPU产热量占服务器产热量的主要部分,那么服务器的工作环境温度也可以实现较大幅度提高(如提高到35 ℃甚至40 ℃),为军用高温服务器或者军用电子设备在恶劣环境下工作和生存创造了可能.LHP对CPU的高效控温可大大降低服务器工作的噪声值,从而为静音服务器和低噪声机房的出现创造了可能.对LHP冷却端的入口水温进行逐步提高,环路热管冷却端的入口水温提高到40 ℃后,2个CPU芯片的工作温度仍然低于风冷翅片散热结构下的实验结果,并且仍然远低于芯片的上限安全阈值温度.将水流量降低到原来的1/3左右,设定为0.055 m3/h,对应管内水流速为0.54 m/s.可见:改变水流量对热管的传热能力和对CPU的控温能力有一定的影响,随着水流量的降低,CPU满负荷下的核温逐步上升,但都仍然优于风冷翅片实验结果,并且CPU温度一致性仍能有效保持.基于环路热管的芯片级散热技术具有很好的散热控温能力和出色的同步热响应跟踪能力.从表1还可以看出:CPU的核温变化随入口水温呈现线性正相关关系,即水温提高10 ℃,CPU核温提高接近于10 ℃.由此可推断:当水流量为0.168 m3/h和水温为45 ℃时,CPU1和CPU2核温将被控制在66和67 ℃水平.这表明提高入口水温达到45 ℃甚至50 ℃是可行性的.水流量的减小与核温的升高并没有呈现线性关系,水流量减小时LHP对CPU的控温逐渐变差.最低水流量值则须与CPU上限安全阈值的控制高度匹配.随着水流量的减小,CPU1和CPU2的温度一致性会稍微变差.2.2 风冷式LHP实验结果与液冷式LHP实验相同,首先开展了服务器原有风冷翅片散热模组的实验.服务器内部所有风扇和散热结构均保持出厂设置,将服务器加载到满负荷压力.环境温度为20 ℃,服务器内流过翅片热沉的气流速度为3.0 m/s,对应计算风量为41.88 m3/h.此时图3(a)中CPU1的核温为67.5 ℃,CPU2的核温为69 ℃.此时在刀片服务器所在的刀箱后部的大功率风扇已接近额定最高转速运行状态.由于刀片服务器刀箱后置大功率风扇体积较大,风压设计较高,因此风扇噪声达到76.8 dB左右.随后开展了风冷式环路热管散热模组在刀片服务器上的满负荷压力实验.表2给出了满负荷实验结果.风冷LHP在冷却端入口风温为20 ℃,风速设定与原有翅片热沉模组相同情形下,CPU1和CPU2核温分别为38.5和39 ℃.与翅片模组散热方式相比,芯片工作温度的均匀性同样有所提升.在相同的入口风温和风量条件下,环路热管对CPU的控温效果与原有风冷翅片模组相比下降了29~30 ℃.此时服务器的整机噪声值为52 dB,相比原有风冷模式,声压值降低约25 dB.10.13245/j.hust.240339.T002表2刀片服务器采用LHP散热模组满负荷实验结果入口风温/℃风量/(m3∙h-1)风速/(m∙s-1)核温/℃CPU1CPU22041.883.038.539.02020.941.550.051.02055.844.035.036.02541.883.045.046.03041.883.051.051.5对机房的空调送风温度进行调整,实现服务器的入口风温和LHP冷却端风温同步达到25和30 ℃两个工况.在保证流过环路热管冷端翅片的风速相同前提下,当冷却端入口风温为25 ℃时,稳定后的CPU1和CPU2核温分别为45和46 ℃;当冷却端入口风温为30 ℃时,稳定后的CPU1和CPU2核温分别为51和51.5 ℃.实验结果表明:采用环路热管芯片级散热技术,服务器工作时的入口风温可以有效提高到30 ℃甚至以上,此时服务器内的所有电子器件能够安全稳定工作,CPU芯片的温度仍能得到很好的控制,且远低于原有翅片热沉在20 ℃入口风温的实验结果,空调制冷能耗能够得到较大幅度的降低.与液冷式LHP相类似,风冷式LHP作用下的CPU工作温度变化值与入口风温变化值呈现近乎线性关系,即风温提高5 ℃,CPU核温提高稍大于5 ℃.此现象表明环路热管的冷却端无论是采用液冷还是风冷带走热量的形式,其工作机制和控温效果不受影响.可以预测:当风速为3.0 m/s风温为40 ℃时,CPU1和CPU2核温将被控制在62和63 ℃水平.提高服务器入口风温达到40 ℃具备较好的可行性.风量越大,LHP对CPU的控温效果将越理想,但并不呈现线性关系.当风量增大到一定程度,CPU工作温度的降低幅度将会减小,也就是耗费较大的能量代价而获得的大风量和大风速并不能够带来更多的控温收益.这是因为在LHP冷却端入口风温给定的条件下,随着风速的增大,LHP翅片冷凝器内腔中液相的比例将会增大而导致出现“过冷”现象,翅片与空气的温差会逐渐缩小,换热量将会逐步出现瓶颈.3 结论本研究开展了高效环路热管应用于真实服务器时在不同冷端温度条件下的实验研究,获得了采用基于环路热管的芯片级散热技术替代服务器传统翅片热沉模组后的应用效果和对比分析,得到了以下几点结论.a.在相同条件下液冷式环路热管能够实现对服务器芯片的控温值相比传统翅片热沉模组结构降低29~32 ℃.液冷式环路热管的冷却端送水温度提高到40 ℃而水流量为0.168 m3/h时,CPU芯片的工作温度为62 ℃,仍远低于其上限安全阈值,验证了机房制冷系统节能和大幅度利用机房外环境自然冷源的可行性.b.在相同条件下风冷式环路热管能够实现对服务器芯片的控温值相比传统翅片热沉模组结构降低29~30 ℃.风冷式环路热管的冷却端送风温度提高到30 ℃而流经风速为3.0 m/s时,CPU芯片的工作温度为51.5 ℃,远低于其上限安全阈值,验证了大幅提高机房空调送风温度的可行性.c.在相同条件下液冷式环路热管能使服务器的整机噪声值相比传统翅片热沉模组结构降低接近30 dB,而风冷式环路热管则能降低接近25 dB,改善了机房内人机环境的友好性.d.无论是液冷式还是风冷式环路热管,在一定的冷却端冷却介质流量范围内,CPU工作温度的变化大小与冷却介质的温度变化值呈线性变化趋势,为指导数据中心液冷送水温度和机房内空调送风温度的进一步提高提供了支撑.e.基于环路热管的服务器芯片级散热技术能够较大幅度地提高冷却水送水和空调送风温度,为数据中心的大幅度降耗和绿色化运行提供了一种解决方案.

使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读