液冷新時代 智算大有為 浩云長盛液冷數據中心最佳實踐
浩云長盛廣州二號云計算基地,是華南區首家大型商用液冷數據中心,采用冷板式液冷技術,助力AI算力業務降本增效:提升算力性能10%,降低GPU芯片維護成本50%,節省IB線纜投資30%。
(資料圖片僅供參考)
低碳與數字雙驅動,未來GPU資源持續火熱
數據中心是國家信息化戰略的重要基礎設施底座,發展的好壞快慢直接影響戰略落地。政策、經濟、社會、技術都在為數據中心行業高質量發展提供新動能。《“十四五”規劃》明確指出,到2025年,數字經濟核心產業增加值占GDP比重達到10%,同時到2025年單位GDP能耗下降13.5%,從發展規劃中一葉知秋,中國數字經濟既要快速發展,更要高質量發展。
2023年3月,Open AI的ChatGPT 4.0大模型發布,將人工智能的應用推向了新的高度,該模型在許多專業測試中的表現“超出了人類水平”,“比以往任何時候都更具創造性和協作性”,“可以更準確地解決難題”,ChatGPT單月訪問量突破10億次。與此同時,各個行業都在積極探索人工智能與行業結合之路,如微軟將ChatGPT接入Office 365,工作效率成倍增加。
這一股AI浪潮也沖擊了算力基礎設施底座。人工智能深度神經網絡算法(DNL)需要處理大量且并行的卷積運算,而GPU顯卡則能很好地匹配這種特性。基于業務側的帶動,加上A100的禁售,用于大模型訓練的GPU一卡難求,價格變化更是按天衡量,8卡H100服務器從60萬到150萬只用了3個月的時間。未來,GPU短缺的趨勢可能會維持,OpenAI的ChatGPT GPT 4.0在大約10000-25000張A100上進行了訓練,而GPT 5.0將可能需要30000-50000個H100。
低碳高密 風退液進
這一系列宏觀環境的變化,對數據中心行業發展方向產生了諸多影響,風冷末端到底能不能適應這一變化?在我們看來,風冷不能很好匹配業務需求的變化。
首先,風冷不能很好應對PUE挑戰,目前各省對數據中心PUE已經有明確的指導,以廣東省為例,廣東省工業和信息化廳印發了廣東省5G基站和數據中心(IDC)總體布局規劃(2021-2025)的通知,新建數據中心PUE不高于1.3,這對于廣東地區來說,是非常具備挑戰性要求。
其次,風冷的散熱效率和制冷精度不夠高。GPU芯片的功耗一定是趨向高密的,英偉達GPU A100/H100 單卡功率接近400W,芯片熱流密度 50W/平方厘米,4U整機服務器功率接近 5.5kW/臺,英偉達主推的下一代算力卡,A800/H800算力是上一代的3倍,價格只有原來的2倍,功耗接近2倍,單卡功率接近700W,熱流密度87.5W/平方厘米,4U整機接近9kW,算力硬件功率越來越高,芯片熱流密度越來越大,傳統風冷難匹配:
1. 風冷制冷效率低,不適合高功率機柜。風冷密閉通道支持的合理功率區間4~6kW,但單個4U的H800整機已經接近9kW,此時風冷制冷對于如此高密設備的散熱有點力不從心,少量服務器場景下,能采用隔機柜部署方式應急,這種非集約化部署模式在規模化的算力場景下,散熱效果并不佳,個別客戶會把GPU服務器外殼打開,增加散熱面積。這種部署方式沒有經過專業的CFD仿真驗證,既不安全,又會造成機柜資源浪費。
2. 風冷制冷對于熱源(GPU)的制冷不夠精準。純氣流組織散熱支持的芯片熱流密度極限約10W/平方厘米,達不到H800對散熱效率的要求。芯片長期工作在高溫狀態,會導致性能降低,英偉達同樣性能服務器,液冷版本和風冷版本性能差距在10%;同時,根據“十度法則”,從室溫起,電子元器件每增加十度,失效率增加一倍,壽命也會降低,GPU備件失效率增加,繼而導致整個生命周下期算力成本增加。
實踐中常常會有通道溫度低,但是芯片溫度高的情況發生,長時間高溫運行,GPU的壽命短和性能低,導致經濟成本和時間成本都增加,由此可見在算力場景,風冷并不是最合適的。液冷是通過高比熱容的冷液直接帶走熱量,這種高效的散熱方式逐漸進入大家的視野。
液冷解決方案,是GPU算力的最優解
浩云長盛廣州二號云計算基地,位于廣東省廣州市番禺區,大灣區的中心和智能汽車產業中心(雙中心),本項目按照國標CQC A級標準設計,定位為智能制造AI算力基地,是華南區首家大規模商用液冷數據中心,支持功率密度8~19KW以上,單系統PUE 1.1以下,為華南區智能制造、AI超算高質量發展提供可靠數字基礎設施底座。
冷板式液冷基本原理
液冷基本原理是采用液體作為傳熱工質在冷板內部流道流動,通過熱傳遞對熱源實現冷卻的非接觸液體冷卻技術。在冷板式液冷系統中,需要專用的液冷服務器,服務器芯片等發熱器件不直接接觸液體,而是通過裝配在需要冷卻的電子元器件上的冷板進行散熱,達到精確制冷的目的,讓GPU運行溫度更低。
二次側采用25%乙二醇加去離子水的混合液,保障換熱高效的同時兼顧安全穩定。進水溫度35-45℃范圍之間,出水溫度在45-55℃左右,進出水溫高,系統通過自然冷卻為芯片降溫,降低系統PUE。一次側和二次側通過板換實現熱交換,二次側的水泵將熱量從板換中帶出到冷卻塔散掉。
整個系統來看,跟傳統的制冷方式是有區別的:
1. 換熱次數少,傳統冷機系統5次換熱,冷板液冷3次,更少的冷量損耗;
2. 精準散熱,冷板式液冷能夠針對GPU芯片單點降溫,且冷液的比熱容是空氣的4倍,換熱效率更高,對GPU更友好;
3. 無壓縮機,風扇等部件,系統PUE更低,設備噪音更小。
冷板式液冷對比傳統氣流交換方式,在綜合性能上有質的飛躍,更貼合算力業務的特點,液冷系統單柜功率密度支持19kW以上,能提高散熱效率,降低GPU工作溫度達20℃以上。
當然,浩云長盛認為目前最佳的方案,應該是風液結合的方案,通道散熱風液結合,液冷協助GPU散熱,風冷作為輔助散熱,帶走其余部件的熱量;液冷機柜和風冷機柜混合部署,客戶的普通機柜和算力機柜能夠就近協作,提升配合效率,且方便維護。
液冷是算力業務的剛需
過去,對于最終用戶來說,用什么樣的制冷方式并不重要,風冷,水冷,間接蒸發,只要能達到功率需求都可以接受,但是在算力時代,思維方式可能要做一些改變了,因為算力資產越來越難獲取,也越來越昂貴,而制冷方式的匹配與否,直接影響到業務上線速度和投資成本。
第一,相對風冷制冷環境,液冷能夠提升GPU性能10%。根據設定,GPU長期高溫運行性能會降低,液冷能提供高效的熱散能力,提升GPU使用性能,根據OPPO算力團隊在IDCC論壇上表示,通過驗證,同樣的算力配置,服務器在液冷方式下運行比風冷效率提升約10%,意味著同樣的算力,液冷的學習周期比風冷短10%,業務能更早搶占市場。
第二,液冷能夠降低IB線纜部署成本30%以上。單臺H800服務器4U即達9kW,采用傳統的風冷制冷,單柜僅能放置1臺,且需隔機柜部署,如果采用冷板式液冷方式,單柜可直接布置2臺H800服務器,無需隔機柜部署。以單排微模塊15個機柜為例, 7臺H800服務器需要14個機柜位,線纜總長度49A(A為相鄰兩個機柜間的平均線纜連接距離),如果每柜可以放2臺,則只需要4個機柜位置(如下圖),線纜總長度16A,IB線纜長度節省超50%以上,而IB線纜每根價格在萬元級別,長度越長價格越貴。考慮到價格與長度的關系非線性,且與場景有關,項目節省線纜金額在30%以上。
風冷部署與液冷部署線纜使用長度對比
我們相信,傳輸距離變短也會有利于算力模塊之間的數據共享速率提升。有客戶明確要求,服務器到IB交換機柜的走線距離小于30米。
第三,液冷能夠降低GPU維護成本50%,提升投資收益。液冷冷板針對GPU精準、高效的散熱,降低GPU使用溫度可達20℃,根據“十度法則”,GPU故障率減少至少50%(在風冷故障率基礎之上),繼而減少GPU備件購買量,未來GPU市場的不確定性,也會導致GPU的采購難度會加大,采購成本增加,因此維持較低的GPU故障率能夠節省投資成本和時間成本,更不會因為GPU卡緊缺,而影響業務連續性。
綜上,對于最終客戶來說,隨著未來技術的迭代,GPU功耗增加,液冷已經不再是改善需求,而是智能算力的剛需。
關鍵詞:
您可能也感興趣:
今日熱點
為您推薦
為什么大家千萬不要領失業補助金,領了失業補助金有什么后果?
SPD概念持續走低 開開實業跌停
專家稱金價上破2000美元后會下跌,漲到6000美元不可想象!
排行
最近更新
- 液冷新時代 智算大有為 浩云長盛液冷數據中心最佳實踐
- 瑞馳新能源全新電動物流車EC75曝光
- 匯聚各方資源 助力基層治理(基層治理新實踐)
- 杭州亞運讓辦賽更智能
- 海嘉國際雙語學校天津校區高中能接受貫通轉學生嗎?
- 上海歡樂谷地圖游樂設施名稱_上海歡樂谷地圖
- 伊朗外長:希望加速加入金磚國家
- 品鑒 | 大俗大雅一柄扇
- 青島市中心醫院招聘一名早八晚五文員?醫院辟謠
- ?兵變落幕后首發影片招兵,瓦格納創始人普里戈任疑在非洲
- 懷柔娃的一次人生體驗課~
- 標普下調美國多家銀行信用評級:經營形勢嚴峻
- 四川榮縣試點城市森林花園住宅:每戶設置1處外挑空中花園 不...
- 大學校園是否應向公眾開放?上海多所學校已開放 有的還預約不上
- 哪吒汽車發布“浩智技術品牌2.0” 超算、滑板底盤等新技術亮相
- 中國印鈔造幣集團有限公司原董事陳義清被查
- 李蓓再唱多 其他私募這么說
- 貴州省人民政府發布任免職通知
- 10萬元獎金征集改造點子,廣州村鎮工業集聚區設計大賽啟動
- 信用賦能營商環境優化,山東2018年以來已取消各類實體證明1560余類
- 肥城:筑牢安全防線,打好安全生產翻身仗
- 長沙2個鎮入選2023鎮域經濟500強!
- 無錫上哪家醫院割包皮好,無錫陽痿哪家治得好
- 網絡安全風險管理的十大關鍵要素
- 《大仙俠》首發定檔確定通知
- 山東赫達(002810):技術指標出現看漲信號-KDJ 低位金叉(08-22)
- 安徽省黃山市發布暴雨橙色預警
- 月餅不能這么賣!山西省市場監督管理局提示
- 主產區累計收購小麥超5000萬噸 旺季收購進度已超八成
- 加長版“三伏天”結束, 咸寧本周天氣……