“燒錢”的大模型,如何邁過存儲這道坎?
幾乎每一個行業都在討論大模型,每一個行業巨頭都在訓練大模型,人工智能已然進入了大模型主導的時代。
想要占領大模型應用的高地,數據和算力可以說是不可或缺的基石。和算力相關的討論已經有很多,以至于英偉達的市值在2023年翻了兩番。同樣不應小覷的還有數據,除了數據量的爆炸性增長,數據的讀取、寫入、傳輸等基礎性能,開始遇到越來越多的新挑戰。
01 “榨干”算力必須邁過的一道坎
在許多人的認知里,訓練大模型是一門燒錢的生意。坊間傳聞,GPT-4的訓練成本高達10億美元,想要讓大模型釋放出應有的“魔法”,“涌現”出對答如流的能力,需要一只“獨角獸”的前期投入。
(資料圖)
再具體一些的話,大模型訓練的成本構成中,硬件投資包括算力、運力、存力,其中算力相關硬件投資占比80%。畢竟一顆80GB的A100芯片在國外的定價就高達萬美元左右,一個千億級參數的大模型,往往需要上萬顆A100的算力??稍诂F實的訓練過程中,GPU的平均利用率卻不足50%,制約因素包括大模型參數需要頻繁調優、訓練中斷后恢復周期長、數據加載速度慢等等。
不客氣的說,算力資源閑置的每一分鐘都是在燃燒經費,倘若可以進一步提高算力資源的利用率,等于間接降低了大模型的訓練成本。要提到算力利用率,必須要邁過的一道坎就是數據讀寫性能的挑戰。
大模型在訓練過程中,需要先讀取一塊數據,在數據讀取完成后進行訓練,訓練過程中會讀取下一塊數據。如果訓練結束時下一塊數據沒有讀取完成,就會造成一定的等待時間。再加上網絡波動、算力故障導致的訓練中斷,即Checkpoint時刻,重啟訓練會退回到前一個節點,同樣會產生算力空置的等待時間。
不那么樂觀的是,目前的訓練數據通常以圖片、文檔等小文件的形式存在,意味著在訓練過程中需要頻繁地讀取和寫入數據,并且需要支持快速地隨機訪問。何況大模型訓練的原始數據集動輒幾十個TB,當前文件系統的小文件加載速度不足100MB/s,無形中限制了整個系統的運轉效率。
根據第一性原理,大模型訓練時算力利用率低的誘因是海量的小文件,傳統存儲系統無法高效地處理這些數據,導致加載速度緩慢。大模型訓練的效率要達到極致,減少不必要的浪費,必須在數據上下功夫,準確地說,必須要在數據存儲性能上進行創新。
而華為在高性能NAS存儲上深耕多年,其OceanStor Dorado全閃存NAS擁有業界領先性能,尤其在海量小文件場景,性能做到了領先業界30%。
在openEuler開發者大會2023上,華為還攜手openEuler發布了NFS+協議,矛頭直指客戶端訪問OceanStor Dorado NAS的性能,試圖通過引入外置高性能并行文件存儲系統,縮短大模型訓練中的等待時間,盡可能把算力的價值“榨”出來。
02 華為NFS+協議帶來的“屠龍術”
揭開華為NFS+協議的“面紗”前,似乎有必要回顧下NFS協議的歷史。作為Sun公司在1984年開發的分布式文件系統協議,NFS已經存在了近40年,廣泛應用于金融、EDA仿真、話單、票據影像等行業。
只是在時間的推移下,“老將”NFS逐漸暴露出了一些短板。比如傳統NFS單個掛載點僅指定一個服務端IP地址,在網口故障或者鏈路故障場景下,可能出現掛載點無法訪問的情況;一端故障時IP無法感知時,僅依靠應用層手動掛載文件系統,雙活鏈路無法自動切換;單個掛載點性能受限于單個物理鏈路性能,重要業務存在性能瓶頸。
大約在兩年前,華為開始了NFS+協議的研發,著力解決傳統NFS的不足,最終交出了一份“高可靠高可用”的答卷:
一是可靠性。打個比方的話,傳統NFS的客戶端和服務端之間僅有一條路,NFS+協議允許單個NFS掛載點使用多個IP進行訪問,等于在客戶端和服務端之間修了多條路,巧妙解決了傳統NFS被詬病的“可靠性”問題。
二是多鏈路聚合。客戶端和服務端之間僅有一條路時,一旦出現事故就會導致交通擁堵;而NFS+協議在選路算法的加持下,實現了單個掛載點在多條鏈路上均衡下發IO,確保服務端和客戶端的數據傳輸暢通無阻。
三是緩存加速。大模型訓練時,需要將元數據緩存到計算節點。傳統NFS相對保守,緩存過期的時間比較短。而NFS+協議改善了緩存大小和失效機制,可以讓元數據更多、更長時間保存在主機側,以滿足大模型訓練的高時延需求。
四是數據視圖同步。正如前面所提到的,大模型訓練需要快速的隨機訪問,NFS+協議采用了數據視圖同步的方式,大模型訓練需要讀取某個節點的數據時,直接與對應節點高效地放置和訪問數據,找到最優的訪問鏈路。
做一個總結的話,NFS+協議采用了高性能并行文件存儲系統的設計,針對海量小文件場景進行了特殊優化,比如多鏈路聚合、緩存加速、數據視圖同步等,均在提升海量小文件的讀寫性能,最終在大模型訓練過程中實現“讀寫快、少等待”,減少算力的空置時間。
一組Client測試數據印證了NFS+協議的路線正確:相較于傳統的文件存儲,訓練樣本小IO隨機讀性能提升了4倍以上,CheckPoint大文件切片+多路徑傳輸提升了4-6倍的帶寬能力,足以滿足大模型訓練的苛刻要求。
03 數據存儲進入到“大模型時代”
某種程度上說,大模型訓練催生的數據存儲性能要求,不過是文件存儲系統加速演變的一個側面。
直到今天,文件存儲的需求仍在不斷更新,文件系統的創新也在持續發生,就像大模型訓練需求所折射出的演進方向。
要知道,英偉達的一個訓練節點,每秒就可以處理2萬張圖片,每個節點需要8萬IOPS,大模型典型配置有是千億參數千卡,單位時間內對海量小文件的讀寫頻率要求極高。
這恐怕也是華為和openEuler聯合發布NFS+協議的原因,市場對于文件系統的創新需求驟然加快,勢必會引發頭部科技企業圍繞數據存儲的“軍備競賽”,華為無疑是這場競賽中沖在最前面的玩家之一。
但對文件存儲系統的市場格局稍作了解的話,華為自研NFS+協議,還隱藏著另一重深意。
一方面,Lustre、GFPS、BeeGFS等并行系統的MDS方案,將元數據和文件數據訪問分開,仍存在性能和可靠性的瓶頸;而NFS+協議的元數據不再聚焦于某個性能節點,而是分配到集群的所有節點里面,可以在主機側實現多連接,消除了大模型語境下高頻處理小文件的底層瓶頸。
另一方面,站在大多數用戶的角度上,NFS+協議可以更好的兼容已有的使用習慣,原先建立在傳統NFS上的運維機制和知識體系不作廢,文件系統的切換過程更平緩,不用修改操作系統數據面,即可讓NAS存儲訪問性能提升6倍、可靠性提升3倍,以極低的成本擁抱大模型訓推浪潮。
無可否認的是,大模型正在從前臺的“火熱”,轉向整個產業鏈條的協同驅動,數據存儲正是其中的關鍵一環。
在這樣的趨勢下,行業注意力將從“煉模”一步步轉向更高效、更快速的“煉?!?,海量小文件的采集和加載性能、算力資源的利用率等指標,將被越來越多的企業所關注,勢必會掀起一場化繁為簡的文件存儲革命。
關鍵詞:
您可能也感興趣:
為您推薦
下雨了抒發心情的說說
怎么算無期徒刑假釋考驗期
酒駕應該如何處,法律是如何規定的
排行
最近更新
- “燒錢”的大模型,如何邁過存儲這道坎?
- 被指“砸盤元兇”,量化機構創始人聯合多家百億私募“自證清白”
- 福安:讓畬族文化活起來傳下去
- 冀衛 · 醫說就懂(54)|老眩暈?快測測前庭功能
- 沈陽簽約14個航空產業項目
- 延吉市人民檢察院打造黨建文化墻 提升黨建新活力
- 銀川做好旱情災害防御工作
- 托尼:國米鋒線火力不足,希望他們能在近日鋒線引進強援
- 東吳證券給予海泰新光買入評級,2023中報點評:業績符合預期...
- 海南橡膠2023年上半年凈利-2.7億 虧損增長279.49%
- 誘導未成年人非理性追星,關閉解散違規賬號、群組1800余個
- 華懋香港八大商場將推出一系列晚間消費優惠推動夜市經濟
- 三部委:部省聯合簽訂義務教育優質均衡發展備忘錄,明確實現...
- 虎鳳蝶擬使用自有閑置資金1000萬(含1000萬)購買結構性存款...
- 8月29日三聯鍛造漲停分析:新能源車零部件,汽車零部件,新能...
- 視頻丨煙火天心味正濃丨樂在天心① 鄉村休閑
- 鼎運智能擬投資300萬設立全資子公司鼎運科宏科技(臺州)有限公司
- 唐彩股份及子公司將利用閑置自有資金購買產品總額不超過5000...
- 同濟的她,收獲國家級榮譽
- 遂寧市2023年科技型中小企業評價入庫暨技術合同認定登記工作...
- 陜西民警打傷殘疾人,9個月后竟還在上班,如此明目張膽護犢子?
- 零跑汽車上半年虧22億、單車虧超5萬 毛利率仍未轉正
- 暑期檔“流量密碼”,上海影城現象級“千人灌”是如何煉成的?
- 全力保障防汛救災和恢復重建 北京市財政累計下達資金超21億元
- 三一重能最新公告:上半年凈利潤8.17億元 同比增長2.38%
- 2023年秋季學期自貢公辦中小學教育收費標準
- 老白干酒:上半年歸母凈利潤2.17億元 同比減40.17%
- 唐人神2023年上半年凈利-6.64億 虧損增長375.22%
- 大唐蔚州能源公司推進黨風廉政建設縱深發展
- 國網七臺河供電:緊急搶修恢復居民供電