存儲系統如何支持大模型生成式AI
冬瓜哥上次學習AI和ML,還是在2019年初。當時其實是卷積神經網絡和深度神經網絡蓬勃發展期,其主要目的是分類識別。當時冬瓜哥還做了一個4小時的視頻,那真是我見過的最小白的白也能輕松入門,理清楚最基本的名詞概念關系的視頻了,沒有之一。那時候利用AI生成一些藝術作品已經初見雛形,但是非常不成熟,基本上都是僅供娛樂。我記得曾經至少有兩部科幻電影描述過(比如《機械公敵》,《Finch》),也許做夢對于一個機器人來講,是一種超級進化的開端。
(資料圖片僅供參考)
生成式AI,AI2.0
時過境遷。短短幾年內,新的不同于傳統分類器的模型Transformer,讓AI再一次革新。以往的RNN在自然語言處理訓練方面的并行度不是很好,需要太多通信,處理長句子時效率比較低。而Transformer模型從新的維度上解決了這個問題,高并行度讓GPU訓練效率大幅提升。這個過程,感覺像極了當年分布式系統興起的時候,大家也是拿著幾篇經典論文翻來覆去的研讀,然后開始用開源軟件,最后逐漸發展出自己的技術。
當AI突破了人類語言這道關卡,后續就有點一馬平川的感覺了。因為人類知識目前主要儲存在各種語言文本當中。再結合對圖片、聲音等各種信息的數字化映射和分析,讓AI能夠運行于多模態模式下,能夠更好的理解字里行間的信息,更精細化的生成對應的內容,走進了現實。
多模態生成式AI(AI Generated Content,AIGC)是指通過生成和分析多種模態的數據,如文本、圖像、音頻、視頻等,以實現更加豐富和精準的智能應用。與傳統機器學習方法相比,多模態生成式AI能夠充分利用多種數據之間的關聯性,提高模型的泛化能力和魯棒性。生產式AI是人工智能從1.0時代進入2.0時代的重要標志,其具備強大的認知智能,在搜索引擎、藝術創作、影音游戲、文本生成、語音生成、圖片生成、視頻生成、代碼生成、虛擬人生成以及金融、教育、醫療、工業等領域有著廣闊的應用前景。
Gartner預測,到2023年將有20%的內容被AIGC所創建;到2025 年人工智能生成數據占比將達到10%。據分析師預測,到2032年,生成式人工智能市場規模將達到2,000億美元,占據人工智能支出總額的約20%,顯著高出當前的5%。換言之,未來十年市場規模可能每兩年就會翻一番。
生成式AI的背后是基于行業上下游對數據進行采集、標注、訓練、推理、歸檔,其特征是數據量大、多元數據類型復雜、服務協議多樣、性能要求苛刻、要求服務持續在線。由于多模態數據具有復雜性和多樣性,因此多模態生成式AI需要具備以下特點:
跨模態數據融合:能夠將不同模態的數據進行有效的融合,以提取更豐富的信息。
跨語言理解:能夠理解不同語言之間的語義差異,提高跨語言應用的準確性。
上下文感知:能夠根據上下文信息進行智能推斷和預測,提高應用的場景適應能力。
知識表示:能夠將知識和信息進行有效的表示,以支持更高級別的認知和決策。
革新帶來的新挑戰,現有存儲系統還能不能打?
多模態生成式AI系統本身是一個大規模集群,無論是集中式存儲還是本地直連存儲,都早已無法滿足該系統對存儲性能和容量的基本需求。另外,以機械硬盤構建的任何存儲系統,也根本無法承擔生成式AI對存儲系統帶寬和時延的要求。總的來講,生成式AI在存儲方面所面臨的挑戰如下:
大型數據集:隨著數據和模型規模的增長,獨立存儲無法滿足應用需求。因此,解決這些問題的分布式存儲解決方案勢在必行。
歷史數據的完整歸檔:在某些場景下,AI集群每天都會產生大量新的數據集,必須將其歸檔為歷史數據。這在自動駕駛領域尤為重要,道路測試車輛收集的數據(例如雷達和攝像頭數據)對于公司來說是非常有價值的資產。在這些情況下,獨立存儲被證明是不夠的,因此分布式存儲成為必要的考慮因素。
小文件和非結構化數據過多:傳統分布式文件系統難以管理大量小文件,導致元數據存儲負擔過重。這對于視覺模型來說尤其成問題。為了解決這個問題,需要一個針對小文件存儲進行優化的分布式存儲系統。這樣既保證了上層訓練任務的高效進行,又保證了海量小文件的輕松管理。
云訓練數據I/O效率低:云模型訓練往往采用對象存儲作為存儲計算分離架構的底層存儲。然而,對象存儲較差的讀寫性能可能會導致訓練過程中出現嚴重的瓶頸。
異構數據的融合:生成式AI訓練模型的數據呈現來源多、格式多的多源異構現狀,傳統存儲面向單一數據類型設計,需要以搬移數據的方式實現多協議訪問,存儲成為應用平臺的關鍵瓶頸。
持續的低延遲與高帶寬:模型訓練過程中,頻繁的從數據集取Token,每個Token一般4字節,實時高并發小IO性能需要極低的延遲;存儲模型Checkpoint時,為Checkpoint數據可快速寫入,需要高帶寬。
EB級大容量存儲需求:越多的數據投喂結果越精準的工作原理,決定了大模型訓練存在深度學習網絡層數多、連接多、參數和數據集種類復雜、數據量大的特征,隨著模型參數和數據量的快速增長,對于存儲的大容量和擴展需求也迫在眉睫。
數據存儲產業需要進行全方位的技術升級,通過在多源異構融合、數據高速傳輸、海量數據管理等方面持續創新,打造專業的生成式AI存儲產品與解決方案。
塊,文件,對象,哪種存儲方式最好?
塊存儲
傳統觀點認為,低延遲高帶寬場景,使用塊存儲是最佳方案。然而,塊存儲在可擴展性方面卻不能令人滿意。AI集群必須在數據量、數據類型、決策速度,當然還有預算方面進行平衡。AI訓練環境對實時運行的基于網絡的推薦引擎提出了不同的要求。塊存儲傳統上非常適合高吞吐量和高I/O工作負載,其中低延遲非常重要,然而,隨著現代數據分析工作負載(包括人工智能、機器學習甚至數據湖)的出現,人們發現傳統的基于塊的平臺缺乏滿足這些平臺計算方面所產生的橫向擴展需求的能力。因此,必須采用基于文件和對象的方法來支持這些現代工作負載。
文件和對象
因此,系統架構師更傾向于基于文件或對象的?AI 和 ML 存儲。對象存儲在構建時考慮到了 PB 級大容量,并且是按規模構建的,還支持物聯網 (IoT) 等應用。對象存儲在性能方面落后于塊存儲系統,盡管隨著更新的高性能對象技術的出現,差距正在縮小。另外一個需要考慮的因素是,AI應用程序支持的存儲訪問接口各不相同,并非所有人工智能、機器學習或分析工具都支持 AWS 的 S3 接口(對象的事實標準)。
云儲存
云存儲主要是基于對象的,但為人工智能和機器學習項目提供了其他優勢。其中最主要的是靈活性和較低的前期成本。云存儲的主要缺點是延遲和潛在的數據傳輸成本。云存儲對于基于云的人工智能和機器學習系統來說是一個不錯的選擇,對于長期數據歸檔來說還是劃算的。
綜上,傳統觀點認為,沒有單一選項可以滿足人工智能、機器學習和分析的所有存儲需求。然而這個觀點在浪潮信息AS13000這個老牌分布式存儲系統面前就顯得有點過于武斷了。
浪潮信息生成式AI存儲解決方案
浪潮信息生成式AI存儲解決方案用一套AS13000融合存儲支撐生成式AI的全階段應用,提供全閃、混閃、帶庫、光盤四種介質,支持文件、對象、大數據、視頻、塊協議,可滿足大容量、多協議共享,百萬以上IOPS,100GB以上帶寬,冷數據的長期保存和歸檔。結合AIGC數據處理的五個階段:數據采集、數據準備、數據訓練、數據推理和數據歸檔,由同一套存儲提供端到端的數據流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態和全模態的模型需求。
關鍵詞:
您可能也感興趣:
為您推薦
棗陽:點亮夜經濟 激發消費新活力
北京市體育局:解除防汛預警響應區域,可恢復舉辦各項賽事活動
不滿世界杯0出場?女足國腳引名句感嘆!她曾是亞洲杯絕殺功臣
排行
最近更新
- 存儲系統如何支持大模型生成式AI
- 理想汽車營收破333億 交付量創歷史紀錄
- 怎么在網上開店賣東西(網上賣東西怎么賣)
- 塔爾德利:不會為盧卡庫放棄弗拉霍維奇,他擺脫傷病后身價將上億
- 營收和交付創季度新高 理想汽車二季度凈賺23億
- 有話你就說!營門口多了一個“吐槽箱”
- 壯大實體經濟 推動高質量發展|桂平主動靠前服務 助企發展壯大
- 焦作市溫縣:農旅融合助力鄉村振興
- OPPO K11首發手機回歸
- 搶險一線勇擔當
- 平安產險黑龍江分公司助力搶險救災
- 深交所牽手郵儲銀行
- 5家保險資管公司高層變動
- 險企推進北京門頭溝等地車險理賠
- 長沙讓地面公交更好銜接軌道交通
- 數字人民幣助多領域消費回升
- 加快一刻鐘便民生活圈建設
- 新抗真菌分子對多種感染有效
- EB皰疹病毒候選疫苗動物試驗顯潛力
- 4老2大2小,一輛兩驅商務車,沒路標,沒信號……一家8口廣東...
- 鳳爪的來歷?
- 客家話桔紐什么意思?
- 為什么農村叫的雞爪黃是一根藤莖植物?
- 家里一般最好吃什么魚?
- 哪里的魚最好吃有特色?
- 我科研團隊發現防治非酒精性脂肪肝新策略
- 164億,華晨集團大消息!
- 魅族20 12+256GB今不到3K,除了屏幕和影像,短板確實不多
- 湖南省永州市2023-08-09 07:18發布暴雨黃色預警
- 8月8日基金凈值:交銀趨勢混合A最新凈值4.3549,跌0.25%