比Hugging Face快24倍,伯克利神級LLM推理系統開源,碾壓SOTA,讓GPU砍半
小羊駝和排位賽的「幕后英雄」
編者按:本文來自微信公眾號 新智元(ID:AI_era),作者:桃子 好困 ,創業邦經授權發布。
(相關資料圖)
過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——Chatbot Arena。
GPT-4等大語言模型玩家打起了「排位賽」,通過隨機battle,根據Elo得分來排名。
這一過程中,每當一個用戶訪問并使用網站,就需要同時讓兩個不同的模型跑起來。
他們是如何做到的?
這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務系統vLLM。
簡之,vLLM是一個開源的LLM推理和服務引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。
配備全新算法的vLLM,重新定義了LLM服務的最新技術水平:
值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個集成。
正如研究者所稱,vLLM最大的優勢在于——提供易用、快速、便宜的LLM服務。
這意味著,未來,即使對于像LMSYS這樣計算資源有限的小型研究團隊也能輕松部署自己的LLM服務。
項目地址:https://github.com/vllm-project/vllm
現在,所有人可以在GitHub倉庫中使用一個命令嘗試vLLM了。論文隨后也會發布。
性能全面碾壓SOTA今天,這個由UC伯克利創立的開放研究組織LMSYS介紹道:
「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數量減少了一半,同時每天平均提供3萬次請求。」
vLLM的性能具體如何?
UC伯克利團隊將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術水平進行了比較。
團隊在兩個設置中進行評估:在NVIDIA A10G GPU上運行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運行LLaMA-13B模型。
然后,研究人員從ShareGPT數據集中抽樣請求的輸入/輸出長度。
在實驗中,vLLM的吞吐量比HF高達24倍,并且比TGI高達3.5倍。
在每個請求只需要一個輸出完成時的服務吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍
在每個請求需要3個并行輸出完成時的服務吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍
秘密武器:PagedAttention在vLLM中,團隊發現LLM服務的性能受到內存的限制。
在自回歸解碼過程中,LLM的所有輸入token都會生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內存中以生成下一個token。
這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點:
1. 內存占用大:在LLaMA-13B中,單個序列的KV緩存占用高達1.7GB的內存。
2. 動態化:其大小取決于序列長度,而序列長度高度易變,且不可預測。
因此,有效管理KV緩存是一個重大挑戰。對此,研究團隊發現現有系統由于碎片化和過度保留而浪費了60%至80%的內存。
用團隊的導師Joey Gonzalez的一句話來講:GPU內存碎片化=慢。
為了解決這個問題,團隊引入了PagedAttention,一種受到操作系統中虛擬內存和分頁經典概念啟發的注意力算法。
與傳統的注意力算法不同,PagedAttention允許在非連續的內存空間中存儲連續的鍵和值。
具體來說,PagedAttention將每個序列的KV緩存分為若干塊,每個塊包含固定數量token的鍵和值。在注意力計算過程中,PagedAttention內核能夠高效地識別和提取這些塊。
PagedAttention:KV緩存被分割成塊,這些塊在內存中不需要連續
由于這些塊在內存中不需要連續,因此也就可以像操作系統的虛擬內存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節,序列看作進程。
序列的連續邏輯塊通過塊表映射到非連續的物理塊。隨著生成新的token,物理塊會按需進行分配。
使用PagedAttention的請求生成過程示例
PagedAttention將內存浪費控制在了序列的最后一個塊中。
在實踐中,這帶來了接近最優的內存使用——僅有不到4%的浪費。
而這種內存效率的提升,能讓系統將更多的序列進行批處理,提高GPU利用率,從而顯著提高吞吐量。
此外,PagedAttention還具有另一個關鍵優勢:高效的內存共享。
比如在并行采樣中,就能從相同的提示生成多個輸出序列。在這種情況下,提示的計算和內存可以在輸出序列之間共享。
并行采樣的示例
PagedAttention通過塊表自然地實現了內存共享。
類似于進程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。
為了確保安全,PagedAttention會跟蹤物理塊的引用計數,并實現了寫時復制機制。
采樣多個輸出的請求示例生成過程
PagedAttention的內存共享極大減少了復雜采樣算法(如并行采樣和束搜索)的內存開銷,將它們的內存使用量減少了高達55%。這可以將吞吐量提高多達2.2倍。
總結而言,PagedAttention是vLLM的核心技術,它是LLM推斷和服務的引擎,支持各種模型,具有高性能和易于使用的界面。
GitHub上,團隊也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構:
- GPT-2(gpt2、gpt2-xl等)
- GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
- LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
- OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)
小羊駝和排位賽的「幕后英雄」4月初,UC伯克利學者聯手UCSD、CMU等,最先推出了一個開源全新模型——130億參數的Vicuna,俗稱「小羊駝」。
從那時起,Vicuna已在Chatbot Arena為數百萬用戶提供服務。
最初,LMSYS的FastChat采用基于HF Transformers的服務后端來提供聊天demo。
但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個重大的瓶頸。
為了解決這一挑戰,LMSYS與vLLM團隊緊密合作,全力開發出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。
根據LMSYS內部微基準測試的結果,vLLM服務后端可以實現比初始HF后端高出30倍的吞吐量。
4月-5月期間,Chatbot Arena的后端已經部落了FastChat-vLLM的集成。實際上,有超過一半的Chatbot Arena請求都使用FastChat-vLLM集成服務的
自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務。
FastChat作為多模型聊天服務前端,vLLM作為推理后端,LMSYS能夠利用有限數量的GPU(學校贊助的),以高吞吐量和低延遲為數百萬用戶提供Vicuna服務。
現在,LMSYS正在將vLLM的使用擴展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。
vLLM使用教程使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):
vLLM可用于離線推理和在線服務。要使用vLLM進行離線推理,你可以導入vLLM并在Python腳本中使用LLM類:
要使用vLLM進行在線服務,你可以通過以下方式啟動與OpenAI API兼容的服務器:
你可以使用與OpenAI API相同的格式查詢服務器:
有關使用vLLM的更多方法,請查看快速入門指南:
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html
團隊介紹Zhuohan Li
Zhuohan Li是加州大學伯克利分校計算機科學專業的博士生,研究興趣是機器學習和分布式系統的交叉領域。
在此之前,他在北京大學獲得了計算機科學學士學位,指導老師是王立威和賀笛。
Woosuk Kwon
Woosuk Kwon是加州大學伯克利分校的博士生,研究興趣是為大語言模型等新興應用建立實用、靈活和高性能的軟件系統。
團隊其他成員包括莊思遠、盛穎、鄭憐憫、Cody Yu。團隊導師包括Joey Gonzalez,Ion Stoica和張昊。
其中,團隊的大部分成員同時也是LMSYS成員。
參考資料https://vllm.ai
關鍵詞:
您可能也感興趣:
為您推薦
煙臺一中(幸福校區)校園開放日活動6月24-25日舉行
文明單位創建巡禮丨聊城市發展和改革委員會:踐行為民宗旨 培樹文明新風
世界微資訊!從化溫泉鎮第二屆荔枝節開幕
排行
最近更新
- 比Hugging Face快24倍,伯克利神級LLM推理系統開源,碾壓SOTA,讓GPU砍半
- 豐澤:一線調研生態環保工作 天天熱議
- 世界動態:“老頭樂”加速退場 微型新能源車或成新熱點
- 注意!億田智能將于7月7日召開股東大會
- 思林杰 股票價格受宏觀環境、行業政策及市場等多種因素的影...
- 貨幣基金爆倉的原因是什么 基金爆倉會虧本金嗎_熱門看點
- 中國最大海上油田累產原油突破5億噸
- 2023山西省司法行政機關面向司法行政系統所屬院校司法行政警...
- 上海交通大學醫學院附屬第九人民醫院專技崗位招聘啟事
- 世界視訊!Konami 的手機游戲 eFootball 下載量突破 6 億次
- 全球熱議:Arm Wrestle Simulator 代碼 2023 年 6 月
- 國內首套±1200千伏車載式自動化直流耐壓試驗系統投入使用
- 微軟Windows Hello 改版,選擇是否要繼續使用你的面部或指紋登錄
- [快訊]寧德時代:中信建投證券股份有限公司寧德時代新能源科技...
- 世界微資訊!新加坡政府投資公司加大對美投資
- 2023中級經濟師考試《金融》易錯題(25)-焦點觀察
- “粽”享端午假期 各地舉辦豐富多彩民俗文化活動
- 全球熱議:06月21日逸盛大化PTA為5700元
- 泰山石油:與國網電動汽車、泰安供電公司簽訂戰略合作協議
- 前沿熱點:北京證監局對中信建投證券股份有限公司采取出具警...
- 電影《消失的她》點映及預售總票房破4000萬-焦點簡訊
- 【天天熱聞】斯泰蘭蒂斯召回部分進口全新大切諾基4xe汽車
- 黃瓜幾月份成熟應季上市?_焦點關注
- 適合在家養的高顏值花-要聞速遞
- 特斯拉FSD入華傳言不斷 我們離放心松開方向盤還很遠_天天最資訊
- 端午節里的這些中醫藥文化元素,你了解嗎?
- 全球快訊:2名中國公民在美被定罪,外交部:中方堅決反對
- 當前報道:金山區2023年批次共有產權保障住房選房工作率先在全...
- 星河地產在廣州南沙落下第13子 3.06億摘東涌鎮一宗宅地-觀察
- 你加息,我偏降息!中國通脹僅0.2%,美國只能眼紅,無奈停止...
今日要聞
- 張萌新劇《閃耀的她》:有錢有娃老公不回家|世界快看點
- 全球微動態丨公主嶺市大榆樹鎮開展安全生產進校園活動
- 國網眉山供電公司:老站煥發“新生機” 迎峰度夏添保障-天天快看
- 中國互聯網協會:打擊利用惡意投訴非法牟利行為_環球資訊
- 環球播報:首家氫能產教融合基地成立 “校地企”聯合打造首都氫能產業創新高地
- 速讀:41.1℃,北京今天最高溫創了個紀錄!明天還可能達到40℃……
- 神祇很難生育,但唐三一家特能生,這得感謝小舞,兔子賊能生嘛_世界觀天下
- CBC銅金屬一周要聞精選(6.19-6.21)|天天最資訊
- 避暑游如何有“流量”更有“留量”?
- 反轉了!熱火競爭利拉德,開拓者反報價阿德巴約,利拉德終于表態_天天快播報