2023-06-21 17:01:21來源:清一色財經(jīng)
打「排位賽」的大模型們背后秘密武器曝光!UC伯克利重磅開源神級LLM推理系統(tǒng)——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU數(shù)量減半。
過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——Chatbot Arena。
GPT-4等大語言模型玩家打起了「排位賽」,通過隨機battle,根據(jù)Elo得分來排名。
(資料圖片僅供參考)
這一過程中,每當一個用戶訪問并使用網(wǎng)站,就需要同時讓兩個不同的模型跑起來。
他們是如何做到的?
這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。
簡之,vLLM是一個開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。
配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:
與HuggingFace Transformers相比,它提供高達24倍的吞吐量,而無需進行任何模型架構(gòu)更改。
值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個集成。
正如研究者所稱,vLLM最大的優(yōu)勢在于——提供易用、快速、便宜的LLM服務(wù)。
這意味著,未來,即使對于像LMSYS這樣計算資源有限的小型研究團隊也能輕松部署自己的LLM服務(wù)。
項目地址:https://github.com/vllm-project/vllm
現(xiàn)在,所有人可以在GitHub倉庫中使用一個命令嘗試vLLM了。論文隨后也會發(fā)布。
今天,這個由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:
「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時每天平均提供3萬次請求?!?/p>
vLLM的性能具體如何?
UC伯克利團隊將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進行了比較。
團隊在兩個設(shè)置中進行評估:在NVIDIA A10G GPU上運行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運行LLaMA-13B模型。
然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請求的輸入/輸出長度。
在實驗中,vLLM的吞吐量比HF高達24倍,并且比TGI高達3.5倍。
在每個請求只需要一個輸出完成時的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍
在每個請求需要3個并行輸出完成時的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍
在vLLM中,團隊發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。
在自回歸解碼過程中,LLM的所有輸入token都會生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個token。
這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點:
1. 內(nèi)存占用大:在LLaMA-13B中,單個序列的KV緩存占用高達1.7GB的內(nèi)存。
2. 動態(tài)化:其大小取決于序列長度,而序列長度高度易變,且不可預(yù)測。
因此,有效管理KV緩存是一個重大挑戰(zhàn)。對此,研究團隊發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過度保留而浪費了60%至80%的內(nèi)存。
用團隊的導(dǎo)師Joey Gonzalez的一句話來講:GPU內(nèi)存碎片化=慢。
為了解決這個問題,團隊引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁經(jīng)典概念啟發(fā)的注意力算法。
與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲連續(xù)的鍵和值。
具體來說,PagedAttention將每個序列的KV緩存分為若干塊,每個塊包含固定數(shù)量token的鍵和值。在注意力計算過程中,PagedAttention內(nèi)核能夠高效地識別和提取這些塊。
PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)
由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節(jié),序列看作進程。
序列的連續(xù)邏輯塊通過塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會按需進行分配。
使用PagedAttention的請求生成過程示例
PagedAttention將內(nèi)存浪費控制在了序列的最后一個塊中。
在實踐中,這帶來了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費。
而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進行批處理,提高GPU利用率,從而顯著提高吞吐量。
此外,PagedAttention還具有另一個關(guān)鍵優(yōu)勢:高效的內(nèi)存共享。
比如在并行采樣中,就能從相同的提示生成多個輸出序列。在這種情況下,提示的計算和內(nèi)存可以在輸出序列之間共享。
并行采樣的示例
PagedAttention通過塊表自然地實現(xiàn)了內(nèi)存共享。
類似于進程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。
為了確保安全,PagedAttention會跟蹤物理塊的引用計數(shù),并實現(xiàn)了寫時復(fù)制機制。
采樣多個輸出的請求示例生成過程
PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達55%。這可以將吞吐量提高多達2.2倍。
總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。
GitHub上,團隊也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構(gòu):
– GPT-2(gpt2、gpt2-xl等)
– GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
– LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
– OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)
4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。
從那時起,Vicuna已在Chatbot Arena為數(shù)百萬用戶提供服務(wù)。
最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來提供聊天demo。
但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個重大的瓶頸。
為了解決這一挑戰(zhàn),LMSYS與vLLM團隊緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。
根據(jù)LMSYS內(nèi)部微基準測試的結(jié)果,vLLM服務(wù)后端可以實現(xiàn)比初始HF后端高出30倍的吞吐量。
4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實際上,有超過一半的Chatbot Arena請求都使用FastChat-vLLM集成服務(wù)的
自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。
FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬用戶提供Vicuna服務(wù)。
現(xiàn)在,LMSYS正在將vLLM的使用擴展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。
使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):
$ pip install vllm
vLLM可用于離線推理和在線服務(wù)。要使用vLLM進行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:
from vllm import LLMprompts = ["Hello, my name is", "The capital of France is"] # Sample prompts.llm = LLM(model="lmsys/vicuna-7b-v1.3") # Create an LLM.outputs = llm.generate(prompts) # Generate texts from the prompts.
要使用vLLM進行在線服務(wù),你可以通過以下方式啟動與OpenAI API兼容的服務(wù)器:
$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3
你可以使用與OpenAI API相同的格式查詢服務(wù)器:
$ curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d "{ "model": "lmsys/vicuna-7b-v1.3", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0 }"
有關(guān)使用vLLM的更多方法,請查看快速入門指南:
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html
Zhuohan Li
Zhuohan Li是加州大學(xué)伯克利分校計算機科學(xué)專業(yè)的博士生,研究興趣是機器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。
在此之前,他在北京大學(xué)獲得了計算機科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。
Woosuk Kwon
Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語言模型等新興應(yīng)用建立實用、靈活和高性能的軟件系統(tǒng)。
團隊其他成員包括莊思遠、盛穎、鄭憐憫、Cody Yu。團隊導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。
其中,團隊的大部分成員同時也是LMSYS成員。
關(guān)鍵詞:
責(zé)任編輯:打「排位賽」的大模型們背后秘密武器曝光!UC伯克利重磅開源神級LLM推
“共享法庭”讓矛盾就地化解,聯(lián)合協(xié)作提高執(zhí)行效率,異地糾紛實現(xiàn)線上
大河網(wǎng)訊6月21日,我們迎來夏至節(jié)氣。夏至已至,所有美好如約而至。在
小伙伴們,你們好,今天小夏來聊聊一篇關(guān)于鮮人參烏雞煲,關(guān)于鮮人參烏
截至2023年6月21日收盤浩云科技300448報收于627元下跌442換手率366成交
早先馮小剛電影《非誠勿擾3》立項,備案單位為中國電影股份有限公司、
打「排位賽」的大模型們背后秘密武器曝光!UC伯克利重磅開源神級LLM推
“共享法庭”讓矛盾就地化解,聯(lián)合協(xié)作提高執(zhí)行效率,異地糾紛實現(xiàn)線上
南咸北甜的粽子爭霸賽,已然悄悄拉開帷幕。糖在糖基化的過程中,會與蛋
6月21日,滬指報收3197 9,較前一交易日下跌1 31%。個護用品行業(yè)整體表
白鶴是國家一級保護動物。隨著自然環(huán)境的變化,人類濫伐森林等原因,白
月薪最高可達8萬?高凈值家庭流行“兒童成長陪伴師”,業(yè)內(nèi)稱非高顏值
今日夏至,全國大部分地區(qū)氣溫持續(xù)升高,即將迎來一年中最熱的時期。夏
滬指6月21日下跌1 31%,申萬所屬行業(yè)中,今日上漲的有1個,漲幅居前的
格隆匯6月21日丨謝瑞麟(00417 HK)發(fā)布公告,自2023年6月21日起:陳偉康
潮新聞客戶端通訊員邵丹波為深化推進城鄉(xiāng)風(fēng)貌整治提升,加快推動小微空
當扶霞回到讓她心心念念的成都紅星新聞闊別成都3年半之后,扶霞·鄧洛
大河網(wǎng)訊6月21日,我們迎來夏至節(jié)氣。夏至已至,所有美好如約而至。在
大家好,今日關(guān)于【美海洋專家:失蹤潛艇或已“內(nèi)爆”】迅速上了的熱搜
◎6月20日晚,一心堂公布了3筆收購交易。具體來看,一心堂此次收購的藥
中國人民銀行組織召開金融系統(tǒng)座談會。會議強調(diào),要充分認識審計工作的
據(jù)工信部網(wǎng)站21日消息,工信部近日印發(fā)《工業(yè)互聯(lián)網(wǎng)專項工作組2023年工
1、是因為邁克爾杰克遜患了皮膚病,導(dǎo)致皮膚變白。2、杰克遜本人在1993
小伙伴們,你們好,今天小夏來聊聊一篇關(guān)于鮮人參烏雞煲,關(guān)于鮮人參烏
中國食品藥品網(wǎng)訊(記者落楠)6月21日,國家藥監(jiān)局發(fā)布公告,針對將于7
中新網(wǎng)6月21日電據(jù)新西蘭中文先驅(qū)網(wǎng)綜合報道,新西蘭政府已經(jīng)簡化了技
保稅科技2023年6月21日在上證E互動上發(fā)布消息稱,截至2023年6月20日公
小伙伴們,你們好,今天小夏來聊聊一篇關(guān)于鮮于臣紹,關(guān)于鮮于臣紹簡述
由于未成年人心智不成熟、缺乏必要的媒介素養(yǎng)和自控能力等因素,更容易
2023年長沙市中考已結(jié)束,中考成績預(yù)計于2023年7月2日晚上出來,快提前
格隆匯6月21日丨有投資者向晨光新材(605399 SH)提問,“貴司烯丙基縮水
吉利銀河重返打擂模式
近日,吉林省教育廳網(wǎng)站發(fā)布了關(guān)于擬入選吉林省第三批高校黃大年式教師
中新網(wǎng)南京6月21日電(記者朱曉穎)端午節(jié)將至。從各消費平臺數(shù)據(jù)看,更
1、樓上的。2、指的是長沙醫(yī)學(xué)院湘雅那個曾經(jīng)叫湖南醫(yī)科大學(xué)。相信通過
揚子晚報網(wǎng)6月21日訊(記者閆春旭)6月19日,四川鄰水尋人志愿者甘彪攜
問題:我平時很少買煙,所以不太詳細的知道煙的價格,尤其是這種叫黑牡
端午節(jié)來臨之際,長春市朝陽區(qū)紅旗街道同德社區(qū)退役軍人服務(wù)站聯(lián)合相關(guān)
為進一步豐富山東省鄒城市殘疾人特別是重度殘疾人精神文化生活,弘揚主
唯彩看球分享七星彩第23071期易嘉惠膽碼分析,查看專家精選膽碼、走勢
格隆匯6月21日丨今飛凱達(002863)(002863 SZ)公布,公司于近日收到深圳
央視網(wǎng)消息:農(nóng)業(yè)農(nóng)村部網(wǎng)站消息,據(jù)農(nóng)業(yè)農(nóng)村部監(jiān)測,2023年6月12日-6
沈陽公積金貸款購買新建自住住房怎么申請?沈陽公積金貸款購買新建自住
6月19日至20日,省人大常委會黨組書記、常務(wù)副主任王艷玲前往洪湖、監(jiān)
西紅柿和牛肉,都是營養(yǎng)豐富的食材,兩者一起搭配燉著吃,不僅營養(yǎng),而
《九州江湖情》是一款以古代江湖武俠為題材的手游,玩家在游戲中可以扮
安徽省教育招生考試院網(wǎng)站(www ahzsks cn)已公布2023年國家、地方、
【環(huán)渤海動力煤價格環(huán)比上行5元 噸】秦皇島煤炭網(wǎng)21日發(fā)布的最新一期環(huán)
一、汽車后市場發(fā)展環(huán)境分析隨著國外4S店模式和國際連鎖汽修企業(yè)的進入
小伙伴們,你們好,今天小夏來聊聊一篇關(guān)于鮮奶酪,關(guān)于鮮奶酪簡述的文
1、常綠大喬木,平均樹高37m,胸徑超過1 0m。2、邊材白色至淡棕色,干
接收機的架構(gòu)資料深入淺出Enjoying~清晰內(nèi)容請下載pdf原文~下載方法:1
2023年云南省彩云購車補加油券申領(lǐng)平臺活動合作企業(yè)及平臺:中油好客e
6月20日下午,懷化市市場監(jiān)督管理局黨組成員、副局長彭永忠?guī)ьI(lǐng)價格監(jiān)
長三角端午節(jié):粽子“餡寬體瘦”煮黃酒流行---中新網(wǎng)南京6月21日電端午
美股當?shù)貢r間6月20日,美股三大指數(shù)集體收跌,道指跌0 72%,納指跌0 16
6月21日上午,成都市2023年“三個做優(yōu)做強”重大項目現(xiàn)場推進暨公園城
大皖新聞訊?6月21日,安徽省新能源汽車產(chǎn)業(yè)集群建設(shè)推進大會在合肥召
H&M又要關(guān)店?在去年關(guān)閉了全國首店后,5月28日,H&M宣布北京三里屯太
波司登開始賣防曬衣了做冬天生意的波司登開始做夏天生意了。近日,在給
留言截圖(點擊圖片查看留言)人民網(wǎng)聊城6月21日電(記者聶俊穹)“東昌府
科技日報記者宋迎迎通訊員高偉位于青島膠州灣西岸的中德生態(tài)園,是我國
1、陰歷日期初一、十六:滿潮:10 36、23 00。2、干潮:4 24、16 48。3
中國網(wǎng)財經(jīng)6月21日訊(記者李冰)近日,宿州銀保監(jiān)分局披露行政處罰信息
三峽晚報訊(記者高源)為進一步完善社區(qū)公共場所醫(yī)療急救體系,提升社
截至2023年6月21日收盤,華興源創(chuàng)(688001)報收于31 85元,下跌3 78%,
日前,焦作市和平街小學(xué)迎來了焦作愛爾諾大山幼兒園參觀團,為小朋友們
2023年6月21日,盈峰環(huán)境發(fā)生1筆大宗交易,總成交858 8萬股,成交金額4
[本站資訊]日前,凱迪拉克官方發(fā)布了純電動版凱雷德的預(yù)告,該車或命名
近年來,云南省玉溪市華寧縣積極調(diào)整農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu),壯大優(yōu)勢農(nóng)產(chǎn)品基地
6月20日,走進開封市尉氏縣朱曲鎮(zhèn)五村村,寬敞明亮的農(nóng)家書屋書香四溢
昆明信息港訊通訊員黃雯?為了讓孩子們感受中華民族傳統(tǒng)文化,體驗中國
6月21日,2023北京消費季“京彩華夏惠購節(jié)”在朝陽區(qū)悠唐購物中心盛大
新華社大連6月20日電(記者肖世堯、蔡擁軍)20日,中國男足國家隊2:0擊
賞民俗,品文化,情寄端午,祝愿幸福安康!
1、馬丁靴如何搭配我覺得馬丁靴搭配的關(guān)鍵還在于上衣,褲子的話只要褲
長期以來,德銀零售部門一直難以盈利;即將上任的德桑蒂斯試圖按照地區(qū)
證監(jiān)會:優(yōu)化債券審核注冊機制:證監(jiān)會發(fā)布《債券注冊制改革指導(dǎo)意見》
正式官宣!廣東宏遠救火外援回歸,加盟老牌勁旅,能否證明自己,勁旅,cb
央行:深入推進金融系統(tǒng)審計整改工作:中國人民銀行組織召開金融系統(tǒng)座
路由器管理員密碼忘記了怎么辦?最近有朋友問小編這樣的問題,小編總結(jié)
1、問題現(xiàn)象WindowsXP和Windows7系統(tǒng)的計算機通過局域網(wǎng)互聯(lián)時,經(jīng)常出
經(jīng)優(yōu)化調(diào)整后,3號線首班車最早發(fā)車站點及時間為營崗站:5時18分;末班
【ITBEAR科技資訊】6月21日消息,充電樁進小區(qū)較難、高速公路上充電較
我們的節(jié)日·端午6月21日22時58分我們將迎來夏至節(jié)氣這是北半球一年中
拜登:將在國情咨文中建議兩黨通過立法規(guī)管AI
02:516月21日,國務(wù)院新聞辦舉行國務(wù)院政策例行吹風(fēng)會,介紹促進新能源
2023年6月7日,全球最權(quán)威的第三方認證機構(gòu)之一TüV萊茵,聯(lián)合不同領(lǐng)域
近日“2023年中國最美縣域榜單”在各個社交平臺刷屏全國上榜縣市區(qū)105
2023云南彩云購車補加油券申領(lǐng)攻略限量即享購車10000份先到先得,2500
新海南客戶端、南海網(wǎng)6月21日消息(記者譚琦)6月15日至8月15日,海南
垣曲縣氣象臺2023年6月21日15時48分發(fā)布雷暴大風(fēng)藍色預(yù)警,預(yù)警區(qū)域:
國家外匯管理局網(wǎng)站消息,近日,中國人民銀行副行長、國家外匯管理局局
北京6月21日電(華卓瑪)隨著我國深化醫(yī)療改革,我國醫(yī)藥健康行業(yè)正在迅
小伙伴們,你們好,今天小夏來聊聊一篇關(guān)于鮮奶油生日蛋糕,關(guān)于鮮奶油
6月19日,在剛剛結(jié)束的省第十四屆運動會社會組(省轄市組)體育舞
吳易昺沒有放棄,在對手的發(fā)球勝賽局中也逼出了3個破發(fā)點,實現(xiàn)關(guān)鍵破
6月21日,周三歐市盤中,樂觀的英國通脹數(shù)據(jù)提振英鎊 日元恢復(fù)上行動能
現(xiàn)在的企業(yè)大多數(shù)都是會給員工購買社會保險的,那么簽訂勞動合同必須交
6月21日,中國海警2502艦艇編隊在我釣魚島領(lǐng)海內(nèi)巡航。這是中國海警依
陸川縣氣象臺6月21日15時13分發(fā)布雷電橙色預(yù)警信號:目前雷雨云團正逐
什么是真正的看破紅塵,什么是真正的覺悟?看破紅塵了,覺悟了,并
6月19日,農(nóng)行嘉魚縣支行向湖北深發(fā)建筑工程有限公司授信1 98億元,并
◎正如中科院院士吳一戎所說,以衛(wèi)星遙感為代表的空天技術(shù),為人們提供