2023-06-24 04:28:47來源:清一色財經(jīng)
打「排位賽」的大模型們背后秘密武器曝光!UC伯克利重磅開源神級LLM推理系統(tǒng)——vLLM,利用PagedAttention,比HuggingFace/Transformers快24倍,GPU數(shù)量減半。
(資料圖)
過去2個月,來自UC伯克利的研究人員給大語言模型們安排了一個擂臺——Chatbot Arena。
GPT-4等大語言模型玩家打起了「排位賽」,通過隨機(jī)battle,根據(jù)Elo得分來排名。
這一過程中,每當(dāng)一個用戶訪問并使用網(wǎng)站,就需要同時讓兩個不同的模型跑起來。
他們是如何做到的?
這不,就在今天,UC伯克利重磅開源了世界最快LLM推理和服務(wù)系統(tǒng)vLLM。
簡之,vLLM是一個開源的LLM推理和服務(wù)引擎。它利用了全新的注意力算法「PagedAttention」,有效地管理注意力鍵和值。
配備全新算法的vLLM,重新定義了LLM服務(wù)的最新技術(shù)水平:
與HuggingFace Transformers相比,它提供高達(dá)24倍的吞吐量,而無需進(jìn)行任何模型架構(gòu)更改。
值得一提的是,「小羊駝」Vicuna在demo中用到的就是FastChat和vLLM的一個集成。
正如研究者所稱,vLLM最大的優(yōu)勢在于——提供易用、快速、便宜的LLM服務(wù)。
這意味著,未來,即使對于像LMSYS這樣計算資源有限的小型研究團(tuán)隊也能輕松部署自己的LLM服務(wù)。
項目地址:https://github.com/vllm-project/vllm
現(xiàn)在,所有人可以在GitHub倉庫中使用一個命令嘗試vLLM了。論文隨后也會發(fā)布。
今天,這個由UC伯克利創(chuàng)立的開放研究組織LMSYS介紹道:
「一起來見證vLLM:Chatbot Arena背后的秘密武器。FastChat-vLLM的集成使LMSYS使用的GPU數(shù)量減少了一半,同時每天平均提供3萬次請求。」
vLLM的性能具體如何?
UC伯克利團(tuán)隊將vLLM的吞吐量與最受歡迎的LLM庫HuggingFace Transformers(HF),以及HuggingFace文本生成推理(TGI),先前的最新技術(shù)水平進(jìn)行了比較。
團(tuán)隊在兩個設(shè)置中進(jìn)行評估:在NVIDIA A10G GPU上運(yùn)行LLaMA-7B模型,在NVIDIA A100 GPU(40GB)上運(yùn)行LLaMA-13B模型。
然后,研究人員從ShareGPT數(shù)據(jù)集中抽樣請求的輸入/輸出長度。
在實驗中,vLLM的吞吐量比HF高達(dá)24倍,并且比TGI高達(dá)3.5倍。
在每個請求只需要一個輸出完成時的服務(wù)吞吐量。vLLM比HF的吞吐量高出14倍-24倍,比TGI的吞吐量高出2.2倍-2.5倍
在每個請求需要3個并行輸出完成時的服務(wù)吞吐量。vLLM比HF的吞吐量高出8.5倍-15倍,比TGI的吞吐量高出3.3倍-3.5倍
在vLLM中,團(tuán)隊發(fā)現(xiàn)LLM服務(wù)的性能受到內(nèi)存的限制。
在自回歸解碼過程中,LLM的所有輸入token都會生成注意力鍵(key)和值(value)張量,并且這些張量被保留在GPU內(nèi)存中以生成下一個token。
這些緩存的鍵和值張量通常被稱為KV緩存。KV緩存具有以下特點(diǎn):
1. 內(nèi)存占用大:在LLaMA-13B中,單個序列的KV緩存占用高達(dá)1.7GB的內(nèi)存。
2. 動態(tài)化:其大小取決于序列長度,而序列長度高度易變,且不可預(yù)測。
因此,有效管理KV緩存是一個重大挑戰(zhàn)。對此,研究團(tuán)隊發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于碎片化和過度保留而浪費(fèi)了60%至80%的內(nèi)存。
用團(tuán)隊的導(dǎo)師Joey Gonzalez的一句話來講:GPU內(nèi)存碎片化=慢。
為了解決這個問題,團(tuán)隊引入了PagedAttention,一種受到操作系統(tǒng)中虛擬內(nèi)存和分頁經(jīng)典概念啟發(fā)的注意力算法。
與傳統(tǒng)的注意力算法不同,PagedAttention允許在非連續(xù)的內(nèi)存空間中存儲連續(xù)的鍵和值。
具體來說,PagedAttention將每個序列的KV緩存分為若干塊,每個塊包含固定數(shù)量token的鍵和值。在注意力計算過程中,PagedAttention內(nèi)核能夠高效地識別和提取這些塊。
PagedAttention:KV緩存被分割成塊,這些塊在內(nèi)存中不需要連續(xù)
由于這些塊在內(nèi)存中不需要連續(xù),因此也就可以像操作系統(tǒng)的虛擬內(nèi)存一樣,以更靈活的方式管理鍵和值——將塊看作頁,token看作字節(jié),序列看作進(jìn)程。
序列的連續(xù)邏輯塊通過塊表映射到非連續(xù)的物理塊。隨著生成新的token,物理塊會按需進(jìn)行分配。
使用PagedAttention的請求生成過程示例
PagedAttention將內(nèi)存浪費(fèi)控制在了序列的最后一個塊中。
在實踐中,這帶來了接近最優(yōu)的內(nèi)存使用——僅有不到4%的浪費(fèi)。
而這種內(nèi)存效率的提升,能讓系統(tǒng)將更多的序列進(jìn)行批處理,提高GPU利用率,從而顯著提高吞吐量。
此外,PagedAttention還具有另一個關(guān)鍵優(yōu)勢:高效的內(nèi)存共享。
比如在并行采樣中,就能從相同的提示生成多個輸出序列。在這種情況下,提示的計算和內(nèi)存可以在輸出序列之間共享。
并行采樣的示例
PagedAttention通過塊表自然地實現(xiàn)了內(nèi)存共享。
類似于進(jìn)程共享物理頁的方式,PagedAttention中的不同序列可以通過將它們的邏輯塊映射到相同的物理塊來共享塊。
為了確保安全,PagedAttention會跟蹤物理塊的引用計數(shù),并實現(xiàn)了寫時復(fù)制機(jī)制。
采樣多個輸出的請求示例生成過程
PagedAttention的內(nèi)存共享極大減少了復(fù)雜采樣算法(如并行采樣和束搜索)的內(nèi)存開銷,將它們的內(nèi)存使用量減少了高達(dá)55%。這可以將吞吐量提高多達(dá)2.2倍。
總結(jié)而言,PagedAttention是vLLM的核心技術(shù),它是LLM推斷和服務(wù)的引擎,支持各種模型,具有高性能和易于使用的界面。
GitHub上,團(tuán)隊也介紹了vLLM能夠無縫支持的HuggingFace模型,包括以下架構(gòu):
– GPT-2(gpt2、gpt2-xl等)
– GPTNeoX(EleutherAI/gpt-neox-20b、databricks/dolly-v2-12b、stabilityai/stablelm-tuned-alpha-7b等)
– LLaMA(lmsys/vicuna-13b-v1.3、young-geng/koala、openlm-research/open_llama_13b等)
– OPT(facebook/opt-66b、facebook/opt-iml-max-30b等)
4月初,UC伯克利學(xué)者聯(lián)手UCSD、CMU等,最先推出了一個開源全新模型——130億參數(shù)的Vicuna,俗稱「小羊駝」。
從那時起,Vicuna已在Chatbot Arena為數(shù)百萬用戶提供服務(wù)。
最初,LMSYS的FastChat采用基于HF Transformers的服務(wù)后端來提供聊天demo。
但隨著demo變得越來越受歡迎,峰值流量猛增了好幾倍,而HF后端也因此成了一個重大的瓶頸。
為了解決這一挑戰(zhàn),LMSYS與vLLM團(tuán)隊緊密合作,全力開發(fā)出了全新的FastChat-vLLM集成——通過將vLLM作為新的后端,來滿足不斷增長的需求(最多增加5倍的流量)。
根據(jù)LMSYS內(nèi)部微基準(zhǔn)測試的結(jié)果,vLLM服務(wù)后端可以實現(xiàn)比初始HF后端高出30倍的吞吐量。
4月-5月期間,Chatbot Arena的后端已經(jīng)部落了FastChat-vLLM的集成。實際上,有超過一半的Chatbot Arena請求都使用FastChat-vLLM集成服務(wù)的
自4月中旬以來,最受歡迎的語言模型,如Vicuna、Koala和LLaMA,都已成功使用FastChat-vLLM集成提供服務(wù)。
FastChat作為多模型聊天服務(wù)前端,vLLM作為推理后端,LMSYS能夠利用有限數(shù)量的GPU(學(xué)校贊助的),以高吞吐量和低延遲為數(shù)百萬用戶提供Vicuna服務(wù)。
現(xiàn)在,LMSYS正在將vLLM的使用擴(kuò)展到更多的模型,包括Databricks Dolly、LAION的OpenAsssiant和Stability AI的StableLM等。
使用以下命令安裝vLLM(另可查看安裝指南了解更多信息):
$ pip install vllm
vLLM可用于離線推理和在線服務(wù)。要使用vLLM進(jìn)行離線推理,你可以導(dǎo)入vLLM并在Python腳本中使用LLM類:
from vllm import LLMprompts = ["Hello, my name is", "The capital of France is"] # Sample prompts.llm = LLM(model="lmsys/vicuna-7b-v1.3") # Create an LLM.outputs = llm.generate(prompts) # Generate texts from the prompts.
要使用vLLM進(jìn)行在線服務(wù),你可以通過以下方式啟動與OpenAI API兼容的服務(wù)器:
$ python -m vllm.entrypoints.openai.api_server --model lmsys/vicuna-7b-v1.3
你可以使用與OpenAI API相同的格式查詢服務(wù)器:
$ curl http://localhost:8000/v1/completions \-H "Content-Type: application/json" \-d "{ "model": "lmsys/vicuna-7b-v1.3", "prompt": "San Francisco is a", "max_tokens": 7, "temperature": 0 }"
有關(guān)使用vLLM的更多方法,請查看快速入門指南:
https://vllm.readthedocs.io/en/latest/getting_started/quickstart.html
Zhuohan Li
Zhuohan Li是加州大學(xué)伯克利分校計算機(jī)科學(xué)專業(yè)的博士生,研究興趣是機(jī)器學(xué)習(xí)和分布式系統(tǒng)的交叉領(lǐng)域。
在此之前,他在北京大學(xué)獲得了計算機(jī)科學(xué)學(xué)士學(xué)位,指導(dǎo)老師是王立威和賀笛。
Woosuk Kwon
Woosuk Kwon是加州大學(xué)伯克利分校的博士生,研究興趣是為大語言模型等新興應(yīng)用建立實用、靈活和高性能的軟件系統(tǒng)。
團(tuán)隊其他成員包括莊思遠(yuǎn)、盛穎、鄭憐憫、Cody Yu。團(tuán)隊導(dǎo)師包括Joey Gonzalez,Ion Stoica和張昊。
其中,團(tuán)隊的大部分成員同時也是LMSYS成員。
關(guān)鍵詞:
責(zé)任編輯:為了提升游客游玩體驗,滿足游客賞玩需求,經(jīng)研究決定,天涯海角游覽區(qū)
今日,北京市教委發(fā)布《關(guān)于做好應(yīng)對高溫天氣有關(guān)工作的通知》,明確高
生長詩,關(guān)于生長詩介紹這個很多人還不知道,我們一起來看看!1、《生長
1、怨天尤人指遇到挫折或出了問題,一味報怨天,責(zé)怪別人。2、成語造句
1、鳥讀音diǎoniǎo部首鳥筆畫數(shù)5筆畫名稱撇、橫折鉤、點(diǎn)、豎折折鉤、
↑點(diǎn)擊關(guān)注↑開啟精益成長今天,我們先從一個比較常見的用戶分層模型開
極目新聞記者黃志剛視頻剪輯黃志剛通訊員嚴(yán)筱鈞艾草粽葉香,街坊鄰里情
1、要制造出真正意義上的星艦首先要研發(fā)出高效的動力與能源系統(tǒng)。2、常
1、“氣急敗壞”的意思是呼吸急促,狼狽不堪。2、形容因憤怒或激動而慌
1、在游戲運(yùn)行時,按ESC打開暫停菜單→游戲設(shè)置→材質(zhì)包設(shè)置但要注意的
IT之家6月23日消息,云南開展2023年“彩云購車補(bǔ)(加油券)”活動。202
2、把排骨、雪梨、蓮藕、紅棗和姜片放入砂鍋中,加入適量清水,蓋上蓋
格雷羅2016年加盟多特,今年未與多特續(xù)約,賽季結(jié)束后自由身離隊。在離
北京時間6月23日,足協(xié)杯泰山隊與東莞莞聯(lián)的賽前發(fā)布會進(jìn)行,主帥崔康
這天兒真是太熱了昨天,北京、天津、河北及山東等地的氣溫一路走高,許
直播吧6月23日訊當(dāng)?shù)貢r間周五上午,RB萊比錫官方宣布從霍芬海姆簽下中
為了營造藝術(shù)性、操作性、互動性強(qiáng)的學(xué)習(xí)和生活環(huán)境,進(jìn)一步凸顯環(huán)境在
App6月22日消息,中國5月Swift人民幣在全球支付中占比為2 54%,前值為2 29%。
將苦筍切好,片狀條狀都無所謂,用開水灼一兩分鐘步驟2咸菜切好,可以
日前,由甘肅省甘南州人民政府、中國電信甘肅公司主辦的“暢游甘南品藏
為了提升游客游玩體驗,滿足游客賞玩需求,經(jīng)研究決定,天涯海角游覽區(qū)
中新經(jīng)緯6月20日電(熊思怡)4年巨虧29億,知名品牌美邦服飾再次“賣房回
基金的買賣通常會有一定的交易時間、手續(xù)費(fèi)以及買賣場所的限制。因此我
二十四個節(jié)氣,你能背出每一個嗎?節(jié)氣是古人們通過觀察自然年復(fù)一年的
北京時間6月22日,根據(jù)Woj的跟進(jìn)報道,奇才仍在努力和綠軍達(dá)成波爾津吉
風(fēng)從這里吹過,卷起黃沙,曾留下沙害和貧窮,也記錄了波瀾壯闊的治沙傳
北京等多地房貸利率已跟隨LPR下調(diào)每月能省多少月供?,月供,降息,lpr,北
1、陶公釣磯、余相書樓、霞嶼鎖嵐、二靈夕照、蘆汀宿雁、白石仙枰、百
烏海市氣象臺2023年06月21日16時22分發(fā)布高溫橙色預(yù)警信號:預(yù)計22日我
本文編輯劇透社:小彤未經(jīng)授權(quán)嚴(yán)禁轉(zhuǎn)載,發(fā)現(xiàn)抄襲者將進(jìn)行全網(wǎng)投訴說起
今日,北京市教委發(fā)布《關(guān)于做好應(yīng)對高溫天氣有關(guān)工作的通知》,明確高
昆明地鐵5號線2022年6月29日開通初期運(yùn)營以來,截至目前,安全運(yùn)營356
中國基金報泰勒大家好,今晚美股休息,簡單看點(diǎn)消息吧。馬云最新發(fā)聲據(jù)
資料圖:美國前總統(tǒng)特朗普。據(jù)美國《國會山報》報道,當(dāng)?shù)貢r間20日,美
作者|關(guān)三來源|快消近日有網(wǎng)友爆料活力28陷入欠薪危機(jī),一千多名員工從
生長詩,關(guān)于生長詩介紹這個很多人還不知道,我們一起來看看!1、《生長
預(yù)計6月22日白天,北京、天津、河北、河南北部、山東、安徽北部、江蘇
想必現(xiàn)在有很多小伙伴對于中原音韻方面的知識都比較想要了解,那么今天
1、怨天尤人指遇到挫折或出了問題,一味報怨天,責(zé)怪別人。2、成語造句
今天說的這款車就是理想L7。理想L7是理想汽車旗下的一款中大型五座SUV
當(dāng)?shù)貢r間22日,烏克蘭總統(tǒng)澤連斯基解除了烏克蘭駐白俄羅斯大使伊戈爾·
1、東城衛(wèi)最初叫KARMA,2005年KARMA的休止,一部分的原因是主唱聲帶受
IT之家6月23日消息,據(jù)IT之家網(wǎng)友反饋,尼康發(fā)布公告,表示Z8數(shù)碼微單
一、本科各批次錄取最低控制分?jǐn)?shù)線1 普通(文史、理工)??其浫∽畹涂?/p>
2023LPL夏季賽戰(zhàn)報:Uzi復(fù)出歸來穩(wěn)定發(fā)力EDG連贏兩把戰(zhàn)勝AL,讓我們一
北京時間6月23日,23屆NBA選秀正式拉開帷幕,經(jīng)過三個小時的挑選,1-30
1、“天宮一號”成功發(fā)射2、“神八”與“天宮一號”對接成功3、“J-20
中國寧波網(wǎng)記者戎美容通訊員沈彥汝 楊梅紅了,當(dāng)?shù)氐姆諊杏卸嘧悖?/p>
1、挺不錯,通過這個旅游網(wǎng)旅游的話不僅可以欣賞到獨(dú)特的美景,而且還
法拉第未來(FF)周二股價大跌35%,周三開盤后,F(xiàn)F股價繼續(xù)下跌
北京銀行因多項違法違規(guī)被罰4830萬元,12名相關(guān)責(zé)任人同步領(lǐng)罰。圖片來
北京最低工資標(biāo)準(zhǔn)2023是多少?附影響范圍下面隨社保網(wǎng)小編一起了解北京
她指出,昆山相關(guān)行政部門和單位都在這條路線上,公司辦理業(yè)務(wù)、審批手
1、敏而好學(xué),不恥下問——孔子2、業(yè)精于勤,荒于嬉;行成于思,毀于隨—
松花江網(wǎng),是經(jīng)國家互聯(lián)網(wǎng)信息辦公室批準(zhǔn)的國家一類新聞網(wǎng)站,吉林省重
德格縣氣象臺2023年06月21日18時39分發(fā)布雷電黃色預(yù)警信號:打滾鎮(zhèn)、溫
今日,狀元熱門文班亞馬正在接受選秀前的記者采訪。文班亞馬談到了馬刺
生香寄韓壽,關(guān)于生香寄韓壽介紹這個很多人還不知道,我們一起來看看!1
白色的蓮藕切丁和綠色的的豌豆粒搭配,然后再用胡蘿卜配色,雖然色澤
據(jù)俄羅斯衛(wèi)星通訊社報道,俄羅斯外交部副部長里亞布科夫當(dāng)?shù)貢r間22日表
(潘志安馮克靈潘亮)6月是全國第22個“安全生產(chǎn)月”,連日來,廣西—
大家在看汽車節(jié)目的時候,應(yīng)該經(jīng)常能聽到一個詞,LSD。各路汽車博主對
(通訊員方穎)6月17日,黟縣作為聯(lián)盟成員單位,赴江蘇省常熟市參加長三
近日,內(nèi)蒙古呼倫貝爾市海拉爾警方成功破獲一起買賣國家機(jī)關(guān)證件案,2
尤其是當(dāng)MEGA踏足50萬元以上的純電市場后,原本構(gòu)建的品牌與技術(shù)認(rèn)知還
國際在線報道(記者楊探驪、宋煥鈺):當(dāng)?shù)貢r間21號,老撾首都萬象火車
題汨羅江畔千年端午民俗的新傳承。掛艾草是端午節(jié)習(xí)俗之一。相傳,兩千
點(diǎn)擊上方藍(lán)字【安兔兔】關(guān)注我每天分享科技熱點(diǎn)!由于眾所周知的原因,
(吳娟)為持續(xù)踐行“金融為民”理念,積極履行金融消費(fèi)者權(quán)益保護(hù)的社會
6月23日,紅星美凱龍(01528)公告,就廈門建發(fā)擬向紅星美凱龍控股收購公
6月21日消息,今年618,超過7200輛五菱汽車通過快手電商進(jìn)入家庭,銷售
6月22日,交通運(yùn)輸部發(fā)布全國公路氣象預(yù)報(6月22日20時至23日20時)。
這兩天互聯(lián)網(wǎng)圈又出了重量級“大新聞”——億歐網(wǎng)創(chuàng)始人黃淵普“開撕”
十六衛(wèi)的士兵,既有固定的成分,又有從各地抽調(diào)的士兵,但他們肯定都是
“因為一門語言愛上一個國家,真的是很美妙的體驗。”4月2日,“魅力漢
燃?xì)馐俏覀兩钪械闹匾茉吹袝r候它也會變身為令人膽顫的“無形殺手
今天凌晨蘋果發(fā)布iOS16 5 1正式版,和上次相隔34天,iOS16 5 1更新提供
要說彰顯文藝癌的利器可不是各種小清新的衣服,而是這種超接地氣的樸素
據(jù)報道,一位網(wǎng)友利用提問技巧,讓ChatGPT生成了Win10和Win11系統(tǒng)的產(chǎn)
據(jù)玻利維亞碳?xì)浠衔锖湍茉床抗?,寧德時代對玻利維亞的投資額將提高
金融界6月21日消息中京電子(行情002579,診股)公告,公司二級全資子公司
阿嬌當(dāng)年到底多撩人?和陳冠希舊照曝光后,網(wǎng)友:女人味十足!娛樂圈的
我已經(jīng)大約8年沒失眠過了!包括陽了之后發(fā)高燒心跳加快,我可以察覺心
一些網(wǎng)友表示還不太清楚ai圖形怎么添加高斯模糊效果的相關(guān)操作,而本節(jié)
??“畢竟西湖六月中,風(fēng)光不與四時同”。因為悠久歷史和獨(dú)特韻味,杭
新華社溫得和克6月21日電通訊:中醫(yī)特色門診在納米比亞受追捧??新華
6月22日端午節(jié)的夜晚,四川多地網(wǎng)友目擊到一個閃爍著藍(lán)綠色光芒,帶著
個人信息被他人冒用,一夜之間成為某公司股東,被冒名者不但不能從股東
中國女籃在最后一場熱身賽中15分輸給了東道主澳大利亞女籃,這樣一來,
今天,中國(上海)廣播電視媒體融合發(fā)展創(chuàng)新中心授牌儀式在上海廣播電
本周組件價格不變。地面電站單晶182雙面1 41元 W,單晶210雙面1 44元 W
彭博6月21日消息,英國通脹率連續(xù)第四個月高于預(yù)期,市場匆忙調(diào)整預(yù)期
今天(2018年7月12日)中午一覺醒來,發(fā)現(xiàn)朋友圈已經(jīng)被《WeGame返利特惠
(張鵬翔孔飛孫立燕)6月20日上午,位于河北省邢臺市信都區(qū)泉南社區(qū)的南
充電樁進(jìn)小區(qū)較難、高速公路上充電較難等問題引發(fā)了廣大新能源汽車車主
今天,我的最新基金持倉診斷報告出爐了整體持倉130只產(chǎn)品,涉及11個行
中央紀(jì)委國家監(jiān)委網(wǎng)站訊2023年端午節(jié)將至,對落實中央八項規(guī)定精神必須
廣西桂林西山公園精品荷花展日前拉開帷幕,共展出102個品種精品荷花約4
體壇加,體壇+,馬德興,奧預(yù)賽,亞洲各國奧隊全面出擊熱身備戰(zhàn)9月奧預(yù)賽,,
為保障群眾端午節(jié)假期平安順利返程,6月23日下午,河南高速交警在全力
隨著科技的不斷進(jìn)步,手機(jī)芯片作為智能手機(jī)的核心組成部分,引起了人們
用一些簡單的巨型棒棒糖和由泳池面條制成的拐杖糖,為您的圣誕裝飾
中國科學(xué)院國家天文臺6月20日發(fā)布消息說,該臺陳孝鈿副研究員領(lǐng)銜完成