国产精品久久99,51久久成人国产精品麻豆,亚洲欧洲免费三级网站,最近中文字幕mv,重口老太大和小伙乱

首頁>科技 > 正文

使用UCS(On-Premises) 管理您的GPU資源池,釋放AI大模型算力潛能

2023-08-23 11:05:32來源:華為云

過去十余年,依托全球數(shù)據(jù)、算法、算力持續(xù)突破,人工智能全面走向應(yīng)用,已成為社會生產(chǎn)生活的支柱性技術(shù)。 盡管人工智能技術(shù)成熟度正在不斷提高,但目前眾多企業(yè)進行人工智能應(yīng)用仍然面臨著AI應(yīng)用部署存在困難、投入產(chǎn)出比不達預(yù)期等問題。


(相關(guān)資料圖)

芯片作為算力基礎(chǔ)設(shè)施,是推動人工智能產(chǎn)業(yè)發(fā)展的動力源泉,由于GPU比CPU更適合處理企業(yè)數(shù)據(jù)中心和超大規(guī)模網(wǎng)絡(luò)中AI和機器學(xué)習(xí)所需的許多計算,數(shù)據(jù)中心對GPU的需求一直不斷增長。

在算法訓(xùn)練推理領(lǐng)域,以“大模型”為代表的人工智能算法模型體現(xiàn)出模型參數(shù)的數(shù)量不斷增加的趨勢,高度復(fù)雜化的模型融入應(yīng)用程序后可能帶來訓(xùn)練、推理框架的適配難度的增加,而在交付和部署后對模型的修改也會給用戶帶來服務(wù)中斷等問題。

為順應(yīng)AI“大模型”時代的發(fā)展,亟需解決如下技術(shù)挑戰(zhàn):

提升GPU資源資源率: AI大模型進入萬億參數(shù)時代,遠超單GPU芯片能力,訓(xùn)練框架需要將訓(xùn)練任務(wù)分發(fā)至不同GPU分別運行,并在GPU間共享結(jié)果,大規(guī)模的GPU集群應(yīng)運而生;在 當(dāng)前GPU算力稀缺且價格高昂的背景下,如何統(tǒng)一管理數(shù)據(jù)中心構(gòu)建規(guī)模GPU集群并匯聚分散的GPU算力,根據(jù)大模型任務(wù)按需分配GPU算力,提升整體的GPU算力資源利用率,一直是云計算AI領(lǐng)域關(guān)注的技術(shù)焦點; 統(tǒng)一的AI算力調(diào)度平臺: 近幾年人工智能快速發(fā)展, 各種深度學(xué)習(xí)框架不斷涌現(xiàn),如TensorFlow、CNTK、MXNet、PyTorch和Caffe2等,國內(nèi)機構(gòu)亦推出了 PaddlePaddle、MindSpore、 Seetaface、FudanNLP等;面對眾多AI開源框架及組件,亟需統(tǒng)一的調(diào)度平臺降低AI訓(xùn)練任務(wù)的部署復(fù)雜性、提升AI訓(xùn)練、推理任務(wù)效率。

UCS (On-Premises) 搭載xGPU&Volcano智能調(diào)度引擎,加速數(shù)據(jù)中心AI計算

華為云分布式云原生UCS服務(wù),是面向分布式云場景下的新一代云原生產(chǎn)品,提供UCS (Huawei Cloud)、UCS (Partner Cloud)、UCS (Multi-Cloud)、UCS (On-Premises) 以及UCS (Attached Clusters) 等產(chǎn)品,覆蓋公有云、多云、本地數(shù)據(jù)中心、邊緣等分布式云場景。

其中,華為云UCS (On-Premises) 服務(wù)是在大規(guī)模分布式、高安全合規(guī)、高性能的互聯(lián)網(wǎng)應(yīng)用驅(qū)動下,產(chǎn)生的新一代集開發(fā)運維、發(fā)布管理為一體的云原生平臺,支持將容器管理能力延展至用戶數(shù)據(jù)中心,提供云上云下一致的操作體驗。針對用戶在本地本地數(shù)據(jù)中心AI計算的訴求,用戶可通過UCS(On-Premises)提供的GPU虛擬化、AI任務(wù)管理及調(diào)度能力,輕松應(yīng)對大模型時代的GPU資源利用率及統(tǒng)一的AI框架調(diào)度平臺的技術(shù)挑戰(zhàn):

GPU資源利用率提升: 隨著大模型爆發(fā)式發(fā)展,金融、制造、互聯(lián)網(wǎng)等行業(yè)紛紛構(gòu)建行業(yè)大模型,需要采購大量的GPU資源滿足業(yè)務(wù)訴求,但是在實踐調(diào)研發(fā)現(xiàn),很多AI服務(wù)雖然使用GPU,但是GPU的利用率普遍不高(顯存平均小于30%,GPU算力小于1%),為了充分利用緊張而寶貴的GPU資源,華為云通過GPU虛擬化、華為云云原生操作系統(tǒng)HCE(Huawei Cloud EulerOS)等核心技術(shù),提供GPU的顯存、算力隔離能力,促進不同的AI任務(wù)可充分使用單張GPU,充分壓榨GPU的算力資源,并結(jié)合高速網(wǎng)絡(luò),促進AI任務(wù)隊列對GPU資源的充分共享,提升IDC的整體GPU資源利用率; 統(tǒng)一的AI算力調(diào)度平臺: 結(jié)合華為云智能調(diào)度引擎volcano、智能洞察引擎等能力,快速構(gòu)建云原生AI基礎(chǔ)設(shè)施平臺,支持Tensorflow、Pytorch、MxNet、MindSpore等通用AI訓(xùn)練、推理框架及豐富的AI調(diào)度策略,提升分布式訓(xùn)練的能力,同時基于云原生技術(shù)的開發(fā)集成及部署,結(jié)合底層硬件基礎(chǔ)設(shè)施,構(gòu)建“應(yīng)用+資源”感知調(diào)度能力,促進AI應(yīng)用及核心業(yè)務(wù)應(yīng)用的共同運行,幫助企業(yè)敏捷、高效、安全地利用數(shù)據(jù)進行大模型應(yīng)用開發(fā),并在應(yīng)用部署過程中實現(xiàn)成本優(yōu)化和靈活的版本控制。

華為云xGPU技術(shù),原生兼容AI容器應(yīng)用,實現(xiàn)GPU算顯隔離、故障隔離

為了在容器場景下充分使用GPU資源,解決上述提到的算力隔離、顯存隔離、故障隔離,華為云在HCE(Huawei Cloud EulerOS)內(nèi)核基礎(chǔ)上研發(fā)了xGPU技術(shù),針對人工智能場景,實現(xiàn)多個AI容器共用一張顯卡,同時具備業(yè)務(wù)的安全隔離,保障多組任務(wù)有效使用同一張GPU物理卡,大幅度提升AI訓(xùn)練任務(wù)在UCS(On-Premises)集群的運行體驗,目前xGPU能力已經(jīng)完全落地在UCS(On-Premises)平臺之上,如下是整體架構(gòu):

xGPU不僅實現(xiàn)單卡GPU虛擬化,還原生兼容kubernetes生態(tài)

深度兼容kubernetes: xGPU技術(shù)原生與kubernetes深度兼容 無侵入式修改廠商驅(qū)動和代碼庫,運行時無需替換CUDA庫;適配標(biāo)準(zhǔn)的Containerd工作方式,容器業(yè)務(wù)無需任何改造。

GPU資源靈活隔離: x GPU實現(xiàn)了物理GPU的資源任意劃分,根據(jù)訓(xùn)練任務(wù)的配置要求按照不同比例靈活隔離;可從算力、顯存兩個維度進行細粒度劃分,達到MB級顯存隔離、5%粒度的算力劃分。

總結(jié)展望

UCS(On-Premises)旨在將云上的服務(wù)能力延伸至各行業(yè)的客戶的本地數(shù)據(jù)中心,結(jié)合volcano的AI作業(yè)管理及智能調(diào)度能力、xGPU的GPU虛擬化能力,幫助用戶快速在IDC構(gòu)建云原生的AI基礎(chǔ)設(shè)施,更細粒度的使用GPU資源,讓用戶聚焦AI的業(yè)務(wù)開發(fā),最大限度釋放AI大模型算力潛能。

查看原文,了解更多信息:【 】

參考:

《人工智能標(biāo)準(zhǔn)化白皮書》(2021版)

《人工智能安全標(biāo)準(zhǔn)化白皮書》(2023版)

《華金證券:AI產(chǎn)業(yè)化再加速,智能大時代已開啟-GPU行業(yè)深度報告》

《艾瑞咨詢:2021年中國云原生AI開發(fā)平臺白皮書》

關(guān)注 ,了解更多資訊

關(guān)鍵詞:

責(zé)任編輯:

免責(zé)聲明

頭條新聞

精彩推送

新聞推送