【ZiDongHua 之行業(yè)新資訊收錄關(guān)鍵詞:浪潮信息 KubeCon 開源技術(shù)峰會(huì) AIStation 人工智能 算力調(diào)度平臺(tái) 】

 

KubeCon熱點(diǎn)報(bào)告:AIStation調(diào)度平臺(tái)實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下大模型的高效穩(wěn)定訓(xùn)練

 

近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(huì)(簡(jiǎn)稱"開源技術(shù)峰會(huì)")上,浪潮信息分享了"基于Kubernetes+RoCEv2構(gòu)建大規(guī)模AI基礎(chǔ)設(shè)施與大模型訓(xùn)練實(shí)踐"主題報(bào)告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網(wǎng)絡(luò)的使用場(chǎng)景,如何通過AIStation人工智能算力調(diào)度平臺(tái)滿足大模型訓(xùn)練的穩(wěn)定性和效率要求,實(shí)現(xiàn)高效長(zhǎng)時(shí)間持續(xù)訓(xùn)練。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金會(huì)、云原生計(jì)算基金會(huì)(CNCF)主辦的開源和云原生領(lǐng)域的旗艦盛會(huì),在業(yè)界享有極高的聲譽(yù),來(lái)自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術(shù)專家及行業(yè)領(lǐng)袖齊聚本屆大會(huì),帶來(lái)最前沿的云原生相關(guān)技術(shù)成果和技術(shù)洞察。

大模型訓(xùn)練遇RoCE網(wǎng)絡(luò)性能低、斷點(diǎn)難題

大模型是當(dāng)前通用人工智能產(chǎn)業(yè)發(fā)展創(chuàng)新的核心技術(shù)。但大模型訓(xùn)練過程非常復(fù)雜,面臨諸多挑戰(zhàn)。

一方面,大模型訓(xùn)練對(duì)通信的要求非常高。為了獲得最優(yōu)的訓(xùn)練效果,單臺(tái)GPU服務(wù)器會(huì)搭載多張InfiniBand、ROCE等高性能網(wǎng)卡,為節(jié)點(diǎn)間通信提供高吞吐、低時(shí)延的服務(wù)。但不同的網(wǎng)絡(luò)方案各有優(yōu)劣,InfiniBand因性能優(yōu)異已被公認(rèn)為大模型訓(xùn)練的首選,但其成本較高;RoCE雖然成本較低,但在大規(guī)模的網(wǎng)絡(luò)環(huán)境下,其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓(xùn)練對(duì)通信的要求,就要對(duì)集群網(wǎng)絡(luò)中的通信設(shè)備適配使用和網(wǎng)絡(luò)情況進(jìn)行探索和設(shè)計(jì)。

另一方面,大模型訓(xùn)練周期通常長(zhǎng)達(dá)數(shù)月,集群計(jì)算效力低、故障頻發(fā)且處理復(fù)雜,會(huì)導(dǎo)致訓(xùn)練中斷后不能及時(shí)恢復(fù),從而降低大模型訓(xùn)練的成功率,也會(huì)使得訓(xùn)練成本居高不下。Meta在訓(xùn)練Open Pre-trained Transformer (OPT)-175B大模型時(shí),遇到的一大工程問題就是訓(xùn)練不穩(wěn)定,Meta訓(xùn)練日志顯示兩個(gè)星期內(nèi)因硬件、基礎(chǔ)設(shè)施或?qū)嶒?yàn)穩(wěn)定性問題重新啟動(dòng)了40多次。

AIStation實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下大模型高效穩(wěn)定訓(xùn)練

針對(duì)大模型研發(fā)和應(yīng)用各環(huán)節(jié)的諸多挑戰(zhàn),浪潮信息發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智",為大模型業(yè)務(wù)提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構(gòu)組成,其中L2層AIStation針對(duì)大模型訓(xùn)練中常見的"RoCE網(wǎng)絡(luò)性能和穩(wěn)定性低"、"訓(xùn)練中斷"難題,提供了性能和兼容性俱佳的網(wǎng)絡(luò)方案和斷點(diǎn)續(xù)訓(xùn)能力,為大模型訓(xùn)練保駕護(hù)航。

1. 優(yōu)化RoCE網(wǎng)絡(luò)下的大模型訓(xùn)練,提升網(wǎng)絡(luò)性能和穩(wěn)定性

AIStation能夠制定合理的作業(yè)執(zhí)行計(jì)劃,以最大限度地利用資源,滿足訓(xùn)練任務(wù)的時(shí)延和吞吐需求。AIStation優(yōu)化調(diào)度系統(tǒng)性能,實(shí)現(xiàn)了上千POD極速啟動(dòng)和環(huán)境就緒。尤其AIStation對(duì)大規(guī)模RoCE無(wú)損網(wǎng)絡(luò)下的大模型訓(xùn)練也做了相應(yīng)優(yōu)化,實(shí)測(cè)網(wǎng)絡(luò)性能穩(wěn)定性達(dá)到了業(yè)界較高水平。

AIStation通過PFC+ECN構(gòu)建無(wú)損以太網(wǎng)絡(luò),在交換機(jī)側(cè)控制方面,PFC在數(shù)據(jù)鏈路層基于報(bào)文-隊(duì)列優(yōu)先級(jí),在交換機(jī)入口側(cè)進(jìn)行擁塞控制,ECN在網(wǎng)絡(luò)層基于數(shù)據(jù)包頭中的標(biāo)識(shí)位,在交換機(jī)出口側(cè)進(jìn)行擁塞控制。主機(jī)容器側(cè)控制則為Kubernetes的Pod,基于Linux、OFED驅(qū)動(dòng)進(jìn)行擁塞控制。該方案資源使用靈活,且經(jīng)過多輪次的GPU分配與回收,解決了GPU分布的碎片化問題。

基于PFC+ECN構(gòu)建無(wú)損以太網(wǎng)絡(luò)
基于PFC+ECN構(gòu)建無(wú)損以太網(wǎng)絡(luò)

在大模型訓(xùn)練場(chǎng)景,AIStation通過Calico構(gòu)建元數(shù)據(jù)交換網(wǎng)絡(luò),基于物理RoCE網(wǎng)卡構(gòu)建RDMA通訊網(wǎng)絡(luò),并通過CNI和虛擬化插件實(shí)現(xiàn)IP分配,使POD內(nèi)大模型訓(xùn)練任務(wù)能夠充分利用NCCL的PXN等通信優(yōu)化特性,實(shí)現(xiàn)網(wǎng)絡(luò)的高效使用。

借助AIStation平臺(tái),某大型商業(yè)銀行完成了主流大模型訓(xùn)練框架,如DeepSpeed、Megatron-LM和大語(yǔ)言模型在RoCE網(wǎng)絡(luò)環(huán)境下的訓(xùn)練,快速實(shí)現(xiàn)大模型的落地實(shí)踐。

2. 內(nèi)置監(jiān)控系統(tǒng)和智能運(yùn)維模塊,保障大模型穩(wěn)定訓(xùn)練

健壯性與穩(wěn)定性是高效完成大模型訓(xùn)練的必要條件。利用AIStation內(nèi)置的監(jiān)控全面的監(jiān)控系統(tǒng)和智能運(yùn)維模塊,可以快速定位芯片、網(wǎng)卡、通訊設(shè)備異?;蚬收?。同時(shí)對(duì)訓(xùn)練任務(wù)進(jìn)行暫停保持,再?gòu)臒醾渌懔χ羞M(jìn)行自動(dòng)彈性替換異常節(jié)點(diǎn),最后利用健康節(jié)點(diǎn)進(jìn)行快速checkpoint讀取,實(shí)現(xiàn)大模型斷點(diǎn)自動(dòng)續(xù)訓(xùn)。

大規(guī)模預(yù)訓(xùn)練任務(wù)的異常處理和斷點(diǎn)續(xù)訓(xùn)流程
大規(guī)模預(yù)訓(xùn)練任務(wù)的異常處理和斷點(diǎn)續(xù)訓(xùn)流程

3. 自動(dòng)配置環(huán)境,快速構(gòu)建大模型訓(xùn)練任務(wù)

AIStation實(shí)現(xiàn)了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等訓(xùn)練環(huán)境的自動(dòng)化配置,同時(shí)允許用戶自定義基本的超參數(shù),只需簡(jiǎn)單幾步,就能啟動(dòng)大模型分布式訓(xùn)練。并且,AIStation還集成了主流的大模型訓(xùn)練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案,實(shí)現(xiàn)了秒級(jí)構(gòu)建運(yùn)行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務(wù)。調(diào)度系統(tǒng)根據(jù)分布式任務(wù)對(duì)GPU算力的需求,通過多種親和性調(diào)度策略,大大降低構(gòu)建分布式訓(xùn)練任務(wù)的技術(shù)門檻。

AIStation平臺(tái)在AI開發(fā)、應(yīng)用部署和大模型工程實(shí)踐上積累了寶貴的經(jīng)驗(yàn)和技術(shù),幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實(shí)現(xiàn)降本增效。在垂直行業(yè)領(lǐng)域,AIStation平臺(tái)幫助頭部金融客戶、生物制藥服務(wù)公司快速利用密集數(shù)據(jù)訓(xùn)練、驗(yàn)證大模型,大大降低大模型業(yè)務(wù)成本。某大型商業(yè)銀行基于AIStation打造的并行運(yùn)算集群,憑借領(lǐng)先的大規(guī)模分布式訓(xùn)練支撐能力,榮獲2022 IDC"未來(lái)數(shù)字基礎(chǔ)架構(gòu)領(lǐng)軍者"獎(jiǎng)項(xiàng)。

浪潮信息AIStation在大模型方面已經(jīng)取得了諸多業(yè)界領(lǐng)先的經(jīng)驗(yàn)和積累,實(shí)現(xiàn)了端到端的優(yōu)化,是更適合大模型時(shí)代的AI算力調(diào)度平臺(tái)。未來(lái)AIStation進(jìn)一步通過低代碼、標(biāo)準(zhǔn)化的大模型開發(fā)流程,以及低成本和高效的推理服務(wù)部署,幫助客戶快速實(shí)現(xiàn)大模型開發(fā)和落地,加速生成式AI發(fā)展。