隨著AI技術(shù)從機器學(xué)習(xí)演進至深度學(xué)習(xí),并進一步邁向生成式AI的新階段,算法、算力及數(shù)據(jù)需求呈現(xiàn)出爆炸式增長態(tài)勢。大模型爆發(fā)初期,眾多企業(yè)布局,要求存儲提供高帶寬、高IOPS和低時延,以確保模型能夠快速有效地進行訓(xùn)練。而在模型的實際部署與應(yīng)用過程中,又需要實現(xiàn)數(shù)據(jù)的跨域、跨介質(zhì)靈活調(diào)度,以及高質(zhì)量數(shù)據(jù)集的高效管理,這對存儲系統(tǒng)的靈活性、安全性及數(shù)據(jù)的可持續(xù)訪問能力構(gòu)成了新的挑戰(zhàn)。

在近期舉辦的中國數(shù)據(jù)與存儲峰會AI+存儲協(xié)同發(fā)展論壇上,浪潮信息分布式存儲產(chǎn)品總監(jiān)張業(yè)興發(fā)表了題為"數(shù)聚存儲,智慧未來"的演講。演講中,張業(yè)興不僅回顧了過去一年人工智能領(lǐng)域的迅猛發(fā)展態(tài)勢,還深入闡述了浪潮信息在這一背景下如何精心布局新產(chǎn)品、新技術(shù)和新方案。

AI時代:存儲的轉(zhuǎn)型與重塑

人工智能已被提升至國家戰(zhàn)略的高度,成為驅(qū)動新質(zhì)生產(chǎn)力發(fā)展的關(guān)鍵力量。張業(yè)興指出,數(shù)據(jù)作為一種新型生產(chǎn)要素,不僅是勞動工具,還能創(chuàng)造經(jīng)濟價值。隨著數(shù)據(jù)的迅猛增長和摩爾定律的持續(xù)推動,人工智能正步入一個爆發(fā)式增長的階段,特別是在GPU市場規(guī)模及智能算力領(lǐng)域,展現(xiàn)出了驚人的增長潛力。據(jù)預(yù)測,至2028年,全球GPU市場規(guī)模有望達到2461.5億美元,而中國市場的規(guī)模也將攀升至459億美元,年復(fù)合增長率高達32.8%。這一趨勢清晰地表明,人工智能正引領(lǐng)著第四次工業(yè)革命,對經(jīng)濟社會產(chǎn)生著廣泛而深遠的影響。

在人工智能時代的大背景下,存儲系統(tǒng)的角色已悄然轉(zhuǎn)變,它不再是單純的數(shù)據(jù)存儲容器,而是成為了推動人工智能發(fā)展的核心組件。隨著大模型技術(shù)的蓬勃發(fā)展,存儲系統(tǒng)正面臨著前所未有的挑戰(zhàn)。在大模型市場的初期布局中,已有超過400家廠商爭相涌入,模型訓(xùn)練的"速度"成為了競爭的關(guān)鍵。為了提高GPU的利用效率,存儲系統(tǒng)必須能夠提供TB級的高帶寬和百萬級的高IOPS,以確保模型訓(xùn)練的高效運行。

此外,隨著模型在各行業(yè)的落地,數(shù)據(jù)的跨域和跨介質(zhì)調(diào)動變得至關(guān)重要,存儲系統(tǒng)需要實現(xiàn)全局命名空間的管理,以支持大規(guī)模數(shù)據(jù)的高效匯集和利用。同時,在大模型的行業(yè)化落地過程中,為了提升通用模型的專業(yè)化能力,高質(zhì)量且可重復(fù)利用的數(shù)據(jù)集成為了不可或缺的資源。數(shù)據(jù)的安全存儲與可持續(xù)性訪問能力成為了存儲系統(tǒng)必須滿足的重要要求。

AS13000G7:解鎖存儲潛能,賦能AI未來

針對上述挑戰(zhàn),浪潮信息推出了分布式融合存儲平臺AS13000G7,在性能優(yōu)化、融合互通、韌性保障等多個維度進行了技術(shù)創(chuàng)新。

在性能優(yōu)化方面,AS13000G7通過數(shù)控分離架構(gòu),減少了數(shù)據(jù)在轉(zhuǎn)發(fā)和拷貝過程中的延遲,單流帶寬可達15GB/s,單節(jié)點帶寬超過100GB/s,相比傳統(tǒng)數(shù)控一體架構(gòu)性能提升60%以上。此外,AS13000G7能夠智能識別大IO和小IO,通過切片處理和聚合處理,將不同規(guī)模的數(shù)據(jù)形成統(tǒng)一的數(shù)據(jù)團,并存入全局緩存中,實現(xiàn)小IO性能提升5倍。同時,數(shù)據(jù)緩存預(yù)讀功能能夠在訓(xùn)練過程中提前加載熱點數(shù)據(jù),進一步提升數(shù)據(jù)加載速度。另外,AS13000G7還設(shè)計了全用戶態(tài)的輕量級IO站,利用多任務(wù)并行和無鎖IO處理技術(shù),實現(xiàn)了延遲降低40%,訓(xùn)練數(shù)據(jù)加載時間減少30%。

在近期發(fā)布的MLPerf™ Storage v1.0 AI存儲基準測試中,AS13000G7參與了八項測試并獲得了五項全球第一的成績,如3D-UNet測試中,支持264個模擬加速器,GPU利用率超90%時提供360GB每秒帶寬,單節(jié)點帶寬超120GB每秒;在CosmoFlow模型測試中,樣本讀取時間極短,單客戶端和多客戶端分別提供了18GB/s和52GB/s的帶寬。

在融合互通方面,AS13000G7支持多種接入?yún)f(xié)議,如NFS和S3等,并通過復(fù)原數(shù)據(jù)管理實現(xiàn)文件和對象數(shù)據(jù)的協(xié)議互通、語義無損以及性能一致,避免了數(shù)據(jù)格式轉(zhuǎn)換和多份存儲的問題,為用戶節(jié)省了高達50%的存儲空間。同時,AS13000G7還建立了全局統(tǒng)一命名空間,納管所有數(shù)據(jù),實現(xiàn)跨域、跨介質(zhì)和跨協(xié)議的靈活調(diào)動,提供統(tǒng)一數(shù)據(jù)視圖,并支持10億級文件秒級檢索,有效解決了數(shù)據(jù)孤島問題,方便用戶數(shù)據(jù)訪問與管理。

在韌性保障方面,AS13000G7定期進行亞健康檢測,并通過內(nèi)部冗余保護機制實現(xiàn)免遷移快速重構(gòu),將TB級重構(gòu)時間降至5分鐘內(nèi),每次故障恢復(fù)時間降低90%。此外,AS13000G7運用AIOps算法預(yù)測磁盤故障、容量趨勢、性能趨勢和SSD壽命,其中磁盤故障預(yù)測準確率達98%以上,誤報率僅0.007%。在數(shù)據(jù)安全層面,AS13000G7設(shè)置了五層系統(tǒng)防護,采用快篩機器學(xué)習(xí)和深篩深度學(xué)習(xí)算法來檢測惡意軟件,漏報率僅為0.029%,誤報率為0.33%。

面向大模型應(yīng)用,基于AS13000G7的AI存儲解決方案,整合不同盤位存儲設(shè)備形成統(tǒng)一資源池,提供高性能、高利用率和高韌性,滿足數(shù)據(jù)全生命周期需求。結(jié)合AI資源調(diào)度平臺,提升數(shù)據(jù)預(yù)讀加載效率30%,已服務(wù)眾多AIGC客戶。

在上海某高校的應(yīng)用案例中,由于該校擁有多個與AI相關(guān)的學(xué)科,數(shù)據(jù)導(dǎo)入呈現(xiàn)出多元多態(tài)的特點,業(yè)務(wù)需求也涵蓋了數(shù)據(jù)的匯集、處理、訓(xùn)練和推理等多個環(huán)節(jié)。浪潮信息為其提供32節(jié)點GPU服務(wù)器作為計算支持,并配置20個節(jié)點的AS13000G7 24盤位全閃節(jié)點作為存儲資源池,實現(xiàn)對象文件融合存儲,降低總體擁有成本(TCO)達30%,大帶寬高IOPS的特性支持了模型毫秒級讀寫,進一步縮短訓(xùn)練等待時間40%。

從市場表現(xiàn)來看,浪潮信息在存儲領(lǐng)域取得了顯著的成就。2024年上半年,浪潮信息存儲裝機容量位列全球前三,企業(yè)級存儲銷售額在中國市場排名第二,全閃存儲銷售額同樣在中國市場排名第二。

展望未來,浪潮信息將繼續(xù)憑借其先進的技術(shù)和解決方案,在全球和國內(nèi)存儲市場中保持重要地位,并持續(xù)推動數(shù)據(jù)存儲行業(yè)的發(fā)展。同時,浪潮信息也將致力于助力各行業(yè)在人工智能時代實現(xiàn)數(shù)字化轉(zhuǎn)型和智能化升級,有望在技術(shù)創(chuàng)新和市場拓展方面取得更大的突破。