IBM AI存儲(chǔ)：算力稀缺時(shí)代的"破局者"

時(shí)間：2023-11-21 16:17:18 發(fā)布：第一對(duì)焦：IBM

算力稀缺時(shí)代，存力大有可為

作者：周立旸，IBM 大中華區(qū)科技事業(yè)部存儲(chǔ)軟件產(chǎn)品總監(jiān)

/美通社/ -- 2023年11月，業(yè)界"又雙叒叕"發(fā)布了數(shù)款重磅 AI 基礎(chǔ)架構(gòu)產(chǎn)品。算力方面，英偉達(dá)（NVIDIA）發(fā)布了號(hào)稱"史上最強(qiáng)"的新一代AI芯片H200，和上一代產(chǎn)品相比，顯存容量幾乎翻了一番，性能提升了60% 到90%。存力方面，IBM同樣發(fā)布了新一代 Storage Scale System 6000（SSS 6000），這是一個(gè)旨在滿足數(shù)據(jù)密集型和 AI 工作負(fù)載需求的云規(guī)模全球數(shù)據(jù)平臺(tái)，單個(gè)模塊可提供超過(guò) 256GB/s 的吞吐量和 5M IOPS 的文件訪問(wèn)性能，分別超過(guò)市場(chǎng)領(lǐng)先競(jìng)爭(zhēng)對(duì)手 2.5 倍和 2 倍，能夠滿足多個(gè)并行的 AI 工作負(fù)載和數(shù)據(jù)密集型工作負(fù)載對(duì)極高的數(shù)據(jù)訪問(wèn)速度要求。

周立旸，IBM 大中華區(qū)科技事業(yè)部存儲(chǔ)軟件產(chǎn)品總監(jiān)

IBM AI存儲(chǔ)：算力稀缺時(shí)代的“破局者”

IBM Storage Scale System 6000

IBM 在2022年發(fā)布的Storage Scale System 3500（SSS 3500）數(shù)據(jù)存儲(chǔ)，單個(gè)模塊24塊NVMe SSD可以提供超過(guò)125GB/s 的數(shù)據(jù)訪問(wèn)性能，已經(jīng)大幅領(lǐng)先于大部分 AI 存儲(chǔ)產(chǎn)品，IBM為何要推出更高性能的 SSS 6000呢？

算力和算法的發(fā)展，需要更快速的數(shù)據(jù)訪問(wèn)

人工智能是算法、數(shù)據(jù)、算力的有效結(jié)合，近年來(lái)大模型訓(xùn)練和推理、多模態(tài) AI等領(lǐng)域的突破更是得益于高質(zhì)量數(shù)據(jù)的發(fā)展。隨著數(shù)據(jù)集規(guī)模不斷增加，應(yīng)用程序載入數(shù)據(jù)花費(fèi)的時(shí)間越來(lái)越長(zhǎng)，進(jìn)而影響了應(yīng)用程序的性能，因?yàn)榇媪Σ蛔銓?dǎo)致的低效I/O使得運(yùn)算速度日益提升的GPU無(wú)用武之地。為了滿足不斷提高的算力和各種基礎(chǔ)模型對(duì)更大參數(shù)規(guī)模的需要，也需要提供更高速的數(shù)據(jù)訪問(wèn)能力。

舉例來(lái)說(shuō)，在目前主流的NVIDIA H100/H800 平臺(tái)上，運(yùn)行一個(gè)大小為30TB的圖像數(shù)據(jù)集用于AI訓(xùn)練，每顆GPU所需的數(shù)據(jù)存儲(chǔ)訪問(wèn)性能就超過(guò)了4GBps，運(yùn)行更大規(guī)模的數(shù)據(jù)集的應(yīng)用或支持多種負(fù)載的智算平臺(tái)可能需要數(shù)百GBps到數(shù)TBps的高速數(shù)據(jù)存儲(chǔ)才能滿足其對(duì)存力的需求。經(jīng)過(guò)充分優(yōu)化的 IBM Storage Scale System 可以充分發(fā)揮并行架構(gòu)和高速網(wǎng)絡(luò)的優(yōu)勢(shì)，加速各種 AI 工作負(fù)載應(yīng)用。

此外，不僅僅是訓(xùn)練環(huán)節(jié)，對(duì)于AI應(yīng)用來(lái)說(shuō)，從數(shù)據(jù)攝入到生產(chǎn)推理，每個(gè)環(huán)節(jié)都需要利用不同工具實(shí)現(xiàn)海量數(shù)據(jù)處理，并且這是一個(gè)不斷重復(fù)的流程。用戶需要構(gòu)建的端到端的高速數(shù)據(jù)管道，簡(jiǎn)化流程并實(shí)現(xiàn)數(shù)據(jù)安全、高效的流動(dòng)?；贗BM Storage Scale軟件多協(xié)議互通的全局?jǐn)?shù)據(jù)平臺(tái)能力，用戶可以在不同地點(diǎn)通過(guò)不同接口訪問(wèn)同樣的數(shù)據(jù)，減少創(chuàng)建不必要的數(shù)據(jù)副本并通過(guò)智能的緩存技術(shù)減少數(shù)據(jù)傳遞的網(wǎng)絡(luò)開(kāi)銷，整合來(lái)自核心、邊緣和云端的寶貴數(shù)據(jù)資源。

AI應(yīng)用全流程

算力短缺時(shí)代，需要提高GPU資源的利用率

隨著通用型人工智能和大模型的發(fā)展，目前包括中國(guó)公司在內(nèi)的全球AI公司都存在算力短缺的情況，英偉達(dá)等主要供應(yīng)商的中高性能 GPU更是"千金難求"。對(duì)于擁有一定數(shù)量GPU的用戶來(lái)說(shuō)，如果能夠?qū)PU的利用率提高一倍，就相當(dāng)于增加了一倍的額外算力，在更短的時(shí)間內(nèi)完成更多的應(yīng)用。

由于顯存容量受限，多機(jī)多卡的GPU集群需要共享的外部存儲(chǔ)來(lái)為所有節(jié)點(diǎn)提供高速的應(yīng)用數(shù)據(jù)訪問(wèn)。將數(shù)據(jù)從存儲(chǔ)載入到GPU，過(guò)去都是由CPU負(fù)責(zé)，而這將會(huì)成為硬件性能的瓶頸。即使實(shí)現(xiàn)了服務(wù)器節(jié)點(diǎn)到存儲(chǔ)的高速訪問(wèn)，數(shù)據(jù)到GPU的這"最后一公里"往往會(huì)造成GPU等待數(shù)據(jù)的情況，導(dǎo)致GPU利用率低下。

為此，英偉達(dá)開(kāi)發(fā)了GPUDirect存儲(chǔ)技術(shù)，可以通過(guò)RDMA高速網(wǎng)絡(luò)直接將數(shù)據(jù)從外部存儲(chǔ)傳輸至 GPU 顯存上，能有效減輕CPU I/O的瓶頸，提升GPU 訪問(wèn)數(shù)據(jù)的帶寬并大幅縮短時(shí)間延遲。IBM Storage Scale軟件是首批支持該技術(shù)的認(rèn)證存儲(chǔ)產(chǎn)品，經(jīng)測(cè)試，采用GDS 技術(shù)的IBM Storage Scale System 可以將GPU 訪問(wèn)數(shù)據(jù)的帶寬提高一倍，時(shí)間延遲縮短一半。

在實(shí)際應(yīng)用中，通過(guò)采用GDUDirect 存儲(chǔ)（GDS）技術(shù)可以將GPU的利用率提高90%。例如，德國(guó)大陸汽車（Continental Automotive AG）采用 IBM Storage Scale System 作為 NVIDIA DGX 系統(tǒng)的共享數(shù)據(jù)存儲(chǔ)后，AI 訓(xùn)練時(shí)間縮短了 70%，每個(gè)月完成的試驗(yàn)數(shù)量增長(zhǎng)了14倍，寶貴GPU資源的利用率得到了極大的提升。

GPUDirect 存儲(chǔ)技術(shù)帶來(lái)時(shí)間延遲和CPU利用率的顯著改善

IBM 存儲(chǔ)與英偉達(dá)有著多年的合作歷史，早在2018年和2019年就推出了DGX-1 POD和DGX-2 POD 的參考架構(gòu)，并幫助英偉達(dá)利用IBM Storage Scale System構(gòu)建了2018年全球超級(jí)計(jì)算機(jī)排名第61位的Circe和2019年全球排名第22位的DGX-2H SuperPOD；此后更是成為其 GPU Direct to Storage (GDS) 公開(kāi)測(cè)試版本的合作伙伴，針對(duì)NVIDIA DGX A100 和 H100 的BasePOD 和 SuperPOD 都提供了NVIDIA認(rèn)證的參考存儲(chǔ)架構(gòu)。

IBM Storage Scale軟件也是首批官方認(rèn)證支持GDS的產(chǎn)品。今年11月發(fā)布的最新Top500超級(jí)計(jì)算機(jī)榜單中，位于西班牙巴塞羅那超級(jí)計(jì)算中心的MareNostrum 5 ACC（GPU集群分區(qū)）排名第八，該系統(tǒng)采用了4500塊NVIDIA H100 GPU，其存儲(chǔ)部分采用了容量為248PB的IBM Storage Scale System和400PB的磁帶系統(tǒng)。

IBM AI存儲(chǔ)的降本增效"黑科技"

除了 IBM Storage Scale 軟件的高性能數(shù)據(jù)訪問(wèn)能力，以及跨系統(tǒng)、跨地域的全局?jǐn)?shù)據(jù)訪問(wèn)和調(diào)度能力，IBM AI存儲(chǔ)還有不少"黑科技"可以更好地幫助 AI 用戶降本增效：

綠色節(jié)能：IBM 享有專利的計(jì)算存儲(chǔ)驅(qū)動(dòng)器FlashCore Module (FCM) 在存儲(chǔ)驅(qū)動(dòng)器內(nèi)部集成了智能的FPGA芯片，通過(guò)硬件加速可實(shí)現(xiàn)強(qiáng)大的在線數(shù)據(jù)壓縮和加密功能?；谠摷夹g(shù) Storage Scale System 6000可以在4U空間內(nèi) 提供高達(dá) 3.6PB 全閃存有效容量，將每 TB 的存儲(chǔ)成本降低 70%，將每TB的能耗降低 53%。
安全彈性：IBM Storage Scale 軟件的糾刪碼功能確保了數(shù)據(jù)可靠性，與傳統(tǒng) RAID 相比，可以在數(shù)分鐘(而非數(shù)小時(shí)或數(shù)天) 內(nèi)重建磁盤，最大程度地減少故障對(duì)數(shù)據(jù)訪問(wèn)性能的影響；IBM Storage Scale 軟件提供 Safeguarded Copy（不可篡改的數(shù)據(jù)快照）和日志審計(jì)、加密功能，可以有效應(yīng)對(duì)如網(wǎng)絡(luò)攻擊和勒索病毒等的安全威脅，提供高達(dá) 6 個(gè) 9 的可用性。
支持混搭：IBM Storage Scale 提供多種部署和配置選項(xiàng)，可將不同存儲(chǔ)設(shè)備、基于 NFS 的其它文件存儲(chǔ)和基于S3的其它對(duì)象存儲(chǔ)、甚至是磁帶存儲(chǔ)統(tǒng)一納入到全局命名空間中，消除數(shù)據(jù)孤島，簡(jiǎn)化海量數(shù)據(jù)的訪問(wèn)和管理。

IBM AI存儲(chǔ)支持多協(xié)議互通

得益于這些領(lǐng)先優(yōu)勢(shì)，在2023年發(fā)布的Gartner 分布式存儲(chǔ)魔力象限報(bào)告中，IBM連續(xù)第八年被評(píng)為領(lǐng)導(dǎo)者，并在報(bào)告中被認(rèn)為是用于高性能文件、AI 和分析型工作負(fù)載的最佳解決方案。

無(wú)論是應(yīng)對(duì)當(dāng)前算力稀缺的挑戰(zhàn)，還是發(fā)展以數(shù)據(jù)為中心的新一代AI應(yīng)用，提升存力、優(yōu)化數(shù)據(jù)存儲(chǔ)已經(jīng)成為必選項(xiàng)。我們期待繼續(xù)攜手中國(guó)客戶和合作伙伴突破算力瓶頸、避開(kāi)成本陷阱，更加高效地將AI轉(zhuǎn)化為生產(chǎn)力！

關(guān)于IBM

IBM 是全球領(lǐng)先的混合云、人工智能及企業(yè)服務(wù)提供商，幫助超過(guò) 175 個(gè)國(guó)家和地區(qū)的客戶，從其擁有的數(shù)據(jù)中獲取商業(yè)洞察，簡(jiǎn)化業(yè)務(wù)流程，降低成本，并獲得行業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)。金融服務(wù)、電信和醫(yī)療健康等關(guān)鍵基礎(chǔ)設(shè)施領(lǐng)域的超過(guò) 4000 家政府和企業(yè)實(shí)體依靠 IBM 混合云平臺(tái)和紅帽 OpenShift 快速、高效、安全地實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。IBM 在人工智能、量子計(jì)算、行業(yè)云解決方案和企業(yè)服務(wù)方面的突破性創(chuàng)新為我們的客戶提供了開(kāi)放和靈活的選擇。對(duì)企業(yè)誠(chéng)信、透明治理、社會(huì)責(zé)任、包容文化和服務(wù)精神的長(zhǎng)期承諾是 IBM 業(yè)務(wù)發(fā)展的基石。

自動(dòng)對(duì)焦：人工智能數(shù)字化轉(zhuǎn)型 AI

咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請(qǐng)加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、數(shù)字化轉(zhuǎn)型微信群、AI微信群，各細(xì)分行業(yè)微信群：點(diǎn)擊這里進(jìn)入。

鴻達(dá)安視：水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器　　　　　　金葉儀器：氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案

 西凱昂：SMC氣動(dòng)元件、力士樂(lè)液壓元件、倍加福光電產(chǎn)品等　　　　　山東諾方：顆粒物傳感器、粉塵濃度傳感器

 深圳金瑞銘：RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案　　　　　　北京英諾艾智：容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案

評(píng)論排行

自動(dòng)化網(wǎng)誠(chéng)征自動(dòng)化科技賦能高質(zhì)量發(fā)展解決方案(3)

深耕應(yīng)用，兆易創(chuàng)新攜全系產(chǎn)品和行業(yè)解決方案亮相慕尼黑電子展(3)

推好品牌觀察：西門子在滬設(shè)立其中國(guó)首個(gè)智能基礎(chǔ)設(shè)施數(shù)字化賦能中心(2)

黑芝麻智能發(fā)布華山開(kāi)發(fā)者計(jì)劃高質(zhì)量賦能多元應(yīng)用場(chǎng)景(2)

WOODHEAD通訊卡備品備件：Applicom International PCU1500S7 PCU 1500 S7 V4.5.0(2)

安森美和上能電氣攜手引領(lǐng)可持續(xù)能源應(yīng)用的發(fā)展兩家公司合作開(kāi)發(fā)高性能儲(chǔ)能和太陽(yáng)能組串式逆變器方案以實(shí)現(xiàn)可持續(xù)的未來(lái)(2)

【6.15-16日】2023第八屆中國(guó)數(shù)字供應(yīng)鏈創(chuàng)新峰會(huì),演講大咖陣容官宣(2)

LS伺服電機(jī)APM-SB02ADK(2)

Kepware 工業(yè)數(shù)據(jù)采集軟件及常見(jiàn)問(wèn)題解答(2)

維視教育大咖年終講：打造智能制造人才培養(yǎng)體系(1)

白鶴灘水電站全部機(jī)組投產(chǎn)發(fā)電世界最大清潔能源走廊全面建成|將為建設(shè)新型能源體系、保障國(guó)家能源安全、實(shí)現(xiàn)“雙碳”目標(biāo)提供有力支撐(1)

推好細(xì)分產(chǎn)業(yè)觀察--物聯(lián)網(wǎng)：2026年中國(guó)物聯(lián)網(wǎng)市場(chǎng)規(guī)模接近3000億美元智慧工廠、智慧城市、智慧電網(wǎng)等將占60%以上(1)

加大在用計(jì)量器具、試驗(yàn)檢測(cè)設(shè)備的自動(dòng)化、數(shù)字化改造力度|市場(chǎng)監(jiān)管總局工業(yè)和信息化部關(guān)于促進(jìn)企業(yè)計(jì)量能力提升的指導(dǎo)意見(jiàn)(1)

全國(guó)首套自動(dòng)化虛擬電廠系統(tǒng)在深圳試運(yùn)行功能匹敵大型電廠，已入選國(guó)際典型案例(1)

自動(dòng)化科技將在鄉(xiāng)村振興工作中大有作為|《關(guān)于做好2023年全面推進(jìn)鄉(xiāng)村振興重點(diǎn)工作的意見(jiàn)》發(fā)布(1)

ECG-E30 邊緣計(jì)算網(wǎng)關(guān)及典型應(yīng)用場(chǎng)景 | 工業(yè)級(jí)嵌入式AI計(jì)算機(jī) ，嵌入式無(wú)風(fēng)扇工業(yè)計(jì)算機(jī)(1)

將充分調(diào)動(dòng)超級(jí)自動(dòng)化各技術(shù)領(lǐng)域?qū)＜屹Y源|中國(guó)信通院“超級(jí)自動(dòng)化平臺(tái)”標(biāo)準(zhǔn)研制工作正在進(jìn)行中(1)

自動(dòng)化網(wǎng)“創(chuàng)新自科文”欄目更名為“創(chuàng)新自化成”(1)

韓國(guó)工控自動(dòng)化-丹陽(yáng)昌達(dá)電器(1)

“TWINHOW 推好”高質(zhì)量發(fā)展 2022年度細(xì)分產(chǎn)業(yè)領(lǐng)域典型應(yīng)用場(chǎng)景中的優(yōu)質(zhì)自動(dòng)化科技解決方案—“金好質(zhì)級(jí)”解決方案測(cè)評(píng)工作啟動(dòng)(0)

我要收藏
個(gè)贊

上一篇：滾珠螺桿在航天工業(yè)領(lǐng)域中的重要性
下一篇： IBM專家觀點(diǎn)： IBM 大模型揭秘

相關(guān)文章

“芯”行萬(wàn)里，馳騁“芯”動(dòng)力｜德州儀器 DLP? 技術(shù)，用創(chuàng)新點(diǎn)亮未來(lái)

渦輪流量計(jì)的安裝和維護(hù)保養(yǎng)

科技透視鏡 | 國(guó)創(chuàng)中心家電變頻特色算法：自適應(yīng)變頻控制算法

歐鐳學(xué)園 | 真假功能安全激光雷達(dá)

智慧空壓站為什么比傳統(tǒng)空壓站要好

判斷渦街流量計(jì)性能好壞的幾個(gè)重要指標(biāo)

光儲(chǔ)充一體化和微電網(wǎng)的區(qū)別是什么？建設(shè)光儲(chǔ)充站需要注意什么？

智慧水利與智慧水務(wù)的區(qū)別

智慧農(nóng)業(yè)發(fā)展的底層邏輯與現(xiàn)實(shí)約束

下一代 HMI 的三個(gè)關(guān)鍵考慮因素

高度集成的嵌入式處理器如何推動(dòng)工業(yè)機(jī)器人的發(fā)展

什么是“慣導(dǎo)三目及激光雷達(dá)總成”？

你準(zhǔn)備好迎接新興汽車?yán)走_(dá)衛(wèi)星架構(gòu)了嗎？

思特威物聯(lián)網(wǎng)專題-快速啟動(dòng)技術(shù)，低功耗IoT設(shè)備進(jìn)階必備

深入了解光電傳感器的工作原理

人形機(jī)器人爆發(fā)“元年”？王旭光博士登鳳凰衛(wèi)視談3D視覺(jué)感知技術(shù)如何賦能產(chǎn)業(yè)發(fā)展

2024 年工程師不可錯(cuò)過(guò)的 AI 主要發(fā)展趨勢(shì)

工信部發(fā)布首批50門中小企業(yè)人才培訓(xùn)“名師優(yōu)課”優(yōu)質(zhì)課程

數(shù)字化轉(zhuǎn)型三階段：信息化-數(shù)字化-數(shù)智化

數(shù)字孿生城市產(chǎn)業(yè)圖譜：我國(guó)數(shù)字孿生城市產(chǎn)業(yè)五大關(guān)聯(lián)產(chǎn)業(yè)板塊（1）