8月8日,2024開放計算中國峰會在北京舉行,開放計算如何加速人工智能發(fā)展成為大會焦點話題。智能時代,大模型正在重構(gòu)AI基礎(chǔ)設(shè)施,數(shù)據(jù)中心迎來算力、網(wǎng)絡(luò)、存儲、管理、能效的全向Scale創(chuàng)新挑戰(zhàn),需構(gòu)建全球化的開放協(xié)作平臺,合力解決上述重大問題,通過對人工智能基礎(chǔ)設(shè)施的全面優(yōu)化,為AI發(fā)展賦予無限可能。

2024開放計算中國峰會由開放計算社區(qū)OCP及開放標(biāo)準(zhǔn)組織OCTC(中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會開放計算標(biāo)準(zhǔn)工作委員會)聯(lián)合主辦,以"開放協(xié)同:協(xié)作、智慧、創(chuàng)新"為主題,聚焦數(shù)據(jù)中心基礎(chǔ)設(shè)施、人工智能創(chuàng)新、開放計算生態(tài)、綠色計算發(fā)展、開放系統(tǒng)&CXL等議題,包括百度、阿里云、中國工商銀行、字節(jié)跳動、三星、浪潮信息、英偉達(dá)、偉創(chuàng)力、Solidigm、英特爾、世紀(jì)互聯(lián)等在內(nèi)的社區(qū)領(lǐng)袖、技術(shù)大咖、行業(yè)專家,以及千余名IT工程師和數(shù)據(jù)中心從業(yè)者參與大會。

社區(qū)激發(fā)創(chuàng)新活力,全球化協(xié)作平臺加速AI創(chuàng)新

生成式人工智能的飛躍式進(jìn)步正在加速智能時代的到來。在Scaling law約束下,隨著大模型參數(shù)量的持續(xù)提升,計算當(dāng)量與數(shù)據(jù)量亦隨之激增,數(shù)據(jù)中心基礎(chǔ)設(shè)施所面臨的全方位創(chuàng)新,將越來越依賴于更加廣泛的全球化開放協(xié)作,加速AI技術(shù)創(chuàng)新與應(yīng)用,共同構(gòu)建一個人機(jī)高度交互的智能世界。

OCP基金會理事David Ramku(Meta 數(shù)據(jù)中心基礎(chǔ)設(shè)施高級總監(jiān))表示,"生成式人工智能的增長正在重構(gòu)數(shù)據(jù)中心的生態(tài)系統(tǒng),開放計算項目的全球化協(xié)作創(chuàng)新模式可以最大限度激發(fā)創(chuàng)新活力。OCP將繼續(xù)投資關(guān)乎未來的戰(zhàn)略性技術(shù),如人工智能和機(jī)器學(xué)習(xí)、光學(xué)技術(shù)、先進(jìn)的電源管理和冷卻技術(shù)、Chiplets等,為應(yīng)對IT生態(tài)系統(tǒng)的新變化做好準(zhǔn)備。"

OCTC秘書長陳海認(rèn)為:"應(yīng)用是中國人工智能產(chǎn)業(yè)的核心優(yōu)勢之一,理應(yīng)讓用戶參與到人工智能的探索和應(yīng)用中,從用戶思維出發(fā)制定更切實落地的規(guī)范標(biāo)準(zhǔn),以此有效降低技術(shù)獲取成本,推動和加速數(shù)據(jù)中心各領(lǐng)域的技術(shù)創(chuàng)新與成果普惠,讓更多的組織和個人從中獲益,這是開放社區(qū)長久繁榮的核心所在。"

正因為意識到開放的力量,開放計算受到越來越多公司的支持并積極投身其中。在過去的三年中,OCP的成員數(shù)量從250多家增長至360多家,增幅接近50%,社區(qū)項目和子項目數(shù)量超過40個。與此同時,OCTC的成員數(shù)量也在一年內(nèi)迅速翻倍,從40多家增長至近百家,快速構(gòu)建起包含基礎(chǔ)設(shè)施、測評與服務(wù)、運維管理等在內(nèi)的標(biāo)準(zhǔn)框架,并將通用計算、柜計算、AI異構(gòu)、液冷等列入標(biāo)準(zhǔn)化建設(shè)的重點內(nèi)容。

AI重構(gòu)數(shù)據(jù)中心基礎(chǔ)設(shè)施

生成式人工智能正在重構(gòu)數(shù)據(jù)中心基礎(chǔ)設(shè)施,對計算效能、存儲容量及性能、網(wǎng)絡(luò)方案、資源調(diào)度管理、能效控制與管理各個方面均提出更高要求,全向Scale能力成為構(gòu)建先進(jìn)AI基礎(chǔ)設(shè)施的核心。在本屆峰會上,包括CXL技術(shù)、面向AI的網(wǎng)絡(luò)架構(gòu)、首款16通道PCIe 5.0 TLC固態(tài)硬盤等一大批創(chuàng)新技術(shù)與產(chǎn)品方案,將進(jìn)一步提升人工智能基礎(chǔ)設(shè)施的Scale能力。

百度集團(tuán)副總裁侯震宇指出,在大模型時代,預(yù)計未來十年內(nèi),AI算力需求將呈現(xiàn)爆發(fā)式增長,并行計算成為實現(xiàn)大模型黃金法則Scaling Laws的最優(yōu)解。AI新基建正推動產(chǎn)業(yè)鏈全面變革,展現(xiàn)出"極致高密、極致互聯(lián)、極致規(guī)模"的重構(gòu)特征。

阿里云基礎(chǔ)設(shè)施超高速互聯(lián)負(fù)責(zé)人孔陽認(rèn)為,隨著云計算和AI大模型應(yīng)用的快速發(fā)展,計算規(guī)模呈現(xiàn)出數(shù)千數(shù)萬倍的增長,單任務(wù)的計算量也成百上千倍的增長。但受制于芯片在算力密度、訪存規(guī)模和帶寬的遲滯,服務(wù)器機(jī)柜級Scale up互連成為當(dāng)下技術(shù)熱點, 作為開放生態(tài)系統(tǒng),Scale up開放生態(tài)系統(tǒng)ALS和CPU內(nèi)存擴(kuò)展的CXL技術(shù)生態(tài)已成為行業(yè)的重要方向。

中國工商銀行數(shù)據(jù)中心資深經(jīng)理陳慶提到,AI大模型的部署對算力底座提出新的要求,包括多算力中心互聯(lián),提供不同等級按需服務(wù),實現(xiàn)網(wǎng)絡(luò)和計算資源的統(tǒng)一管理和編排,同時要兼顧性能和連續(xù)運行,減少故障中斷,并通過空間分割部署不同功率密度及液冷產(chǎn)品,以支撐AI應(yīng)用。

三星電子副總裁、先行開發(fā)團(tuán)隊負(fù)責(zé)人張實完表示,生成式人工智能帶來數(shù)據(jù)量的激增,對存儲的高容量、性能和低功耗提出前所未有的高要求。需要開發(fā)承載海量數(shù)據(jù)的存儲產(chǎn)品,以滿足AI時代對存儲容量的巨大需求,為AI模型訓(xùn)練、大數(shù)據(jù)分析等應(yīng)用提供強(qiáng)有力的存儲支持。

浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥認(rèn)為,算力迭代是Scale up與Scale out并存迭代、快速發(fā)展的過程?,F(xiàn)階段,開放加速模組和開放網(wǎng)絡(luò)實現(xiàn)了算力的Scale,開放固件解決方案實現(xiàn)了管理的Scale,開放標(biāo)準(zhǔn)和開放生態(tài)實現(xiàn)了基礎(chǔ)設(shè)施的Scale,未來要以開放創(chuàng)新加速算力系統(tǒng)全向scale,應(yīng)對大模型Scaling Law。

字節(jié)跳動資深網(wǎng)絡(luò)架構(gòu)師霍朋飛表示,大模型訓(xùn)練、推理等AI業(yè)務(wù)需求快速迭代,對網(wǎng)絡(luò)帶來新挑戰(zhàn)。超大規(guī)模GPU的協(xié)同訓(xùn)練對網(wǎng)絡(luò)底座的規(guī)模、性能、成本提出高要求。開放、軟硬協(xié)同、端網(wǎng)融合的網(wǎng)絡(luò)架構(gòu),已成為高性能高穩(wěn)定互聯(lián)的基石。

英偉達(dá)網(wǎng)絡(luò)高級總監(jiān)宋慶春認(rèn)為,數(shù)據(jù)中心走向了AI工廠和AI云兩個新型的應(yīng)用場景,超大規(guī)模分布式并行計算成為新型應(yīng)用場景的關(guān)鍵特征,網(wǎng)絡(luò)成為了決定數(shù)據(jù)中心性能的核心。支持高帶寬、低延遲、零Jitter、網(wǎng)絡(luò)數(shù)字孿生、網(wǎng)絡(luò)計算、動態(tài)路由、應(yīng)用性能隔離等技術(shù)的新型AI網(wǎng)絡(luò)應(yīng)需而生。AI網(wǎng)絡(luò)將AI數(shù)據(jù)中心的算力性能提升到了極致,將會極大保護(hù)用戶的投資。

開放算力模組規(guī)范(OCM)立項,推動"一切計算皆AI"

生成式人工智能的快速發(fā)展,帶來了更加豐富的智能應(yīng)用場景,而智能應(yīng)用的繁榮必然使得推理需要更多的算力來支撐,通用算力作為一種更加普遍且更易獲得的算力,一旦擁有AI計算的能力顯然會大大加速智能化進(jìn)程。但目前x86、ARM、RISC-V等不同架構(gòu)的CPU協(xié)議標(biāo)準(zhǔn)不統(tǒng)一,導(dǎo)致硬件開發(fā)、固件適配、部件測試等耗時巨大,同時為了更好的適合AI推理高并行的計算特點,CPU總線互聯(lián)帶寬、內(nèi)存帶寬及容量也需要特別優(yōu)化,使得系統(tǒng)功耗、總線速率、電流密度不斷提升……多種因素疊加之下,算力系統(tǒng)的設(shè)計與開發(fā)周期漫長且成本高昂。

在CPU多元化發(fā)展的趨勢下,如何快速完成CPU到計算系統(tǒng)的創(chuàng)新,使其能夠適用于AI推理負(fù)載,已經(jīng)成為緩解當(dāng)前AI算力稀缺、推動人工智能發(fā)展的關(guān)鍵環(huán)節(jié)。

為此,會上開放算力模組規(guī)范(OCM)正式立項,首批成員包括中國電子技術(shù)標(biāo)準(zhǔn)化研究院、百度、浪潮信息、英特爾、AMD、小紅書、聯(lián)想、超聚變等,以CPU、內(nèi)存為核心構(gòu)建最小算力單元,兼容x86、ARM等多架構(gòu)芯片的多代處理器,方便用戶根據(jù)應(yīng)用場景靈活、快速組合。OCM開放標(biāo)準(zhǔn)的制定,能夠為用戶提供更多通用性強(qiáng)、綠色高效、安全可靠的算力選擇。

值得關(guān)注的是,OCP首次設(shè)立了開放計算最佳創(chuàng)新獎、開放計算最佳實踐獎和開放計算生態(tài)貢獻(xiàn)獎,以此表彰在上述領(lǐng)域做出卓越貢獻(xiàn)的社區(qū)成員。首屆開放計算最佳創(chuàng)新獎由阿里云、三星和村田獲得,百度和字節(jié)跳動獲得開放計算最佳實踐獎,浪潮信息和安謀科技獲得開放計算生態(tài)貢獻(xiàn)獎。

此外,大會還發(fā)布了開放計算十大創(chuàng)新成果,包括超大規(guī)模數(shù)據(jù)中心部署指南、Evenstar開放式5G平臺、液冷式人工智能加速卡設(shè)計技術(shù)要求等等,進(jìn)一步體現(xiàn)出開放計算在數(shù)據(jù)中心領(lǐng)域所具備的創(chuàng)新活力。隨著社區(qū)活力的激發(fā)、跨社區(qū)合作的增多、標(biāo)準(zhǔn)與規(guī)范的持續(xù)完善,創(chuàng)新的邊界將得到進(jìn)一步拓展,開放計算將為AI創(chuàng)新賦予無限可能,推動人工智能更加深刻地重構(gòu)數(shù)據(jù)中心生態(tài)。