【ZiDongHua 之品牌自定位收錄關(guān)鍵詞: 億鑄科技 人工智能 ChatGPT
  
  億新聞 | 演講回顧:需求拐點來臨,未來算力增長將以存儲單元為中心
  
  隨著人工智能技術(shù)的飛速發(fā)展,AI芯片已成為推動科技進步的關(guān)鍵力量,但是隨著數(shù)據(jù)量的不斷增長和模型復(fù)雜度的提升,傳統(tǒng)的計算架構(gòu)已經(jīng)無法滿足當(dāng)前AI應(yīng)用的需求。如何滿足大模型時代對于AI大算力芯片性能和功耗的極致要求,產(chǎn)業(yè)界急需尋找新的路徑進行突破。
  
  算力迎來需求拐點,硬件架構(gòu)成為關(guān)鍵路徑
  
  
  
  熊大鵬博士出席2024全球AI芯片峰會
  
  在2024年9月7日舉行的2024全球AI芯片峰會(GACS 2024)上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士受邀出席“AI芯片架構(gòu)創(chuàng)新專場”并帶來精彩演講,詳細(xì)介紹了AI芯片架構(gòu)創(chuàng)新如何開啟大算力第二增長曲線,并從多個角度解讀大模型時代下的AI大算力芯片解決方案。
 
  
  熊大鵬博士指出,大模型已經(jīng)從量變逐漸演變?yōu)橘|(zhì)變,隨著數(shù)據(jù)、算力、參數(shù)量提升,壓縮損失率降低,模型能力增強,當(dāng)模型體量足夠大時,會出現(xiàn)類似人類“開悟”的涌現(xiàn)能力,隨之而來的就是推理能力顯著提升。
  
  同時,隨著AI應(yīng)用最后一公里打通和業(yè)務(wù)落地,對AI計算能力的需求也將迎來拐點。Omdia最新的《云計算和數(shù)據(jù)中心人工智能處理器預(yù)測》報告指出,目前用于云計算和數(shù)據(jù)中心人工智能的GPU和其他加速芯片的市場規(guī)模已從2022年的不到100億美元增長到今年的780億美元。預(yù)計到2029年,將最終達到1510億美元。但2026年,整個市場可能會出現(xiàn)一個明顯的拐點,推動增長的動力將從技術(shù)采用轉(zhuǎn)向人工智能應(yīng)用需求的變化。
  
  IDC則預(yù)測,未來的人工智能服務(wù)器將注重提高計算能力和處理效率(能效比),以適應(yīng)更復(fù)雜、更大規(guī)模的人工智能應(yīng)用。預(yù)計到2027年,用于推理的AI算力占比將達到72.6%,未來有望達到95%為推理,5%為訓(xùn)練。
  
  但是,熊大鵬博士指出,現(xiàn)有的芯片硬件性能提升速度已難以滿足算法模型急劇增長的算力需求。國信證券經(jīng)濟研究所報告指出,大模型參數(shù)規(guī)模每18個月增長35倍,而摩爾定律下的芯片僅增長2倍。因此,需要新的硬件架構(gòu)突破,探索和發(fā)展新的架構(gòu)成為關(guān)鍵路徑之一。
  
  算力第二增長曲線將以存儲單元為中心
  
  熊大鵬博士在第二屆智能算力發(fā)展論壇發(fā)表演講
  
  那么為何需要新的硬件架構(gòu)進行突破呢?在9月9日舉行的“第二屆智能算力發(fā)展論壇”上,熊大鵬博士強調(diào),目前AI芯片面臨的“三堵墻”:存儲墻、能耗墻和編譯墻。
  
  其中,存儲墻是指存儲器的數(shù)據(jù)訪問速度跟不上計算單元的數(shù)據(jù)處理速度,導(dǎo)致性能瓶頸的問題。數(shù)據(jù)顯示,存儲器的速度每年增加7%,而微處理器性能每年增加60%,它們之間的性能差每年擴大50%。
  
  同時,由于存儲墻的存在則帶來了能耗墻和編譯墻的問題。能耗墻是指隨著芯片性能的提升,能耗和散熱問題成為限制進一步性能提升的主要因素。在AI芯片中,大量的并行計算會導(dǎo)致能耗急劇增加,這不僅增加了冷卻成本,還可能影響設(shè)備的可靠性和壽命。編譯墻則是隨著AI模型的復(fù)雜性增加,編譯器需要處理的數(shù)據(jù)量和計算任務(wù)也急劇增加,這使得靜態(tài)編譯優(yōu)化變得非常困難。手動優(yōu)化又消耗了大量時間,因此,編譯墻影響了AI芯片的易用性和效率。
  
  熊大鵬博士指出,想要打破AI芯片“三堵墻”,就需要從算力的第一性原理(阿姆達爾定律)來著手,將數(shù)據(jù)搬運量大幅下降,使得F值接近于0,才能保證有效算力密度線性增長。阿姆達爾定律揭示了并行計算的潛力和局限性,在實際應(yīng)用中,需要綜合考慮各種因素來優(yōu)化系統(tǒng)性能。
  
  以Llama2-70B模型為例,每次計算需搬運70B數(shù)據(jù),根據(jù)第一性原理,距離越遠、節(jié)點越多則F值越大,有效算力越低。同時,隨著模型增大,F(xiàn)值上升,算力利用率下降。在目前傳統(tǒng)的計算架構(gòu)下,大算力芯片的有效算力往往遠遠低于理論算力,算力利用率也僅為30%左右。
  
  熊大鵬博士強調(diào),通過結(jié)合存算一體架構(gòu)等先進技術(shù),可以突破傳統(tǒng)計算模式的瓶頸,實現(xiàn)更高的有效算力,打破有效算力的天花板。未來,以算力單元為中心的時代即將結(jié)束,算力第二增長曲線將以存儲單元為中心。
  
  如何突破有效算力天花板
  
  針對于架構(gòu)創(chuàng)新,熊大鵬博士解讀了目前存在的幾種解決方式:一種是存內(nèi)計算,另一種是近存計算。
  
  其中,存算一體通過將存儲和計算功能融合,減少數(shù)據(jù)搬運延遲,提升性能和能效。在存算一體架構(gòu)的理想狀態(tài)下,F(xiàn)=0,能夠?qū)崿F(xiàn)存儲與計算無縫融合。
  
  近存計算是將存儲單元和計算單元通過先進3D/2.5D封裝集成在一起的技術(shù),增加訪存帶寬、減少數(shù)據(jù)搬移時延,以提升整體計算效率,本質(zhì)上來看,近存計算依然屬于存算分離的架構(gòu),同時面臨著工藝成熟度、微縮性、系統(tǒng)集成和通信瓶頸等多方面的挑戰(zhàn)。
  
  熊大鵬博士表示,億鑄科技自成立以來,始終致力于通過存算一體,提供貢獻更具性價比、更高能效比、更大算力發(fā)展空間的AI大算力芯片發(fā)展新路徑。2023年3月,面對ChatGPT等大模型帶來的AI算力挑戰(zhàn),億鑄科技首次提出“存算一體超異構(gòu)”,為大模型時代AI大算力芯片換道發(fā)展提供全新思路。
  
  可以說,億鑄科技不僅在技術(shù)上實現(xiàn)了重大突破,更在產(chǎn)業(yè)應(yīng)用上展現(xiàn)了巨大的潛力。有理由相信,伴隨著這一技術(shù)的落地和成熟,AI芯片技術(shù)會進入一個新的發(fā)展階段。億鑄科技將繼續(xù)推動AI芯片技術(shù)的創(chuàng)新,為全球AI技術(shù)的發(fā)展貢獻力量!