【ZiDongHua 之技術(shù)文章區(qū)收錄關(guān)鍵詞: 億鑄科技 人工智能 ChatGPT AIGC 圖像識別 計算機視覺 AI視覺領(lǐng)域 世界半導(dǎo)體大會】
 
 
  億科技 | 以存算一體架構(gòu)創(chuàng)新,迎AI 2.0時代
 
 
起初,ChatGPT爆火出圈是一件令人興奮的事。無論是AI行業(yè)相關(guān)從業(yè)者,還是關(guān)注科技發(fā)展趨勢的普通人都能真切感受到這股撲面而來的熱浪,仿佛 “每條大街小巷,每個人的嘴里,見面第一句話,就是AIGC”。ChatGPT的橫空出世,不僅帶來了AI的“iPhone”時刻,還使處在下行周期的全球半導(dǎo)體市場迎來轉(zhuǎn)折點。據(jù)畢馬威報告,ChatGPT等人工智能平臺的出現(xiàn),有望促進產(chǎn)生新的應(yīng)用程序和平臺,創(chuàng)造為行業(yè)和未來幾年帶來數(shù)千億美元收入的細分市場。
 
  
 
  同時,這個 “超費電”、“超費錢”又“超聰明”的“三超大戶”也給社會增添了許多焦慮情緒。前微軟全球副總裁、百度COO、奇跡創(chuàng)壇創(chuàng)始人陸奇表示:“從現(xiàn)在開始,不論工作還是創(chuàng)業(yè),請確保自己跟AI有關(guān)”, “AIGC不是什么當下風(fēng)口,風(fēng)口意味著投機主義,未免太低估AI對世界發(fā)展的影響。” 時代正在發(fā)生變化,你我皆應(yīng)有所準備。
 
  AI 2.0 時代到來,108模型“好漢”各顯身手
 
  誰會成為MaaS “四小龍”
 
  也許再過幾年回頭看,2023會是人工智能發(fā)展史上不可忽視的一年。就像《2001太空漫游》里的那塊黑色石板,它第一次出現(xiàn)時,猿猴們圍著它好奇地打轉(zhuǎn),最終受到啟發(fā),學(xué)會了使用工具,進化成了人類;而當它再一次出現(xiàn)時,又引導(dǎo)人類向著更高維度前進,穿過萬千星海,直到成為宇宙本身。
 
  2012年,Alexnet一鳴驚人,一舉摘得imagenet圖像識別類的冠軍,將圖像識別的正確率提升到85%。以CNN為核心的人工智能技術(shù),機器開始在計算機視覺(CV)等領(lǐng)域超越人類,開啟了AI 1.0時代。
 
  十年后,2022年底,ChatGPT橫空出世,建立在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上,克服了單領(lǐng)域、多模型的限制,也打破了人類對于傳統(tǒng)NLP人機交互中“人工智障”的偏見,驅(qū)動各行各業(yè)的AI 應(yīng)用進入2.0時代。我們很幸運,可以在短短十年間,見證人工智能跨時代的兩個突破節(jié)點。
 
  
 
  從今年3月以來,AIGC與大模型產(chǎn)品幾乎是爆發(fā)式地推出,呈現(xiàn)出百花齊放之勢,AI領(lǐng)域的模型更新已經(jīng)是按周來迭代。就在不久前, 將其LLama2的模型開放商用。模型越來越大,應(yīng)用越來越多。當前國產(chǎn)大模型已經(jīng)達到108個,正如水滸108好漢,人工智能領(lǐng)域自媒體走向未來甚至以“誰是36天罡?誰是72地煞?”為題評選出了百模爭霸排行榜。
 
  在剛剛閉幕的2023年世界半導(dǎo)體大會(WSCE)上,AI大算力芯片公司億鑄科技副總裁李明發(fā)表了題為《以存算一體架構(gòu)創(chuàng)新,迎AI 2.0時代》的演講。他預(yù)測,最早在明年,國內(nèi)也可能初步形成MaaS(Model as a Servic,模型即服務(wù))四小龍的競爭格局。就像在2014-2017年,基于CNN AI網(wǎng)絡(luò),國內(nèi)也曾形成了CV(機器視覺)應(yīng)用四小龍的競爭格局,繼而引領(lǐng)了AI視覺領(lǐng)域數(shù)年的蓬勃發(fā)展。
 
  
 
  算力、能源雙重挑戰(zhàn)
 
  計算架構(gòu)創(chuàng)新是“解藥”
 
  生成式AI驚艷全世界的背后離不開超大算力的加持。最近,IDC、浪潮信息和清華大學(xué)全球產(chǎn)業(yè)研究院聯(lián)合發(fā)布了《2022-2023全球計算力指數(shù)評估報告》。報告指出,“計算力與經(jīng)濟增長緊密相關(guān),計算力指數(shù)平均每提高1個點,數(shù)字經(jīng)濟和GDP將分別增長3.3‰和1.8‰”。首次揭示了算力即生產(chǎn)力的事實。
 
  眼下,transformer的劃時代革新,不但會促成AI向通用人工智能AGI領(lǐng)域發(fā)展,還會引領(lǐng)第二次AI應(yīng)用場景的爆發(fā)。而在此過程中,勢必會產(chǎn)生上千億美金的算力需求。
 
  據(jù)中國信通院等機構(gòu)的調(diào)研數(shù)據(jù),ChatGPT的單日運營算力消耗占整個2021年中國智能算力總規(guī)模的3%。而這只是Open AI的一個模型而已,如果中國的百大模型持續(xù)蓬勃發(fā)展,對國內(nèi)的智能算力要求將達到驚人的天文數(shù)字。
 
  “假設(shè)目前的ChatGPT3平均每張H100每秒可以生成6個tokens(FP16,參數(shù)350GB),在不考慮級聯(lián)或者模型稀疏化的前提下,假設(shè)每人每天提5個問題,每個問題會和GPT交互5次,每次消耗30個token,那么每人每天會消耗750個token,如果每天有1億人在線使用查詢,就需要約15萬顆H100芯片,僅僅H100卡的硬件成本會達到50億美金以上。如果計算系統(tǒng)成本的話,100億美金也很難覆蓋。” 李明補充道。
 
  算力需求不斷提升帶來的挑戰(zhàn)除了貴,還有費電。在今年國際集成電路設(shè)計領(lǐng)域最高級別會議 ISSCC上,AMD全球CEO Lisa Su表示,目前實現(xiàn)Exascale(百億億次計算)的超級計算機功耗已經(jīng)到達2100萬瓦。而根據(jù)Green500的預(yù)計,到2035年,實現(xiàn)Zettascale(十萬億億次計算)級別的一臺超級計算機的功率會達到500 MW,相當于半個核電站的發(fā)電功率,到那時,世界再多的核電站也難以支撐如此大電力的消耗。而2035年離我們也并不遙遠。
 
  回到ChatGPT3的場景假設(shè),億鑄科技認為,未來隨著大模型的普級,如果有1億人同時在線,在線提問率提升到30%,每個promt占30個token的話,就差不多需要1700萬顆H100芯片來提供其推理算力,每顆H100的功耗在750W左右,該模型每天假設(shè)只運行10個小時,這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將超過三峽大壩一年的發(fā)電量。
 
  從技術(shù)環(huán)境來看,未來數(shù)據(jù)量會越來越大、模型算法越來越復(fù)雜,算力要求越來越高,而支撐底層算力的摩爾定律卻幾近終結(jié)。巨大的剪刀差落在AI大算力芯片企業(yè)產(chǎn)業(yè)鏈的肩 上,從而帶來了巨大的壓力:比如有效算力的增長率、軟件的編譯、數(shù)據(jù)的帶寬、存儲的成本、能效比、生產(chǎn)工藝等等。
 
  以AI云端推理卡為例,近年來由于工藝制程“卷不動”等種種原因,成本、功耗、算力難以兼顧。目前國內(nèi)主流AI芯片廠商、初創(chuàng)企業(yè)紛紛謀求計算架構(gòu)創(chuàng)新,試圖找出兼顧性能、規(guī)模、能源利用率的方案,突破算力天花板。
 
  清華大學(xué)集成電路學(xué)院副院長尹首一教授認為,在當前國際產(chǎn)業(yè)環(huán)境下,需要重新審視芯片算力公式,在可獲取的低世代成熟工藝下去尋找持續(xù)提升算力的新途徑,其中包括在芯片面積上探索先進集成技術(shù)和先進封裝技術(shù)發(fā)展的可能性,以及在算力方面更加聚焦新型計算架構(gòu)。
 
  存算一體乘風(fēng)起
 
  扶搖直上解困局
 
  存算一體化概念的提出最早可以追溯到上個世紀七十年代,斯坦福研究所的Kautz教授團隊于1969年提出了存算一體化的概念,期望直接利用內(nèi)存做一些簡單的計算,減少數(shù)據(jù)在處理器與存儲器之間的搬移。
 
  2016年的ISCA上,存算一體的相關(guān)論文開始出現(xiàn)。到了Micro 2017,英偉達、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。世界上第一顆存算一體芯片在ISSCC 2018年首次出現(xiàn),今年已經(jīng)是存算一體芯片工程落地走過的第7個年頭了。
 
  近年來關(guān)于存算一體相關(guān)的報道、研究源源不斷涌現(xiàn)。學(xué)界,ISSCC上存算/近存相關(guān)的文章數(shù)量迅速增加:從20年的6篇上漲到23年的19篇;其中數(shù)字存內(nèi)計算,從21年被首次提出后,22年迅速增加到4篇。產(chǎn)界,巨頭紛紛布局存算一體,國內(nèi)陸陸續(xù)續(xù)也有近十幾家初創(chuàng)公司押注該架構(gòu),這“扶搖直上”的架勢,不僅僅是因為存算一體是天生為AI大模型計算而生的一種架構(gòu),乘了大模型的“東風(fēng)”,更是因為該架構(gòu)解決了長久以來造成算力發(fā)展困局的根本原因——“存儲墻”。
 
  存算一體架構(gòu)是相對于傳統(tǒng)馮·諾伊曼架構(gòu)下的存算分離而言的。從技術(shù)理論的角度來看,要從阿姆達爾定律講起。阿姆達爾定律是硬件加速設(shè)計的基本定律。這個定律包括兩個因子,一個是加速器規(guī)模α,可以用先進的工藝或者優(yōu)化設(shè)計去提升其工作頻率,疊加之后就形成了 “裸算力”;而另一個因子F則是在計算周期里數(shù)據(jù)訪存所占的百分比。
 
  IBM的科學(xué)家做過一個研究,在存算分離的馮·諾依曼架構(gòu)下,F(xiàn)值達到了90%以上,也就是每一次計算,數(shù)據(jù)搬運訪存的時間超過90%,功耗也超過90%。這意味著即使現(xiàn)在用5nm,將來做到0.5nm;現(xiàn)在花1億做一顆芯片,將來花10億去做一顆芯片,可以提升的性能空間也只有10%。
 
  那么,如何減小F值呢?近存儲計算是一種途徑。例如,特斯拉的Dojo D1用近存儲,如果能將F值降到0.2、0.3,這意味著即使工藝還是7nm,性能也會提升3-4倍。
 
  存內(nèi)計算則是更進一步——億鑄科技希望通過存算一體(CIM)把F值降低到0.1以下,如此一來,未來芯片的性能提升將主要取決于工藝的提升和設(shè)計的優(yōu)化。
 
  存算一體超異構(gòu)
 
  開啟AI算力芯片換道發(fā)展之路
 
  據(jù)李明透露,億鑄早就已經(jīng)根據(jù)ReRAM(RRAM)的特性著手使用先進異構(gòu)封裝的方式來實現(xiàn)系統(tǒng)級的芯片優(yōu)化方案;在今年3月,億鑄科技正式公布了存算一體超異構(gòu)芯片這一創(chuàng)新理念。它將會以存算一體(CIM)AI加速計算單元為核心,同時將不同的計算單元如GPGPU,CPU進行3D異構(gòu)集成,以實現(xiàn)更大的AI算力以及更高的能效比,同時提供更為通用的軟件生態(tài),使得CIM AI大算力芯片真正滿足AI算力增長第二曲線的需求,開啟一條AI大算力芯片換道發(fā)展之路。
 
  這顆存算一體芯片可實現(xiàn)基于75W功耗達到單芯片1P的算力,相比傳統(tǒng)馮·諾依曼架構(gòu)的AI推理芯片提升10倍左右的能效比,同時還能兼顧軟件通用性。
 
  李明表示,通過億鑄“四新一強”的整體優(yōu)勢,也就是存算一體架構(gòu)創(chuàng)新、ReRAM新型憶阻器的應(yīng)用創(chuàng)新、全數(shù)字化技術(shù)路徑應(yīng)用創(chuàng)新、存算一體超異構(gòu)系統(tǒng)級創(chuàng)新以及極強的專業(yè)團隊陣容,一定可以成為AI 2.0時代破局的一道光。