億鑄科技：以存算一體架構(gòu)創(chuàng)新，迎AI 2.0時代

時間：2023-08-03 16:28:06 發(fā)布：tgy 來源：億鑄科技第一對焦：億鑄科技

【ZiDongHua 之技術(shù)文章區(qū)收錄關(guān)鍵詞：億鑄科技人工智能 ChatGPT AIGC 圖像識別計算機視覺 AI視覺領(lǐng)域世界半導(dǎo)體大會】

　　億科技 | 以存算一體架構(gòu)創(chuàng)新，迎AI 2.0時代

起初，ChatGPT爆火出圈是一件令人興奮的事。無論是AI行業(yè)相關(guān)從業(yè)者，還是關(guān)注科技發(fā)展趨勢的普通人都能真切感受到這股撲面而來的熱浪，仿佛 “每條大街小巷，每個人的嘴里，見面第一句話，就是AIGC”。ChatGPT的橫空出世，不僅帶來了AI的“iPhone”時刻，還使處在下行周期的全球半導(dǎo)體市場迎來轉(zhuǎn)折點。據(jù)畢馬威報告，ChatGPT等人工智能平臺的出現(xiàn)，有望促進產(chǎn)生新的應(yīng)用程序和平臺，創(chuàng)造為行業(yè)和未來幾年帶來數(shù)千億美元收入的細分市場。

　　同時，這個 “超費電”、“超費錢”又“超聰明”的“三超大戶”也給社會增添了許多焦慮情緒。前微軟全球副總裁、百度COO、奇跡創(chuàng)壇創(chuàng)始人陸奇表示：“從現(xiàn)在開始，不論工作還是創(chuàng)業(yè)，請確保自己跟AI有關(guān)”， “AIGC不是什么當下風(fēng)口，風(fēng)口意味著投機主義，未免太低估AI對世界發(fā)展的影響。” 時代正在發(fā)生變化，你我皆應(yīng)有所準備。

　　AI 2.0 時代到來，108模型“好漢”各顯身手

　　誰會成為MaaS “四小龍”

　　也許再過幾年回頭看，2023會是人工智能發(fā)展史上不可忽視的一年。就像《2001太空漫游》里的那塊黑色石板，它第一次出現(xiàn)時，猿猴們圍著它好奇地打轉(zhuǎn)，最終受到啟發(fā)，學(xué)會了使用工具，進化成了人類；而當它再一次出現(xiàn)時，又引導(dǎo)人類向著更高維度前進，穿過萬千星海，直到成為宇宙本身。

　　2012年，Alexnet一鳴驚人，一舉摘得imagenet圖像識別類的冠軍，將圖像識別的正確率提升到85%。以CNN為核心的人工智能技術(shù)，機器開始在計算機視覺（CV）等領(lǐng)域超越人類，開啟了AI 1.0時代。

　　十年后，2022年底，ChatGPT橫空出世，建立在海量數(shù)據(jù)訓(xùn)練的基礎(chǔ)上，克服了單領(lǐng)域、多模型的限制，也打破了人類對于傳統(tǒng)NLP人機交互中“人工智障”的偏見，驅(qū)動各行各業(yè)的AI 應(yīng)用進入2.0時代。我們很幸運，可以在短短十年間，見證人工智能跨時代的兩個突破節(jié)點。

　　從今年3月以來，AIGC與大模型產(chǎn)品幾乎是爆發(fā)式地推出，呈現(xiàn)出百花齊放之勢，AI領(lǐng)域的模型更新已經(jīng)是按周來迭代。就在不久前，將其LLama2的模型開放商用。模型越來越大，應(yīng)用越來越多。當前國產(chǎn)大模型已經(jīng)達到108個，正如水滸108好漢，人工智能領(lǐng)域自媒體走向未來甚至以“誰是36天罡？誰是72地煞？”為題評選出了百模爭霸排行榜。

　　在剛剛閉幕的2023年世界半導(dǎo)體大會（WSCE）上，AI大算力芯片公司億鑄科技副總裁李明發(fā)表了題為《以存算一體架構(gòu)創(chuàng)新，迎AI 2.0時代》的演講。他預(yù)測，最早在明年，國內(nèi)也可能初步形成MaaS（Model as a Servic，模型即服務(wù)）四小龍的競爭格局。就像在2014-2017年，基于CNN AI網(wǎng)絡(luò)，國內(nèi)也曾形成了CV（機器視覺）應(yīng)用四小龍的競爭格局，繼而引領(lǐng)了AI視覺領(lǐng)域數(shù)年的蓬勃發(fā)展。

　　算力、能源雙重挑戰(zhàn)

　　計算架構(gòu)創(chuàng)新是“解藥”

　　生成式AI驚艷全世界的背后離不開超大算力的加持。最近，IDC、浪潮信息和清華大學(xué)全球產(chǎn)業(yè)研究院聯(lián)合發(fā)布了《2022-2023全球計算力指數(shù)評估報告》。報告指出，“計算力與經(jīng)濟增長緊密相關(guān)，計算力指數(shù)平均每提高1個點，數(shù)字經(jīng)濟和GDP將分別增長3.3‰和1.8‰”。首次揭示了算力即生產(chǎn)力的事實。

　　眼下，transformer的劃時代革新，不但會促成AI向通用人工智能AGI領(lǐng)域發(fā)展，還會引領(lǐng)第二次AI應(yīng)用場景的爆發(fā)。而在此過程中，勢必會產(chǎn)生上千億美金的算力需求。

　　據(jù)中國信通院等機構(gòu)的調(diào)研數(shù)據(jù)，ChatGPT的單日運營算力消耗占整個2021年中國智能算力總規(guī)模的3%。而這只是Open AI的一個模型而已，如果中國的百大模型持續(xù)蓬勃發(fā)展，對國內(nèi)的智能算力要求將達到驚人的天文數(shù)字。

　　“假設(shè)目前的ChatGPT3平均每張H100每秒可以生成6個tokens（FP16，參數(shù)350GB），在不考慮級聯(lián)或者模型稀疏化的前提下，假設(shè)每人每天提5個問題，每個問題會和GPT交互5次，每次消耗30個token，那么每人每天會消耗750個token，如果每天有1億人在線使用查詢，就需要約15萬顆H100芯片，僅僅H100卡的硬件成本會達到50億美金以上。如果計算系統(tǒng)成本的話，100億美金也很難覆蓋。” 李明補充道。

　　算力需求不斷提升帶來的挑戰(zhàn)除了貴，還有費電。在今年國際集成電路設(shè)計領(lǐng)域最高級別會議 ISSCC上，AMD全球CEO Lisa Su表示，目前實現(xiàn)Exascale（百億億次計算）的超級計算機功耗已經(jīng)到達2100萬瓦。而根據(jù)Green500的預(yù)計，到2035年，實現(xiàn)Zettascale（十萬億億次計算）級別的一臺超級計算機的功率會達到500 MW，相當于半個核電站的發(fā)電功率，到那時，世界再多的核電站也難以支撐如此大電力的消耗。而2035年離我們也并不遙遠。

　　回到ChatGPT3的場景假設(shè)，億鑄科技認為，未來隨著大模型的普級，如果有1億人同時在線，在線提問率提升到30%，每個promt占30個token的話，就差不多需要1700萬顆H100芯片來提供其推理算力，每顆H100的功耗在750W左右，該模型每天假設(shè)只運行10個小時，這些H100芯片所在的數(shù)據(jù)中心一年的耗電量將超過三峽大壩一年的發(fā)電量。

　　從技術(shù)環(huán)境來看，未來數(shù)據(jù)量會越來越大、模型算法越來越復(fù)雜，算力要求越來越高，而支撐底層算力的摩爾定律卻幾近終結(jié)。巨大的剪刀差落在AI大算力芯片企業(yè)產(chǎn)業(yè)鏈的肩上，從而帶來了巨大的壓力：比如有效算力的增長率、軟件的編譯、數(shù)據(jù)的帶寬、存儲的成本、能效比、生產(chǎn)工藝等等。

　　以AI云端推理卡為例，近年來由于工藝制程“卷不動”等種種原因，成本、功耗、算力難以兼顧。目前國內(nèi)主流AI芯片廠商、初創(chuàng)企業(yè)紛紛謀求計算架構(gòu)創(chuàng)新，試圖找出兼顧性能、規(guī)模、能源利用率的方案，突破算力天花板。

　　清華大學(xué)集成電路學(xué)院副院長尹首一教授認為，在當前國際產(chǎn)業(yè)環(huán)境下，需要重新審視芯片算力公式，在可獲取的低世代成熟工藝下去尋找持續(xù)提升算力的新途徑，其中包括在芯片面積上探索先進集成技術(shù)和先進封裝技術(shù)發(fā)展的可能性，以及在算力方面更加聚焦新型計算架構(gòu)。

　　存算一體乘風(fēng)起

　　扶搖直上解困局

　　存算一體化概念的提出最早可以追溯到上個世紀七十年代，斯坦福研究所的Kautz教授團隊于1969年提出了存算一體化的概念，期望直接利用內(nèi)存做一些簡單的計算，減少數(shù)據(jù)在處理器與存儲器之間的搬移。

　　2016年的ISCA上，存算一體的相關(guān)論文開始出現(xiàn)。到了Micro 2017，英偉達、英特爾、微軟、三星、加州大學(xué)圣塔芭芭拉分校等都推出了他們的存算一體系統(tǒng)原型。世界上第一顆存算一體芯片在ISSCC 2018年首次出現(xiàn)，今年已經(jīng)是存算一體芯片工程落地走過的第7個年頭了。

　　近年來關(guān)于存算一體相關(guān)的報道、研究源源不斷涌現(xiàn)。學(xué)界，ISSCC上存算/近存相關(guān)的文章數(shù)量迅速增加：從20年的6篇上漲到23年的19篇；其中數(shù)字存內(nèi)計算，從21年被首次提出后，22年迅速增加到4篇。產(chǎn)界，巨頭紛紛布局存算一體，國內(nèi)陸陸續(xù)續(xù)也有近十幾家初創(chuàng)公司押注該架構(gòu)，這“扶搖直上”的架勢，不僅僅是因為存算一體是天生為AI大模型計算而生的一種架構(gòu)，乘了大模型的“東風(fēng)”，更是因為該架構(gòu)解決了長久以來造成算力發(fā)展困局的根本原因——“存儲墻”。

　　存算一體架構(gòu)是相對于傳統(tǒng)馮·諾伊曼架構(gòu)下的存算分離而言的。從技術(shù)理論的角度來看，要從阿姆達爾定律講起。阿姆達爾定律是硬件加速設(shè)計的基本定律。這個定律包括兩個因子，一個是加速器規(guī)模α，可以用先進的工藝或者優(yōu)化設(shè)計去提升其工作頻率，疊加之后就形成了 “裸算力”；而另一個因子F則是在計算周期里數(shù)據(jù)訪存所占的百分比。

　　IBM的科學(xué)家做過一個研究，在存算分離的馮·諾依曼架構(gòu)下，F(xiàn)值達到了90%以上，也就是每一次計算，數(shù)據(jù)搬運訪存的時間超過90%，功耗也超過90%。這意味著即使現(xiàn)在用5nm，將來做到0.5nm；現(xiàn)在花1億做一顆芯片，將來花10億去做一顆芯片，可以提升的性能空間也只有10%。

　　那么，如何減小F值呢？近存儲計算是一種途徑。例如，特斯拉的Dojo D1用近存儲，如果能將F值降到0.2、0.3，這意味著即使工藝還是7nm，性能也會提升3-4倍。

　　存內(nèi)計算則是更進一步——億鑄科技希望通過存算一體（CIM）把F值降低到0.1以下，如此一來，未來芯片的性能提升將主要取決于工藝的提升和設(shè)計的優(yōu)化。

　　存算一體超異構(gòu)

　　開啟AI算力芯片換道發(fā)展之路

　　據(jù)李明透露，億鑄早就已經(jīng)根據(jù)ReRAM（RRAM）的特性著手使用先進異構(gòu)封裝的方式來實現(xiàn)系統(tǒng)級的芯片優(yōu)化方案；在今年3月，億鑄科技正式公布了存算一體超異構(gòu)芯片這一創(chuàng)新理念。它將會以存算一體（CIM）AI加速計算單元為核心，同時將不同的計算單元如GPGPU，CPU進行3D異構(gòu)集成，以實現(xiàn)更大的AI算力以及更高的能效比，同時提供更為通用的軟件生態(tài)，使得CIM AI大算力芯片真正滿足AI算力增長第二曲線的需求，開啟一條AI大算力芯片換道發(fā)展之路。

　　這顆存算一體芯片可實現(xiàn)基于75W功耗達到單芯片1P的算力，相比傳統(tǒng)馮·諾依曼架構(gòu)的AI推理芯片提升10倍左右的能效比，同時還能兼顧軟件通用性。

　　李明表示，通過億鑄“四新一強”的整體優(yōu)勢，也就是存算一體架構(gòu)創(chuàng)新、ReRAM新型憶阻器的應(yīng)用創(chuàng)新、全數(shù)字化技術(shù)路徑應(yīng)用創(chuàng)新、存算一體超異構(gòu)系統(tǒng)級創(chuàng)新以及極強的專業(yè)團隊陣容，一定可以成為AI 2.0時代破局的一道光。