【“ZiDongHua自動化網(wǎng)”品牌觀察:億鑄科技 】

1、存算一體架構(gòu)芯片的能效比,理論上可以做到傳統(tǒng)馮·諾依曼架構(gòu)芯片的幾十倍甚至百倍以上?;谶@一思路,億鑄團(tuán)隊在存算陣列架構(gòu)、模擬域全數(shù)字化計算、存算一體芯片架構(gòu)、自動編譯等諸多方面創(chuàng)新設(shè)計,實現(xiàn)了億鑄AI芯片可以滿足大算力、高能效比、高精度計算等不同方面的要求。

2、億鑄科技正在開發(fā)業(yè)界針對存算一體架構(gòu)的包括編譯、資源優(yōu)化和部署的軟硬件協(xié)同EDA設(shè)計工具和應(yīng)用開發(fā)平臺。Debu說,億鑄團(tuán)隊希望在為整個行業(yè)開發(fā)編譯器、映射優(yōu)化器等軟件工具方面處于先鋒地位,突破編譯墻,推動存算一體芯片商業(yè)化落地及生態(tài)構(gòu)建,讓更多客戶愿意采用存內(nèi)計算方案來作為其業(yè)務(wù)應(yīng)用的底層支撐。

3、熊大鵬和Debu博士還都有過半導(dǎo)體風(fēng)險投資從業(yè)經(jīng)歷。億鑄科技董事長兼CEO熊大鵬在1983年本科畢業(yè)于西安電子科技大學(xué),碩士畢業(yè)于華南理工大學(xué),在美國德州大學(xué)奧斯汀分校獲得博士學(xué)位,其間還獲得應(yīng)用數(shù)學(xué)碩士、電氣和計算機(jī)工程碩士學(xué)位,曾任美國知名AI芯片公司W(wǎng)ave Computing的中國區(qū)總經(jīng)理。Debu博士曾在美國EDA巨頭Cadence及美國明星AI芯片公司W(wǎng)ave Computing負(fù)責(zé)領(lǐng)導(dǎo)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的研發(fā)工作。

 

 

億鑄科技 Debu博士:基于ReRAM全數(shù)字存算一體大算力的人工智能芯片具有“三高一易”等特點

 

 

在AI芯片戰(zhàn)場上,存算一體正火力全開。憑借“用存儲器做計算”這一獨門絕技,存算一體技術(shù)通過底層架構(gòu)創(chuàng)新,解決了傳統(tǒng)AI芯片長久以來難愈的痼疾——存儲墻、能耗墻及編譯墻。其發(fā)展?jié)撃芤呀?jīng)被學(xué)術(shù)界和工業(yè)界雙雙看好。其中有一家創(chuàng)企億鑄科技,選擇了一條目前來看尚屬「國內(nèi)首家」的道路——研發(fā)基于ReRAM(RRAM)全數(shù)字存算一體大算力AI芯片,落地于云端數(shù)據(jù)中心、智能駕駛等對算力密度、能效比需求很高的應(yīng)用場景。

 

這支有備而來的創(chuàng)業(yè)新秀成立于2020年,經(jīng)過1年時間的準(zhǔn)備,自2021年10月正式運營以來,正在全速推進(jìn)研發(fā)。談及優(yōu)勢,其團(tuán)隊非常自信:億鑄科技不僅在ReRAM芯片設(shè)計、架構(gòu)、軟件、系統(tǒng)等方面具有國際領(lǐng)先的實力,而且可以得到從核心IP到工藝的全鏈國產(chǎn)化。是怎樣的底氣,支撐億鑄創(chuàng)始團(tuán)隊走上這條之前無人走過的道路?他們將如何克服技術(shù)、量產(chǎn)、生態(tài)等方面的諸多挑戰(zhàn)?圍繞這些問題,智東西與億鑄科技CTO Debajyoti Pal(Debu)博士進(jìn)行了一場獨家對話。

 

Debu已深耕通信、網(wǎng)絡(luò)和半導(dǎo)體行業(yè)30多年,因其在數(shù)字通信領(lǐng)域做出的開創(chuàng)性貢獻(xiàn),于2002年當(dāng)選IEEE院士。他是寬帶接入的先驅(qū),也是AI算法及架構(gòu)專家,曾在美國EDA巨頭Cadence及美國明星AI芯片公司W(wǎng)ave Computing負(fù)責(zé)領(lǐng)導(dǎo)機(jī)器學(xué)習(xí)/深度學(xué)習(xí)的研發(fā)工作,再往前,還曾任高通技術(shù)副總裁,負(fù)責(zé)固定寬帶接入技術(shù)的研發(fā)。經(jīng)過深入交流,Debu向我們講述了億鑄團(tuán)隊在技術(shù)定位和技術(shù)戰(zhàn)略上的深謀遠(yuǎn)慮,并分享了其產(chǎn)品研發(fā)的最新進(jìn)展以及對AI芯片產(chǎn)業(yè)的長期觀察。

▲Debajyoti Pal博士


01.ReRAM商用時代已至搶占云端存算一體落地先機(jī)

 

高能效比,是存算一體AI芯片的獨門殺手锏。

其實現(xiàn)方法不難理解。傳統(tǒng)馮·諾依曼架構(gòu)下存算分離,數(shù)據(jù)需在計算和存儲單元之間頻繁移動,數(shù)據(jù)搬運的時間甚至?xí)_(dá)到計算時間的數(shù)百倍,并在此過程造成占比逾60%-90%的功耗,還會導(dǎo)致計算效率的下降。而存算一體架構(gòu)能夠從根本上突破這些瓶頸。

 

存算一體技術(shù)按照計算單元與存儲單元在系統(tǒng)中的距離可主要分為近存計算、存內(nèi)計算等。顧名思義,近存計算是把存儲陣列跟計算模塊的距離拉近,而存內(nèi)計算通過對存儲器件進(jìn)行改造,使得存儲器件可以直接參與計算。兩類方法均能大幅減少數(shù)據(jù)搬運,實現(xiàn)計算效率數(shù)量級的提升。

 

▲馮·諾依曼、近存計算、存內(nèi)計算架構(gòu)對比(圖源:億鑄科技)

按存儲器件來劃分,存算一體有Flash、SRAM、DRAM等成熟存儲介質(zhì),同時ReRAM、MRAM等新型存儲介質(zhì)也在快速發(fā)展。

 

其中,DRAM多用于近存計算,適合數(shù)據(jù)中心等大算力場景;此前大部分存內(nèi)計算采用模擬計算的方法,多選取Flash、SRAM等工藝相對成熟的存儲器。由于難以做到足夠高的精度、算力,這些技術(shù)方案大多被用在低功耗、低精度和中小算力的場景。

相比之下,億鑄選擇基于ReRAM用全數(shù)字的方式做大算力、高精度、高能效比的存算一體AI芯片,似乎是一個冒險之舉。但億鑄團(tuán)隊并不擔(dān)心,相反,這是他們經(jīng)過深思熟慮做出的決定——作為業(yè)界公認(rèn)的未來存儲器挑大梁者,ReRAM的商業(yè)化條件已經(jīng)成熟,億鑄科技也準(zhǔn)備好成為第一個“吃螃蟹的人”。

 

相較傳統(tǒng)存儲介質(zhì),ReRAM擁有存儲密度高、能耗低、讀寫速度快及可下電數(shù)據(jù)保存(非易失性)等特點,且生產(chǎn)工藝與CMOS完全兼容,可以通過制程工藝的升級迭代持續(xù)提升性能和密度。而且圍繞ReRAM的研發(fā)及商業(yè)化進(jìn)展,國內(nèi)的產(chǎn)業(yè)鏈發(fā)展也在突飛猛進(jìn)——中國臺灣的臺積電和中國大陸的昕原半導(dǎo)體,成為唯二實現(xiàn)28nm制程ReRAM量產(chǎn)的公司。

 

如今,ReRAM已經(jīng)被業(yè)內(nèi)知名頭部企業(yè)采用設(shè)計下一代芯片。在2021年臺積電的年報中,以ReRAM為代表的新型存儲介質(zhì)市場份額在持續(xù)提升。億鑄的緊密合作伙伴昕原半導(dǎo)體目前也已經(jīng)實現(xiàn)28nm制程ReRAM產(chǎn)品的量產(chǎn)出貨。這些進(jìn)展持續(xù)傳遞出一個信號:ReRAM技術(shù)在存算一體方向的應(yīng)用和量產(chǎn)已經(jīng)具備了相應(yīng)的產(chǎn)業(yè)鏈配套保證。也正因此,億鑄科技的技術(shù)能夠?qū)崿F(xiàn)從軟件、架構(gòu)、芯片設(shè)計、工藝、制造的國產(chǎn)化,且核心IP均為億鑄自研以及與合作伙伴共同研發(fā)。


02.高精度+高能效比,單板卡突破1000TOPS

 

目前來看,億鑄將會是世界上率先將存算一體架構(gòu)切實在AI大算力芯片中設(shè)計完成并商用落地的公司。Debu說,億鑄基于ReRAM全數(shù)字存算一體大算力AI芯片,具有高能效比、高精度、高時延確定性、易部署等特點。

 

存算一體架構(gòu)芯片的能效比,理論上可以做到傳統(tǒng)馮·諾依曼架構(gòu)芯片的幾十倍甚至百倍以上?;谶@一思路,億鑄團(tuán)隊在存算陣列架構(gòu)、模擬域全數(shù)字化計算、存算一體芯片架構(gòu)、自動編譯等諸多方面創(chuàng)新設(shè)計,實現(xiàn)了億鑄AI芯片可以滿足大算力、高能效比、高精度計算等不同方面的要求。

 

▲億鑄目標(biāo)打造AI原生計算架構(gòu),用存算一體打破芯片“三堵墻”(圖源:億鑄科技)

許多存算一體廠商選擇的模擬或模數(shù)轉(zhuǎn)換的計算路徑,精度往往會受信噪比的影響,精度上限在4-8bit左右,因此多用在對能效比要求較高、對精確度容忍空間大的小算力場景,不適合用在云端數(shù)據(jù)中心。而億鑄做的全數(shù)字化方案,無需ADC/DAC模數(shù)和數(shù)模信號轉(zhuǎn)換器,不會受到信噪比的影響,精度可以達(dá)到32bit甚至更高,既不會產(chǎn)生精度損失,也不會面臨模擬計算帶來的諸如IR-DROP等問題。

 

因為解決了存儲墻的問題,相比傳統(tǒng)AI芯片方案,存算一體AI芯片能在相同算力下只需更低的功耗,從而節(jié)約耗電量和成本;在標(biāo)準(zhǔn)功耗規(guī)格的PCIe計算卡上提供更高算力,同在75W功耗的前提下,億鑄ReRAM存算一體大算力板卡算力可達(dá)1POPS(INT8)以上(1POPS即1000TOPS)。在數(shù)據(jù)中心場景中,計算芯片不是單打獨斗,而需形成多芯片擴(kuò)展、多集群通信管理,這對芯片架構(gòu)本身及軟件均提出了更高的要求。Debu表示億鑄團(tuán)隊非常有信心實現(xiàn)這個技術(shù)要求。


03.打破AI芯片的“第三堵墻”

 

除了存儲墻、能耗墻外,AI芯片領(lǐng)域還長期面臨第三堵墻——影響芯片易用性的編譯墻。對于云端數(shù)據(jù)中心客戶來說,他們主要關(guān)心兩件事:一是擁有成本優(yōu)勢,二是能否得到與以前方法一致的用戶體驗。而滿足客戶對用戶體驗的要求,則需在軟件上下功夫。

 

“對于任何AI加速公司來說,你需要建立自己的軟件棧。”Debu強(qiáng)調(diào)道,軟件棧能夠利用存算一體架構(gòu)的優(yōu)勢,更充分地挖掘硬件性能。由于存算一體芯片主要用于AI推理,更注重部署能力,只要容量足夠的情況下,其在軟件生態(tài)方面沒有特別的限制,由于沒有存儲墻問題,無需優(yōu)化十分復(fù)雜的動態(tài)數(shù)據(jù)流,它的軟件優(yōu)化方面會比傳統(tǒng)架構(gòu)簡單很多。

 

在底層軟件上,億鑄SoC及基礎(chǔ)軟件支持當(dāng)前絕大部分的硬件算子及軟件算子,確保上層軟件可以支持絕大多數(shù)的AI網(wǎng)絡(luò)模型。值得一提的是,其AI芯片可以支持Transformer等復(fù)雜的神經(jīng)網(wǎng)絡(luò)算子,并預(yù)留有算子擴(kuò)展能力。

 

在功能上,億鑄會提供大部分應(yīng)用場景的網(wǎng)絡(luò)及示例代碼,并確保成熟度,絕大部分情況下用戶可以拿去略加修改后使用。

 

在工具鏈上,億鑄會提供相應(yīng)的模型轉(zhuǎn)換工具,量化工具等方便各種模型進(jìn)行轉(zhuǎn)換,從而在億鑄平臺順暢運行。

 

目前,億鑄科技正在開發(fā)業(yè)界首套針對存算一體架構(gòu)的包括編譯、資源優(yōu)化和部署的軟硬件協(xié)同EDA設(shè)計工具和應(yīng)用開發(fā)平臺。

 

Debu說,億鑄團(tuán)隊希望在為整個行業(yè)開發(fā)編譯器、映射優(yōu)化器等軟件工具方面處于先鋒地位,突破編譯墻,推動存算一體芯片商業(yè)化落地及生態(tài)構(gòu)建,讓更多客戶愿意采用存內(nèi)計算方案來作為其業(yè)務(wù)應(yīng)用的底層支撐。


04.明年億鑄第一代芯片落地

 

據(jù)Debu透露,當(dāng)前他的首要目標(biāo)是確保億鑄第一代芯片的順利推出以及規(guī)劃第二代芯片,億鑄科技第一代芯片將于2023年落地,并于同年投片第二代芯片。

億鑄第一代AI芯片采用28nm工藝,具備數(shù)倍能效比優(yōu)勢,尤其二代芯片的計算加速卡的能效比或?qū)崿F(xiàn)當(dāng)前主流AI計算加速卡的10倍左右。

 

目前,億鑄在上海、深圳、杭州、成都以及美國硅谷設(shè)有分支機(jī)構(gòu)。Debu稱,隨著公司進(jìn)一步發(fā)展,他們還考慮在印度設(shè)立研發(fā)中心。融資方面,億鑄科技在去年12月宣布其首筆融資——超億元天使輪融資,由聯(lián)想之星、中科創(chuàng)星和匯芯投資(國家5G創(chuàng)新中心)聯(lián)合領(lǐng)投。


05.業(yè)界大牛聯(lián)手創(chuàng)業(yè),組建全棧式研發(fā)團(tuán)隊

 

由于億鑄科技的芯片相關(guān)技術(shù)都是在國內(nèi)本土研發(fā)及制造,Debu認(rèn)為這為億鑄帶來另一重優(yōu)勢——不易受到地緣紛爭的影響。Debu在電子半導(dǎo)體行業(yè)從業(yè)超過30年,是IEEE Fellow、曾任美國斯坦福大學(xué)EE系的外部特聘教授,在業(yè)內(nèi)不少知名企業(yè)中負(fù)責(zé)管理大型芯片設(shè)計項目/團(tuán)隊。

 

他曾就職于英特爾公司,是英特爾286微處理器的設(shè)計核心成員之一,在美國高通公司擔(dān)任印度研發(fā)團(tuán)隊的負(fù)責(zé)人,在美國AI CGRA架構(gòu)的明星獨角獸Wave Computing公司擔(dān)任AI芯片架構(gòu)設(shè)計副總裁。他也是Amati聯(lián)合創(chuàng)始人,該公司后被TI德州儀器成功收購。

 

加入億鑄之前,他在EDA巨頭Cadence擔(dān)任機(jī)器學(xué)習(xí)的首席科學(xué)家,在此期間,他負(fù)責(zé)所有關(guān)于算法、架構(gòu)、性能分析和建模的前瞻性工作,以及所有下一代深度學(xué)習(xí)處理器和加速器的算法和架構(gòu),包括DNA100及其后續(xù)產(chǎn)品。

 

Debu還領(lǐng)導(dǎo)了系統(tǒng)性能要求(SPR)、性能分析(PA)、體系結(jié)構(gòu)定義(AD)、模型壓縮、量化和再訓(xùn)練算法以及軟件包開發(fā)等工作,此外他還曾負(fù)責(zé)下一代DL技術(shù)和產(chǎn)品的戰(zhàn)略規(guī)劃,研究和開發(fā)基于SRAM的存內(nèi)計算AI Core,包括架構(gòu)、電路設(shè)計、模擬和性能評估。

 

除了Debu外,億鑄的其他幾位核心團(tuán)隊成員,同樣在AI加速、芯片設(shè)計、通信網(wǎng)絡(luò)等領(lǐng)域積累深厚,擁有主流架構(gòu)SoC量產(chǎn)交付、系統(tǒng)軟件研發(fā)交付及AI算法研發(fā)等方面的豐富經(jīng)驗。

 

億鑄科技董事長兼CEO熊大鵬在1983年本科畢業(yè)于西安電子科技大學(xué),碩士畢業(yè)于華南理工大學(xué),在美國德州大學(xué)奧斯汀分校獲得博士學(xué)位,其間還獲得應(yīng)用數(shù)學(xué)碩士、電氣和計算機(jī)工程碩士學(xué)位。他曾任美國知名AI芯片公司W(wǎng)ave Computing的中國區(qū)總經(jīng)理,曾帶領(lǐng)老牌芯片公司埃派克森的芯片產(chǎn)品線干到世界第二,早在2015年就開始用GPU支持AI算法的芯片規(guī)劃和設(shè)計落地,對于不同技術(shù)路徑應(yīng)用于AI大算力場景的優(yōu)缺點以及該賽道用戶面臨的痛點有著深刻的技術(shù)洞察和企業(yè)經(jīng)營實踐。熊大鵬和Debu還都有過半導(dǎo)體風(fēng)險投資從業(yè)經(jīng)歷。

▲熊大鵬博士

談及人才方面的競爭力,Debu說:“億鑄的研發(fā)團(tuán)隊學(xué)歷背景非常豪華。”

 

據(jù)他介紹,億鑄研發(fā)人員來自哈佛大學(xué)、斯坦福大學(xué)、德州大學(xué)奧斯汀分校、清華大學(xué)、上海交通大學(xué)、復(fù)旦大學(xué)、中國科學(xué)技術(shù)大學(xué)等國內(nèi)外知名院校,成員過往發(fā)表的頂級期刊或頂會論文總計達(dá)40+篇;且產(chǎn)業(yè)實踐經(jīng)驗豐富,核心團(tuán)隊成員的半導(dǎo)體從業(yè)經(jīng)驗均為30+以及20+年,且均來自業(yè)內(nèi)知名半導(dǎo)體企業(yè)。

 


06.結(jié)語:存算一體,驅(qū)動下一代云計算底層創(chuàng)新

 

看向未來,Debu對存算一體的前景滿懷信心。

當(dāng)摩爾定律趨近極限,制造更先進(jìn)制程芯片的成本愈發(fā)高昂,以存算一體為代表的架構(gòu)創(chuàng)新被視作進(jìn)一步提升性能的關(guān)鍵突破路徑,3D堆疊技術(shù)方案也正走向主流,這同樣是Debu非??春玫募夹g(shù)趨勢。

他談道,云端數(shù)據(jù)中心場景中,CPU和GPU各司其職,但特定領(lǐng)域計算興起后,卻一直沒有尋找到真正能給這種工作負(fù)載帶來大幅性能提升的底層計算架構(gòu),而存算正是解決該問題的關(guān)鍵。

隨著數(shù)據(jù)中心支撐的計算規(guī)模越來越大,他相信存算一體會產(chǎn)生深遠(yuǎn)的影響,包括提高大型數(shù)據(jù)中心的算力部署密度,降低擴(kuò)容成本,滿足大型數(shù)據(jù)中心對節(jié)省電力的需求。這也與“雙碳”目標(biāo)下AI數(shù)據(jù)中心節(jié)能減排的趨勢相契合。

而當(dāng)存算一體AI大算力芯片向數(shù)據(jù)中心市場展示出其運行AI工作負(fù)載時的成本、功能等優(yōu)勢,同時易用性方面更加成熟,相信數(shù)據(jù)中心客戶將逐漸消除對存內(nèi)計算大算力AI芯片可編程性的顧慮,下游市場的發(fā)展又將反哺底層芯片的發(fā)展,推動基于存算一體AI芯片架構(gòu)設(shè)計及制造工藝的創(chuàng)新與升級。

 

GTIC 2022演講預(yù)告

8月26日-27日,「GTIC 2022全球AI芯片峰會」將在深圳開啟。大會以“不負(fù)芯光 智算未來”為主題,將于深圳灣萬麗酒店大宴會廳舉行。

在大會第二日下午舉行的存算一體芯片專題論壇上,億鑄科技創(chuàng)始人、董事長兼CEO熊大鵬博士將發(fā)表主題為《存算新動能——基于ReRAM的全數(shù)字化實現(xiàn)》的演講,分享基于ReRAM全數(shù)字存算一體AI大算力芯片設(shè)計的原創(chuàng)性和創(chuàng)新性,并探討全國產(chǎn)化商用落地的實現(xiàn)路徑,敬請期待。