欧美乱妇日本无乱码特黄大片,少妇伦子伦精品无吗

時間：2023-06-28 17:31:12 發(fā)布：tgy 來源：億鑄科技第一對焦：億鑄科技

　　【ZiDongHua 之技術文章區(qū)收錄關鍵詞：億鑄科技自動駕駛人工智能智能汽車】

　　億分享 | 大模型背景下，AI芯片廠商面臨怎樣的機遇與挑戰(zhàn)？

　　編者薦語：

　　百模大戰(zhàn)已然打響，打破算力瓶頸迫在眉睫，市場亟需兼顧成本、功耗、算力的方案。在AI2.0時代，億鑄科技“存算一體超異構”架構，為中國AI算力芯片發(fā)展開辟了一條新的道路，用創(chuàng)新驅動AI算力第二增長曲線實現突破。

　　以下文章來源于偲睿洞察，作者孫越

　　文/Renee

　　編輯/孫越

　　從2022.11.30的ChatGPT，到2023.6.13的360智腦大模型2.0，全球AI界已為大模型持續(xù)瘋狂了七個多月。ChatGPT們正如雨后春筍般涌現，向AI市場投放一個個“炸彈”：辦公、醫(yī)療、教育、制造，亟需AI的賦能。

　　而AI應用千千萬，把大模型打造好才是硬道理。

　　對于大模型“世界”來說，算法是“生產關系”，是處理數據信息的規(guī)則與方式；算力是“生產力”，能夠提高數據處理、算法訓練的速度與規(guī)模；數據是“生產資料”，高質量的數據是驅動算法持續(xù)迭代的養(yǎng)分。在這之中，算力是讓大模型轉動的前提。

　　我們都知道的是，大模型正對算力提出史無前例的要求，具體的表現是：據英偉達數據顯示，在沒有以Transformer模型為基礎架構的大模型之前，算力需求大致是每兩年提升8倍；而自利用Transformer模型后，算力需求大致是每兩年提升275倍?；诖?，530B參數量的Megatron-Turing NLG模型，將要吞噬超10億FLOPS的算力。

　?。ˋI不同模型算法算力迭代情況圖源：格隆匯）

　　作為大模型的大腦——AI芯片，是支撐ChatGPT們高效生產及應用落地的基本前提。保證算力的高效、充足供應，是目前AI大算力芯片廠商亟需解決的問題。

　　GPT-4等大模型向芯片廠商獅子大開口的同時，也為芯片廠商尤其是初創(chuàng)芯片廠商，帶來一個利好消息：軟件生態(tài)重要性正在下降。

　　早先技術不夠成熟之時，研究者們只能從解決某個特定問題起步，參數量低于百萬的小模型由此誕生。例如谷歌旗下的AI公司DeepMind，讓AlphaGo對上百萬種人類專業(yè)選手的下棋步驟進行專項“學習”。

　　而小模型多了之后，硬件例如芯片的適配問題迫在眉睫。故，當英偉達推出統(tǒng)一生態(tài)CUDA之后，GPU+CUDA迅速博得計算機科學界認可，成為人工智能開發(fā)的標準配置。

　　現如今紛紛涌現的大模型具備多模態(tài)能力，能夠處理文本、圖片、編程等問題，也能夠覆蓋辦公、教育、醫(yī)療等多個垂直領域。這也就意味著，適應主流生態(tài)并非唯一的選擇：在大模型對芯片需求量暴漲之時，芯片廠商或許可以只適配1-2個大模型，便能完成以往多個小模型的訂單。

　　也就是說，ChatGPT的出現，為初創(chuàng)芯片廠商們提供了彎道超車的機會。這就意味著，AI芯片市場格局將發(fā)生巨變：不再是個別廠商的獨角戲，而是多個創(chuàng)新者的群戲。

　　本報告將梳理AI芯片行業(yè)發(fā)展概況、玩家情況，總結出大算力時代，玩家提高算力的路徑，并基于此，窺探AI大算力芯片的發(fā)展趨勢。

　　PART-01

　　國產AI芯片，正走向AI3.0時代

　　現階段的AI芯片，根據技術架構種類來分，主要包括GPGPU、FPGA、以 VPU、TPU 為代表的 ASIC、存算一體芯片。

　　根據其在網絡中的位置，AI 芯片可以分為云端AI芯片、邊緣和終端AI芯片；

　　云端主要部署高算力的AI訓練芯片和推理芯片，承擔訓練和推理任務，例如智能數據分析、模型訓練任務等；

　　邊緣和終端主要部署推理芯片，承擔推理任務，需要獨立完成數據收集、環(huán)境感知、人機交互及部分推理決策控制任務。

　　根據其在實踐中的目標，可分為訓練芯片和推理芯片：

　　縱觀AI芯片在國內的發(fā)展史，AI芯片國產化進程大致分為三個時代。

　　1.0時代，是屬于ASIC架構的時代

　　自2000年互聯(lián)網浪潮拉開AI芯片的序幕后，2010年前后，數據、算法、算力和應用場景四大因素的逐漸成熟，正式引發(fā)AI產業(yè)的爆發(fā)式增長。申威、沸騰、兆芯、龍芯、魂芯以及云端AI芯片相繼問世，標志著國產AI芯片正式啟航。

　　2016年5月，當谷歌揭曉AlphaGo背后的功臣是TPU時，ASIC隨即成為“當紅辣子雞”。于是在2018年，國內寒武紀、地平線等國內廠商陸續(xù)跟上腳步，針對云端AI應用推出ASIC架構芯片，開啟國產AI芯片1.0時代。

　　ASIC芯片，能夠在某一特定場景、算法較固定的情況下，實現更優(yōu)性能和更低功耗，基于此，滿足了企業(yè)對極致算力和能效的追求。

　　所以當時的廠商們，多以捆綁合作為主：大多芯片廠商尋找大客戶們實現“專用場景”落地，而有著綜合生態(tài)的大廠選擇單打獨斗。

　　地平線、耐能科技等AI芯片廠商，分別專注AI芯片的細分領域，采用“大客戶捆綁”模式進入大客戶供應鏈。

　　在中廠們綁定大客戶協(xié)同發(fā)展之際，自有生態(tài)的大廠阿里成立獨資芯片公司平頭哥，著眼AI和量子計算。

　　在1.0時代，剛出世的國內芯片廠商們選擇綁定大客戶，有綜合生態(tài)的大廠選擇向內自研，共同踏上探索AI芯片算力的征途。

　　2.0時代，更具通用性的GPGPU“引領風騷”

　　盡管ASIC有著極致的算力和能效，但也存在著應用場景局限、依賴自建生態(tài)、客戶遷移難度大、學習曲線較長等問題。

　　于是，通用性更強的GPGPU（通用圖形處理器）在不斷迭代和發(fā)展中成為AI計算領域的最新發(fā)展方向，當上AI芯片2.0時代的指路人。

　　自2020年起，以英偉達為代表的GPGPU架構開始有著不錯的性能表現。通過對比英偉達近三代旗艦產品發(fā)現，從FP16 tensor 算力來看，性能實現逐代翻倍的同時，算力成本在下降。

　　于是，國內多個廠商紛紛布局GPGPU芯片，主打CUDA兼容，試探著AI算力芯片的極限。2020年起，珠海芯動力、壁仞科技、沐曦、登臨科技、天數智芯、瀚博半導體等新勢力集結發(fā)力，大家一致的動作是：自研架構，追隨主流生態(tài)，切入邊緣側場景。

　　在前兩個時代中，國產AI芯片廠商都在竭力順應時代潮流，前赴后繼地跟隨國際大廠的步伐，通過研發(fā)最新芯片解決AI算力芯片的挑戰(zhàn)。

　　我們能看到的變化是，在2.0時代中，國產AI芯片廠商自主意識覺醒，嘗試著自研架構以求突破。

　　3.0時代，存算一體芯片或成GPT-4等大模型的最優(yōu)選

　　ASIC芯片的弱通用性難以應對下游層出不窮的應用，GPGPU受制于高功耗與低算力利用率，而大模型又對算力提出前所未有的高要求：目前，大模型所需的大算力起碼是1000TOPS及以上。

　　以 2020 年發(fā)布的 GPT-3 預訓練語言模型為例，其采用的是2020年最先進的英偉達A100 GPU, 算力是624TOPS。2023年，隨著模型預訓練階段模型迭代，又新增訪問階段井噴的需求，未來模型對于芯片算力的需求起碼要破千。

　　再例如自動駕駛領域，根據財通證券研究所表明，自動駕駛所需單個芯片的算力未來起碼要1000+TOPS：2021年4月, 英偉達就已經發(fā)布了算力為1000TOPS的DRIVE Atlan芯片；到了今年，英偉達直接推出芯片Thor，達到2000TOPS。

　　由此，業(yè)界亟需新架構、新工藝、新材料、新封裝，突破算力天花板。除此之外，日漸緊張的地緣關系，無疑又給高度依賴先進制程工藝的AI大算力芯片廠商們提出新的挑戰(zhàn)。

　　在這些大背景下，從2017年到2021年間集中成立的一批初創(chuàng)公司，選擇跳脫傳統(tǒng)馮·諾依曼架構，布局存算一體等新興技術，中國AI芯片3.0時代，正式拉開帷幕。

　　目前存算一體，正在上升期：

　　學界，ISSCC上存算/近存算相關的文章數量迅速增加：從20年的6篇上漲到23年的19篇；其中數字存內計算，從21年被首次提出后，22年迅速增加到4篇。

　　產界，巨頭紛紛布局存算一體，國內陸陸續(xù)續(xù)也有近十幾家初創(chuàng)公司押注該架構：

　　在特斯拉2023 Investor Day預告片末尾，特斯拉的dojo超算中心和存算一體芯片相繼亮相；在更早之前，三星、阿里達摩院包括AMD也早早布局并推出相關產品：阿里達摩院表示，相比傳統(tǒng)CPU計算系統(tǒng)，存算一體芯片的性能提升10倍以上，能效提升超過300倍；三星表示，與僅配備HBM的GPU加速器相比，配備HBM-PIM的GPU加速器一年的能耗降低了約2100GWh。

　　目前，國內的億鑄科技、知存科技、蘋芯科技、九天睿芯等十余家初創(chuàng)公司采用存算一體架構投注于AI算力，其中億鑄科技偏向數據中心等大算力場景。

　　現階段，業(yè)內人士表示，存算一體將有望成為繼CPU、GPU架構之后的第三種算力架構。

　　該提法的底氣在于，存算一體理論上擁有高能效比優(yōu)勢，又能繞過先進制程封鎖，兼顧更強通用性與更高性價比，算力發(fā)展空間巨大。

　　在此基礎上，新型存儲器能夠助力存算一體更好地實現以上優(yōu)勢。目前可用于存算一體的成熟存儲器有NOR FLASH、SRAM、DRAM、RRAM（ReRAM）、MRAM等。相比之下，RRAM具備低功耗、高計算精度、高能效比和制造兼容CMOS工藝等優(yōu)勢：

　　目前，新型存儲器RRAM技術已然落地：2022上半年，國內創(chuàng)業(yè)公司昕原半導體宣布，大陸首條RRAM 12寸中試生產線正式完成裝機驗收，并在工控領域達成量產商用。

　　隨著新型存儲器件走向量產，存算一體AI芯片已經挺進AI大算力芯片落地競賽。

　　而無論是傳統(tǒng)計算芯片，還是存算一體芯片，在實際加速AI計算時往往還需處理大量的邏輯計算、視頻編解碼等非AI加速計算領域的計算任務。隨著多模態(tài)成為大模型時代的大勢所趨，AI芯片未來需處理文本、語音、圖像、視頻等多類數據。

　　對此，初創(chuàng)公司億鑄科技首個提出存算一體超異構AI大算力技術路徑。億鑄的暢想是，若能把新型憶阻器技術(RRAM)、存算一體架構、芯粒技術（Chiplet）、3D封裝等技術結合，將會實現更大的有效算力、放置更多的參數、實現更高的能效比、更好的軟件兼容性、從而抬高AI大算力芯片的發(fā)展天花板。

　　站在3.0時代門口，國產AI大算力芯片廠商自主意識爆發(fā)，以期為中國AI大算力芯片提供彎道超車的可能。

　?。ㄖ新裕?/div>

　　算力解決方案，蓄勢待發(fā)

　　以AI云端推理卡為例，我們能看到的是，2018-2023年，算力由于工藝制程“卷不動”等種種原因，成本、功耗、算力難以兼顧。

　　但國力之爭已然打響，ChatGPT已然到來，市場亟需兼顧成本、功耗、算力的方案。

　　目前國際大廠、國內主流廠商、初創(chuàng)企業(yè)都在謀求計算架構創(chuàng)新，試圖找出兼顧性能、規(guī)模、利用率的方案，突破算力天花板。

　?。ㄖ新裕?/div>

　　AI芯片“新星”存算一體門檻奇高

　　2019年后，新增的AI芯片廠商，多數在布局存算一體：據偲睿洞察不完全統(tǒng)計，在2019-2021年新增的AI芯片廠商有20家，在這之中，有10家選擇存算一體路線。

　　這無一不說明著，存算一體將成為繼GPGPU、ASIC等架構后的，一顆冉冉升起的新星。而這顆新星，并不是誰都可以摘。

　　在學界、產界、資本一致看好存算一體的境況下，強勁的技術實力、扎實的人才儲備以及對遷移成本接受度的精準把控，是初創(chuàng)公司在業(yè)內保持競爭力的關鍵，也是擋在新玩家面前的三大門檻。

　　存算一體，打破了三堵墻，能夠實現低功耗、高算力、高能效比，但想要實現如此性能，挑戰(zhàn)頗多：

　　首先是存算一體涉及到芯片制造的全環(huán)節(jié)：從最底層的器件，到電路設計，架構設計，工具鏈，再到軟件層的研發(fā)；

　　其次是，在每一層做相應改變的同時，還要考慮各層級之間的適配度。

　　我們一層一層來看，一顆存算一體芯片被造出來，有怎樣的技術難題。

　　首先，在器件選擇上，廠商就“如履薄冰”：存儲器設計決定芯片的良率，一旦方向錯誤將可能導致芯片無法量產。

　　其次是電路設計層面。電路層面有了器件之后，需要用其做存儲陣列的電路設計。而目前在電路設計上，存內計算沒有EDA工具指導，需要靠手動完成，無疑又大大增加了操作難度。

　　緊接著，架構層面有電路之后，需要做架構層的設計。每一個電路是一個基本的計算模塊，整個架構由不同模塊組成，存算一體模塊的設計決定了芯片的能效比。模擬電路會受到噪聲干擾，芯片受到噪聲影響后運轉起來會遇到很多問題。

　　這種情況下，需要架構師了解模擬存內計算的工藝特點，針對這些特點去設計架構，同時也要考慮到架構與軟件開發(fā)的適配度。

　　軟件層面架構設計完成后，需要開發(fā)相應的工具鏈。

　　而由于存算一體的原始模型與傳統(tǒng)架構下的模型不同，編譯器要適配完全不同的存算一體架構，確保所有計算單元能夠映射到硬件上，并且順利運行。

　　一條完整的技術鏈條下來，考驗著器件、電路設計、架構設計、工具鏈、軟件層開發(fā)各個環(huán)節(jié)的能力，與協(xié)調各個環(huán)節(jié)的適配能力，是耗時耗力耗錢的持久戰(zhàn)。

　　根據以上環(huán)節(jié)操作流程可以看到，存算一體芯片亟需經驗豐富的電路設計師、芯片架構師。

　　除此之外，鑒于存算一體的特殊性，能夠做成存算一體的公司在人員儲備上需要有以下兩點特征：

　　1、帶頭人需有足夠魄力。在器件選擇（RRAM、SRAM等）、計算模式（傳統(tǒng)馮諾依曼、存算一體等）的選擇上要有清晰的思路。

　　這是因為，存算一體作為一項顛覆、創(chuàng)新技術，無人引領，試錯成本極高。能夠實現商業(yè)化的企業(yè)，創(chuàng)始人往往具備豐富的產業(yè)界、大廠經驗和學術背景，能夠帶領團隊快速完成產品迭代。

　　2、在核心團隊中，需要在技術的各個層級中配備經驗豐富的人才。例如架構師，其是團隊的核心。架構師需要對底層硬件，軟件工具有深厚的理解和認知，能夠把構想中的存算架構通過技術實現出來，最終達成產品落地；

　　3、此外，據量子位報告顯示，國內缺乏電路設計的高端人才，尤其在混合電路領域。存內計算涉及大量的模擬電路設計，與強調團隊協(xié)作的數字電路設計相比，模擬電路設計需要對于工藝、設計、版圖、模型pdk以及封裝都極度熟悉的個人設計師。

　　落地，是第一生產力。在交付時，客戶考量的并不僅僅是存算一體技術，而是相較于以往產品而言，存算一體整體SoC的能效比、面效比和易用性等性能指標是否有足夠的提升，更重要的是，遷移成本是否在承受范圍內。

　　如果選擇新的芯片提升算法表現力需要重新學習一套編程體系，在模型遷移上所花的人工成本高出購買一個新GPU的成本，那么客戶大概率不會選擇使用新的芯片。

　　因此，存算一體在落地過程中是否能將遷移成本降到最低，是客戶在選擇產品時的關鍵因素。

　　目前來看，英偉達憑借著更為通用的GPGPU霸占了中國AI加速卡的市場。

　　然而，存算一體芯片憑借著低功耗但高能效比的特性，正成為芯片賽道，冉冉升起的一顆新星。

　　而存算一體市場，風云未定，仍處于“小荷才露尖尖角”階段。但我們不可否認的是，存算一體玩家已然構筑了三大高墻，非技術實力雄厚，人才儲備扎實者，勿進。

　　PART-04

　　行業(yè)發(fā)展趨勢

　　存算一體，算力的下一級

　　隨著人工智能等大數據應用的興起，存算一體技術得到國內外學界與產界的廣泛研究與應用。在2017年微處理器頂級年會(Micro 2017)上，包括英偉達、英特爾、微軟、三星、加州大學圣塔芭芭拉分校等都推出他們的存算一體系統(tǒng)原型。

　　自此，ISSCC上存算/近存算相關的文章數量迅速增加：從20年的6篇上漲到23年的19篇；其中數字存內計算，從21年被首次提出后，22年迅速增加到4篇，23年有6篇。

　?。↖SSCC2023存算一體相關文章圖源：ISSCC2023）

　　系統(tǒng)級創(chuàng)新，嶄露頭角

　　系統(tǒng)級創(chuàng)新正頻頻現身半導體TOP級會議，展露著打破算力天花板的潛力。

　　在 AMD 的總裁兼CEO Lisa Su（蘇姿豐）帶來的主旨演講“Innovation for the next decade of compute efficiency“（下一個十年計算效率的創(chuàng)新）中，她提到了AI應用的突飛猛進，以及它給芯片帶來的需求。

　　Lisa Su表示，根據目前計算效率每兩年提升2.2倍的規(guī)律，預計到2035年，如果想要算力達到十萬億億級，則需要的功率可達500MW，相當于半個核電站能產生的功率，“這是極為離譜、不切合實際的”。

　　而為了實現這樣的效率提升，系統(tǒng)級創(chuàng)新是最關鍵的思路之一。

　?。ㄋ懔εc功耗關系圖源：ISSCC2023大會）

　　在另一個由歐洲最著名三個的半導體研究機構IMEC/CEA Leti/Fraunhofer帶來的主旨演講中，系統(tǒng)級創(chuàng)新也是其核心關鍵詞。

　　該演講中提到，隨著半導體工藝逐漸接近物理極限，新的應用對于芯片的需求也必須要從系統(tǒng)級考慮才能滿足，并且提到了下一代智能汽車和AI作為兩個尤其需要芯片從系統(tǒng)級創(chuàng)新才能支持其新需求的核心應用。

　　“從頭到腳”打破算力天花板

　　系統(tǒng)級創(chuàng)新，是協(xié)同設計上中下游多個環(huán)節(jié)，實現性能的提升。還有一種說法是，系統(tǒng)工藝協(xié)同優(yōu)化。

　　系統(tǒng)工藝協(xié)同優(yōu)化為一種“由外向內”的發(fā)展模式，從產品需支持的工作負載及其軟件開始，到系統(tǒng)架構，再到封裝中必須包括的芯片類型，最后是半導體制程工藝。

　?。ㄏ到y(tǒng)工藝協(xié)同優(yōu)化圖源：ISSCC2023大會）

　　簡單來說，就是把所有環(huán)節(jié)共同優(yōu)化，由此盡可能地改進最終產品。

　　對此，Lisa Su給出了一個經典案例：在對模型算法層面使用創(chuàng)新數制（例如8位浮點數FP8）的同時，在電路層對算法層面進行優(yōu)化支持，最終實現計算層面數量級的效率提升：相比傳統(tǒng)的32位浮點數（FP32），進行系統(tǒng)級創(chuàng)新的FP8則可以將計算效率提升30倍之多。而如果僅僅是優(yōu)化FP32計算單元的效率，無論如何也難以實現數量級的效率提升。

　?。ㄌ囟ㄓ蛴嬎阒С止ぷ髫撦d優(yōu)化，從而提高性能和效率圖源：ISSCC2023大會）

　　這便是系統(tǒng)級創(chuàng)新成為關鍵路徑的原因所在：如果電路設計僅僅停留在電路這一層——只是考慮如何進一步優(yōu)化FP32計算單元的效率，無論如何也難以實現數量級的效率提升。

　　對此，在未來發(fā)展機會模塊的演講中，Lisa Su給出了未來系統(tǒng)級封裝架構的大致模樣：包含異構計算叢集，特定加速單元，先進封裝技術，高速片間UCIe互聯(lián)，存算一體等內存技術。

　?。ㄎ磥淼南到y(tǒng)級封裝架構圖源：ISSCC2023大會）

　　百舸爭流，創(chuàng)新者先

　　技術路徑、方案已然明確，接下來就是拼魄力的階段。

　　每一個新興技術的研發(fā)廠商，在前期無疑要面臨技術探索碰壁，下游廠商不認同等各個層面的問題。而在早期，誰先預判到未來的發(fā)展趨勢，并用于邁出探索的腳步，鋪下合理的資源去嘗試，就會搶到先機。

　　芯片巨頭NVIDIA在這方面做出了很好的榜樣。

　　當數據中心浪潮還未鋪天蓋地襲來、人工智能訓練還是小眾領域之時，英偉達已經投入重金，研發(fā)通用計算GPU和統(tǒng)一編程軟件CUDA，為英偉達謀一個好差事——計算平臺。

　　而在當時，讓GPU可編程，是“無用且虧本”的：不知道其性能是否能夠翻倍，但產品研發(fā)會翻倍。為此，沒有客戶愿意為此買單。但預判到單一功能圖形處理器不是長遠之計的英偉達毅然決定，在所有產品線上都應用CUDA。

　　在芯東西與英偉達中國區(qū)工程和解決方案高級總監(jiān)賴俊杰博士的采訪中，賴俊杰表示：“為了計算平臺這一愿景，早期黃仁勛快速調動了英偉達上上下下非常多的資源。”

　　遠見+重金投入，在2012年，英偉達拿到了創(chuàng)新者的獎勵：2012年，深度學習算法的計算表現轟動學術圈，作為高算力且更為通用、易用的生產力工具，GPU+CUDA迅速風靡計算機科學界，成為人工智能開發(fā)的“標配”。