【“ZiDongHua”之創(chuàng)新&科技:脈沖神經(jīng)網(wǎng)絡(luò)】這項(xiàng)工作將注意力機(jī)制融入百萬(wàn)級(jí)規(guī)模脈沖神經(jīng)網(wǎng)絡(luò),在ImageNet-1K數(shù)據(jù)集上,首次取得了與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)相當(dāng)?shù)男阅?,且理論能效為同等結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)的31.8倍。本方法在顯著提升任務(wù)性能的同時(shí)能夠大幅降低網(wǎng)絡(luò)能量消耗,為低功耗神經(jīng)形態(tài)系統(tǒng)的發(fā)展提供了新思路。

自動(dòng)化所聯(lián)合西安交大提出注意力脈沖神經(jīng)網(wǎng)絡(luò):更低功耗更高性能的類腦模型

近日,中國(guó)科學(xué)院自動(dòng)化所腦圖譜與類腦智能實(shí)驗(yàn)室李國(guó)齊研究員與西安交通大學(xué)趙廣社教授合作在人工智能頂級(jí)國(guó)際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)上發(fā)表了一篇題為“Attention Spiking Neural Networks”的研究。這項(xiàng)工作將注意力機(jī)制融入百萬(wàn)級(jí)規(guī)模脈沖神經(jīng)網(wǎng)絡(luò),在ImageNet-1K數(shù)據(jù)集上,首次取得了與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)相當(dāng)?shù)男阅?,且理論能效為同等結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)的31.8倍。本方法在顯著提升任務(wù)性能的同時(shí)能夠大幅降低網(wǎng)絡(luò)能量消耗,為低功耗神經(jīng)形態(tài)系統(tǒng)的發(fā)展提供了新思路。

以傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)近年來(lái)在一些任務(wù)上展現(xiàn)出接近或超越人類的能力。在取得這些成就的同時(shí),人類也付出了海量的能耗代價(jià)。而人腦能夠以極低地能耗高效完成相同或更復(fù)雜的任務(wù)。如何使得機(jī)器智能像人腦一樣高效工作是研究者們孜孜以求的目標(biāo)。基于脈沖神經(jīng)網(wǎng)絡(luò)的神經(jīng)形態(tài)計(jì)算提供了一種極具吸引力的傳統(tǒng)人工智能的低能耗替代方案。脈沖神經(jīng)元模擬了生物神經(jīng)元中的復(fù)雜時(shí)空動(dòng)態(tài),其表達(dá)能力在理論上強(qiáng)于現(xiàn)有的人工神經(jīng)元。同時(shí),脈沖神經(jīng)元繼承了生物神經(jīng)元中的脈沖通信方式,這也是脈沖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)低功耗的關(guān)鍵。一方面,在神經(jīng)形態(tài)系統(tǒng)中只需要執(zhí)行低能耗的突觸加法;另一方面,事件驅(qū)動(dòng)特性使得只有脈沖神經(jīng)元發(fā)放脈沖時(shí)神經(jīng)形態(tài)系統(tǒng)才會(huì)觸發(fā)計(jì)算。因此,如何以低脈沖發(fā)放率實(shí)現(xiàn)高任務(wù)性能是神經(jīng)形態(tài)計(jì)算中的一個(gè)重要問(wèn)題。人腦可以自然而有效地在復(fù)雜場(chǎng)景中找到重要信息,這被稱為注意力機(jī)制。注意力機(jī)制已被廣泛應(yīng)用于深度學(xué)習(xí)中,并取得了顯著的效果。然而在神經(jīng)形態(tài)計(jì)算領(lǐng)域的應(yīng)用還極具挑戰(zhàn)性。

為了將注意力機(jī)制融入脈沖神經(jīng)網(wǎng)絡(luò)中,有三個(gè)基礎(chǔ)問(wèn)題需要考慮。首先,脈沖神經(jīng)網(wǎng)絡(luò)高能效的關(guān)鍵是以脈沖通信為基礎(chǔ)的事件驅(qū)動(dòng)特性,注意力機(jī)制不能破壞這種特性。其次,脈沖神經(jīng)網(wǎng)絡(luò)應(yīng)用場(chǎng)景廣泛,需要有多樣性的設(shè)計(jì)以保證其在各種場(chǎng)景中的有效性。最后,二進(jìn)制脈沖通信使得深度脈沖神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)由梯度消失或爆炸帶來(lái)的性能退化問(wèn)題,注意力機(jī)制的加入至少不應(yīng)加劇退化問(wèn)題。

圖1. 大腦在多層級(jí)結(jié)構(gòu)上存在注意力機(jī)制

如圖1所示,人腦中注意力的功能實(shí)現(xiàn)主要體現(xiàn)在對(duì)不同腦區(qū)或神經(jīng)元脈沖發(fā)放的調(diào)節(jié)。受此啟發(fā),該研究通過(guò)注意力機(jī)制來(lái)優(yōu)化脈沖神經(jīng)網(wǎng)絡(luò)內(nèi)部的膜電勢(shì)分布,關(guān)注重要特征并抑制不必要的特征,進(jìn)而起到調(diào)節(jié)脈沖發(fā)放的作用。網(wǎng)絡(luò)架構(gòu)如圖2所示。

圖2. 多維度注意力脈沖神經(jīng)網(wǎng)絡(luò),注意力機(jī)制被用來(lái)調(diào)節(jié)膜電勢(shì)分布

進(jìn)一步地,為了使注意力脈沖神經(jīng)網(wǎng)絡(luò)適應(yīng)于各種應(yīng)用場(chǎng)景,如圖3所示,該研究融合了時(shí)間、通道和空間三個(gè)維度,以學(xué)習(xí)“何時(shí)”、“什么”、“哪里”是重要的。

圖3. 時(shí)間、通道、空間維度注意力機(jī)制示意圖

研究團(tuán)隊(duì)在基于事件的動(dòng)作識(shí)別數(shù)據(jù)集以及靜態(tài)圖像分類數(shù)據(jù)集ImageNet-1K上對(duì)提出的多維度注意力脈沖神經(jīng)網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)表明注意力模塊的加入不僅幫助脈沖神經(jīng)網(wǎng)絡(luò)在性能上有顯著提升,網(wǎng)絡(luò)中的脈沖數(shù)量也能大大降低,從而降低模型能耗。在DVS128 Gait數(shù)據(jù)集上,多維度注意力模塊能夠使得原始脈沖神經(jīng)網(wǎng)絡(luò)降低81.6%的脈沖發(fā)放,同時(shí)帶來(lái)4.7%的性能提升(表1)。在ImageNet-1K數(shù)據(jù)集上,注意力脈沖神經(jīng)網(wǎng)絡(luò)首次取得了與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)相當(dāng)?shù)男阅?,且理論能效為同等結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)的31.8倍(表2)。

表1. 在DVS128 Gesture/Gait上結(jié)果性能對(duì)比

表2. 在ImageNet-1K上結(jié)果性能對(duì)比

該研究還提出了一種新的可視化方法用來(lái)分析為什么所提出的注意力模塊能夠在降低脈沖發(fā)放的同時(shí)提升網(wǎng)絡(luò)性能。如圖4、圖5所示,加入了注意力機(jī)制的脈沖神經(jīng)網(wǎng)絡(luò)在專注重要信息的同時(shí),能夠抑制不重要的背景噪聲信息(特征圖中的每個(gè)像素點(diǎn)代表一個(gè)神經(jīng)元發(fā)放率。顏色越紅代表發(fā)放率越大;越藍(lán)代表發(fā)放率越小)。而在所有的特征圖中,噪聲特征圖或神經(jīng)元中的脈沖發(fā)放率都很高。因此抑制噪聲信息能夠顯著降低網(wǎng)絡(luò)中的脈沖發(fā)放。

圖4. Gait數(shù)據(jù)集中的案例分析

圖5. DVS128 Gait數(shù)據(jù)集中的脈沖響應(yīng)。注意力機(jī)制能夠顯著抑制背景噪聲

進(jìn)一步,該研究通過(guò)塊動(dòng)態(tài)等距理論證明將所提出的注意力模塊加入到深度脈沖神經(jīng)網(wǎng)絡(luò)中仍然能實(shí)現(xiàn)動(dòng)態(tài)等距。也就是,注意力模塊在深度脈沖神經(jīng)網(wǎng)絡(luò)中不會(huì)引起性能退化。

綜上,本研究工作探索了如何在脈沖神經(jīng)網(wǎng)絡(luò)中使用注意力機(jī)制,發(fā)現(xiàn)通過(guò)將注意力機(jī)制作為輔助模塊插入到脈沖神經(jīng)網(wǎng)絡(luò)中,能夠在大幅度降低網(wǎng)絡(luò)脈沖發(fā)放的同時(shí)顯著提升任務(wù)性能。通過(guò)可視化原始和注意力脈沖神經(jīng)網(wǎng)絡(luò)的脈沖響應(yīng)可知,注意力機(jī)制能幫助原始網(wǎng)絡(luò)在專注重要信息的同時(shí)抑制噪聲信息,而噪聲通道或神經(jīng)元中包含了大量的脈沖。因此,在基于脈沖神經(jīng)網(wǎng)絡(luò)的神經(jīng)形態(tài)計(jì)算中,能夠?qū)崿F(xiàn)像人腦一樣以更低的能耗獲得更好的性能。

論文第一作者為西安交大博士生姚滿,通訊作者為中國(guó)科學(xué)院自動(dòng)化所李國(guó)齊研究員。中國(guó)科學(xué)院自動(dòng)化所徐波研究員、西安交通大學(xué)趙廣社教授、北京大學(xué)田永鴻教授和清華大學(xué)碩士生張恒煜、博士生胡一凡、鄧?yán)谥斫淌谑钦撐墓餐髡?。相關(guān)工作得到了北京市杰出青年基金、國(guó)家自然科學(xué)基金委重點(diǎn)項(xiàng)目、區(qū)域創(chuàng)新聯(lián)合重點(diǎn)項(xiàng)目等基金項(xiàng)目的支持。

論文地址:

https://ieeexplore.ieee.org/document/10032591

本文代碼已開(kāi)源至SpikingJelly框架:

https://github.com/fangwei123456/spikingjelly/pull/329