【ZiDongHua 之智能自動化收錄關(guān)鍵詞:機器學習 人工智能 大語言模型 】
  
  ICML 2024 | 自動化所新作速覽
  
  國際機器學習大會(International Conference on Machine Learning,簡稱ICML)是機器學習領(lǐng)域的頂級會議。7月21日至27日,ICML 2024在奧地利維也納正式召開。自動化所多篇研究論文被本屆會議錄用,部分論文當選Spotlight Paper(僅占總投稿量的3.5%)。本文將對相關(guān)成果進行介紹,歡迎交流討論。
  
  1. 具有O(L)訓練和O(1)推理復雜度的時間可逆脈沖神經(jīng)網(wǎng)絡(luò)
  
  High-Performance Temporal Reversible Spiking Neural Networks with O(L) Training Memory and O(1) Inference Cost
  
  論文作者:胡珈魁、姚滿、邱雪睿、侴雨宏、蔡宇軒、喬寧、田永鴻、徐波、李國齊
  
  ★ 本研究入選Spotlight Paper
  
  利用多時間步進行仿真的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)訓練顯存高,且能耗高。當前的方法無法同時解決這一訓練和推理難題。該研究提出一種時間可逆架構(gòu),通過改變SNNs的前向傳播路徑,同時應(yīng)對訓練和推理挑戰(zhàn)。該研究關(guān)閉大部分脈沖神經(jīng)元的時間動態(tài),并對開啟時間動態(tài)的脈沖神經(jīng)元處設(shè)計多級時間可逆交互,從而實現(xiàn)O(L)的訓練需求。結(jié)合時間可逆特性,重新設(shè)計SNNs的輸入編碼和網(wǎng)絡(luò)組織結(jié)構(gòu),實現(xiàn)了O(1)推理能耗。實驗結(jié)果驗證了所提出的方法在不損失性能的前提下,能同時大幅度提升訓練效率和推理效率。
 
  
  時間可逆脈沖神經(jīng)網(wǎng)絡(luò)
  
  2. 魯棒的偏好強化學習算法
  
  RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences
  
  論文作者:程杰,熊剛,戴星源,繆青海,呂宜生,王飛躍
  
  ★ 本研究入選Spotlight Paper
  
  強化學習的成功通常需要選擇合適的獎勵函數(shù),這一過程費時費力、且依賴于手工設(shè)計。而偏好強化學習(PbRL)方法利用人類偏好來學習獎勵函數(shù),從而規(guī)避了該過程。相較于其他領(lǐng)域而言,控制任務(wù)需要更高質(zhì)量的人類反饋數(shù)據(jù);同時,現(xiàn)有算法過度追求反饋利用率,期望用更少的反饋數(shù)據(jù)來獲得更好的控制性能,這進一步惡化了算法在面對噪聲數(shù)據(jù)時的性能。
  
  為此,本文提出了RIME,一種對含有噪聲的偏好數(shù)據(jù)魯棒的PbRL算法,可從帶噪偏好中進行有效的獎勵和策略學習。具體而言,基于干凈偏好數(shù)據(jù)的損失上界假設(shè),理論分析了錯誤樣本的KL散度下界,并進一步對RL訓練中的分布偏移情況進行不確定性補償,從而動態(tài)地過濾噪聲偏好數(shù)據(jù)。為了抵消因錯誤篩選而導致的累積誤差,本文通過熱啟動獎勵模型,使其在預(yù)訓練階段擬合自驅(qū)獎勵。同時,本文發(fā)現(xiàn)獎勵模型的熱啟動還可以彌補 PbRL 從預(yù)訓練到在線訓練切換時產(chǎn)生的性能鴻溝。在機器人操作(Meta-World)和運動(DMControl)任務(wù)上的實驗表明,RIME 顯著增強了PbRL方法的魯棒性。
 
  
  論文鏈接:
  
  https://arxiv.org/abs/2402.17257
  
  代碼鏈接:
  
  https://github.com/CJReinforce/RIME_ICML2024
  
  3. HGCN2SP:基于層次化圖卷積網(wǎng)絡(luò)的兩階段隨機規(guī)劃
  
  HGCN2SP: Hierarchical Graph Convolutional Network for Two-Stage Stochastic Programming
  
  論文作者:吳洋,張一帆,梁振興,程健
  
  兩階段隨機規(guī)劃(Two-Stage Stochastic Programming, 2SP)是建模和求解不確定性下決策問題的有效方法。在這種情況下,決策者需要在不確定未來環(huán)境的情況下,先做出第一階段的決策,然后根據(jù)實際發(fā)生的情況(場景)制定具體的第二階段決策,以最小化總成本或最大化總收益。然而,隨著場景數(shù)量的增加,問題規(guī)模迅速膨脹,導致求解時間顯著增加。因此,如何高效求解成為了亟待解決的關(guān)鍵問題。
  
  我們提出了HGCN2SP模型,該模型利用層次化圖卷積網(wǎng)絡(luò)提取場景的表征,采用基于注意力機制的解碼器挑選代表性的場景,并結(jié)合強化學習(RL)優(yōu)化其選擇,實現(xiàn)了2SP問題的高效求解。在設(shè)施選址問題上的實驗表明,HGCN2SP能夠做出比現(xiàn)有方法更優(yōu)的決策。在網(wǎng)絡(luò)設(shè)計問題的實驗中,HGCN2SP僅用不到一半的時間就取得了相近的決策效果。尤其在大規(guī)模實例和大量場景的情況下,HGCN2SP依然保持了強大的泛化能力。
 
  
  4. 邁向高效脈沖Transformer:一種用于訓練和推理加速的令牌稀疏化框架
  
  Towards Efficient Spiking Transformer: A Token Sparsification Framework for Training and Inference Acceleration
  
  論文作者:諸葛正陽,王培松,姚星廷,程健
  
  當前的脈沖Transformer在具有脈沖神經(jīng)網(wǎng)絡(luò)能效優(yōu)勢的同時,還展現(xiàn)出了逼近人工神經(jīng)網(wǎng)絡(luò)的卓越性能。然而,雖然能通過神經(jīng)形態(tài)計算實現(xiàn)能耗高效的推理過程,但脈沖Transformer在GPU上的訓練過程相比于人工神經(jīng)網(wǎng)絡(luò)需要消耗更多時間。
  
  為了解決該問題,我們探索了針對高效脈沖Transformer的令牌稀疏化方案,并發(fā)現(xiàn)傳統(tǒng)稀疏化方法存在明顯的性能下降問題。我們對此問題進行了分析并提出了基于時間步錨定令牌與雙對齊的稀疏化方法(STATA),使用更加標準化的準則在時間步維度上識別重要的令牌,并通過雙對齊機制促進多個維度上較弱注意力圖的學習,進一步保證了令牌稀疏化的準確性。實驗結(jié)果表明,STATA在脈沖Transformer的訓練和推理過程顯著優(yōu)于傳統(tǒng)的稀疏化方法。它在保持了一定模型性能的基礎(chǔ)上,實現(xiàn)了約1.53倍的訓練提速和48%的推理能耗節(jié)省,同時它還在多種數(shù)據(jù)集和架構(gòu)上具有較好的可遷移性。
  
  5. 揭示極大卷積核網(wǎng)絡(luò)魯棒性的秘密
  
  Revealing the Dark Secrets of Extremely Large Kernel ConvNets On Robustness
  
  論文作者:陳宏昊,張育榮,豐效坤,初祥祥,黃凱奇
  
  部署深度學習模型時,魯棒性是一個需要考慮的重要方面。許多研究致力于研究視覺轉(zhuǎn)換器(ViTs)的魯棒性,因為自20世紀20年代初以來,ViTs一直是視覺任務(wù)的主流骨干選擇。最近,一些大卷積核網(wǎng)絡(luò)以令人印象深刻的性能和效率卷土重來。然而,目前尚不清楚大卷積核網(wǎng)絡(luò)是否具有強魯棒性及影響其魯棒性的因素。
  
  在本文中,我們首先在六個不同的魯棒性基準數(shù)據(jù)集上對大核卷積的魯棒性及其與典型的小核卷積和ViTs的差異進行了全面評估。然后,為了分析其強大魯棒性背后的潛在因素,我們從定量和定性的角度設(shè)計了九組實驗,以揭示大核卷積網(wǎng)絡(luò)與傳統(tǒng)卷積網(wǎng)絡(luò)完全不同的有趣特性。我們的實驗首次證明,純卷積網(wǎng)絡(luò)可以實現(xiàn)與ViTs相當甚至優(yōu)于ViTs的優(yōu)異魯棒性。我們對遮擋不變性、核注意力模式和頻率特性的分析為魯棒性的來源提供了新的見解。
  
  6. Libra:基于解耦視覺系統(tǒng)的多模態(tài)大語言模型
  
  Libra: Building Decoupled Vision System on Large Language Models
  
  論文作者:許逸凡,楊小汕,宋亞光,徐常勝
  
  本工作提出了一個基于解耦視覺系統(tǒng)的多模態(tài)大語言模型Libra。解耦視覺系統(tǒng)將視覺建模解耦成內(nèi)部模態(tài)建模和跨模態(tài)交互兩部分,使得模型能夠在保留視覺獨有信息的同時進行有效的跨模態(tài)理解。Libra對于視覺和語言模態(tài)采用了統(tǒng)一的自回歸建模。具體來說,本工作在已有大語言模型基礎(chǔ)上,嵌入了路由視覺專家,在模型的注意力計算過程中將視覺和語言流進行路由,從而使得模型在模態(tài)內(nèi)部建模和跨模態(tài)交互的計算情境下呈現(xiàn)出不同的注意力計算模式。實驗表明Libra的這種結(jié)構(gòu)設(shè)計能夠在僅用5千萬圖文對的訓練數(shù)據(jù)量下取得和現(xiàn)有多模態(tài)大模型相匹敵的性能。因此,本工作為未來多模態(tài)基礎(chǔ)模型提供了一個新的設(shè)計角度。
  
  7. 基于快-慢測試時自適應(yīng)的在線視覺-語言導航方法
  
  Fast-Slow Test-time Adaptation for Online Vision-and-Language Navigation
  
  論文作者:高君宇,姚暄,徐常勝
  
  視覺-語言導航作為實現(xiàn)具身智能的關(guān)鍵研究方向,專注于探索智能體如何準確理解自然語言指令并導航至目標位置。在實際中,智能體通常需要以在線的方式執(zhí)行視覺-語言導航任務(wù),即完成跨樣本的在線指令執(zhí)行和單樣本內(nèi)的多步動作決策。由于僅依賴預(yù)訓練和固定的導航模型難以滿足多樣化的測試環(huán)境,這促使我們探索如何利用未標注的測試樣本來實現(xiàn)有效的在線模型適應(yīng)。然而,過于頻繁的模型更新可能導致模型參數(shù)發(fā)生顯著變化,而偶爾的更新又可能使模型難以適應(yīng)動態(tài)變化的環(huán)境。
  
  為此,本文提出了一種新的快-慢測試時自適應(yīng)方法(FSTTA),該方法在統(tǒng)一框架下對模型梯度和參數(shù)進行聯(lián)合的分解與累積分析,以應(yīng)對在線視覺語言導航任務(wù)的挑戰(zhàn)。通過大量實驗驗證,本文提出的方法在四個流行的基準測試中均取得了顯著的性能提升。
  
  模型的整體架構(gòu)
  
  論文鏈接:
  
  https://icml.cc/virtual/2024/poster/33723
  
  代碼鏈接:
  
  https://github.com/Feliciaxyao/ICML2024-FSTTA
  
  8. Transformer不同子層的差異化結(jié)構(gòu)壓縮
  
  LoRAP: Transformer Sub-Layers Deserve Differentiated Structured Compression for Large Language Models
  
  論文作者:李廣焱,唐永強,張文生
  
  Transformer的結(jié)構(gòu)化壓縮往往采用單一的壓縮方法,從而忽略了Transformer中不同子層之間的結(jié)構(gòu)特性。為了解決該問題,本文設(shè)計了一種新穎的結(jié)構(gòu)化壓縮方法 LoRAP,它有機地結(jié)合了低秩矩陣近似和結(jié)構(gòu)化剪枝。這項研究中得出了一個重要觀察:多頭自注意力(MHA)子層顯示出明顯的低秩結(jié)構(gòu),而前饋網(wǎng)絡(luò)(FFN)子層則沒有?;谶@一觀察,對于MHA子層,本文提出了一種輸入激活加權(quán)奇異值分解方法,并根據(jù)矩陣低秩屬性的差異分配不同的參數(shù)量。對于FFN子層,本文提出了一種梯度無關(guān)的結(jié)構(gòu)化通道剪枝方法。在零樣本困惑度和零樣本任務(wù)分類的廣泛評估中,本文的方法在多個壓縮比下均優(yōu)于之前的結(jié)構(gòu)化壓縮方法。
  
  論文鏈接:
  
  https://arxiv.org/abs/2404.09695
  
  9. 連點成線:面向黑盒視覺語言模型的協(xié)作式微調(diào)
  
  Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models
  
  論文作者:王政博、梁堅、赫然、王子磊、譚鐵牛
  
  隨著預(yù)訓練視覺語言模型的不斷發(fā)展,它的通用性和泛化性得到廣泛認可,人們投入了大量精力對其進行微調(diào)以適應(yīng)下游任務(wù)。盡管如此,這些方法通常需要訪問模型的結(jié)構(gòu)和參數(shù),這可能會侵犯模型所有者的權(quán)益。因此,為了保護其模型所有權(quán),模型擁有者往往選擇將其模型以黑盒形式提供,這給模型微調(diào)帶來了挑戰(zhàn)。
  
  本文提出了一種名為協(xié)作式微調(diào)(CraFT)的新方法,用于在黑盒條件下微調(diào)視覺語言模型以適應(yīng)各種下游任務(wù)。該方法僅依賴于模型的輸入提示和輸出預(yù)測結(jié)果。CraFT設(shè)計兩個關(guān)鍵模塊:一個提示生成模塊,用于自動學習最有效的文本提示;一個預(yù)測優(yōu)化模塊,通過增強殘差來優(yōu)化輸出預(yù)測。此外,我們引入了一種輔助的預(yù)測一致性損失,以促進這些模塊之間的一致優(yōu)化。所有這些模塊通過一種新穎的協(xié)作訓練算法進行優(yōu)化。
  
  通過大量的實驗驗證,無需模型的結(jié)構(gòu)、參數(shù)及梯度,CraFT能夠在保持微調(diào)效率的前提下大幅提升黑盒模型在下游任務(wù)的性能。
  
  黑盒協(xié)同微調(diào)方法示意圖
  
  論文鏈接:
  
  https://arxiv.org/abs/2402.04050
  
  代碼鏈接:
  
  https://github.com/mrflogs/CraFT
  
  10. 詞元級別直接偏好優(yōu)化
  
  Token-level Direct Preference Optimization
  
  論文作者:曾勇程,劉國慶,馬緯彧,楊寧,張海峰,汪軍
  
  在人工智能領(lǐng)域的發(fā)展過程中,對大語言模型(LLM)的控制與指導始終是核心挑戰(zhàn)之一,旨在確保這些模型既強大又安全地服務(wù)于人類社會。直接偏好優(yōu)化方法(DPO)通過數(shù)學推理得到獎勵函數(shù)與最優(yōu)策略之間的直接映射,消除了獎勵模型的訓練過程,直接在偏好數(shù)據(jù)上優(yōu)化策略模型,實現(xiàn)了從「反饋到策略」的直觀飛躍。然而,DPO主要關(guān)注在逆KL散度約束下的策略優(yōu)化。由于逆KL散度的mode-seeking特性,DPO在提升對齊性能方面表現(xiàn)出色,但是這一特性也傾向于在生成過程中減少多樣性,可能限制模型的能力。另一方面,盡管DPO從句子級的角度控制KL散度,模型的生成過程本質(zhì)上是逐個token進行的。從句子級控制KL散度直觀上表明DPO在細粒度控制上存在限制,對KL散度的調(diào)節(jié)能力較弱,可能是DPO訓練過程中LLM的生成多樣性迅速下降的關(guān)鍵因素之一。
  
  為了應(yīng)對模型生成多樣性顯著下降的問題,我們的方法TDPO從token-level的角度重新定義了整個對齊流程的目標函數(shù),并通過將Bradley-Terry模型轉(zhuǎn)換為優(yōu)勢函數(shù)的形式,使得整個對齊流程能最終從 Token-level層面進行分析和優(yōu)化。相比于 DPO而言,TDPO的主要貢獻如下:
  
  Token-level的建模方式:TDPO從Token-level的角度對問題進行了建模,對RLHF進行了更精細的分析;
  
  細粒度KL散度約束:在每個token處從理論上引入了前向 KL散度約束,使方法能夠更好地約束模型優(yōu)化;
  
  性能優(yōu)勢明顯:相比于DPO而言,TDPO能夠?qū)崿F(xiàn)更好的對齊性能和生成多樣性的帕累托前沿。
  
  圖 1:DPO和TDPO損失函數(shù)對比
  
  圖 2:IMDb數(shù)據(jù)集上的實驗。圖3(a)表示相對于參考模型的預(yù)期回報和KL散度的帕累托前沿。我們針對參數(shù)α實施了DPO、TDPO1以及TDPO2的不同版本。就帕累托前沿而言,TDPO1和TDPO2均優(yōu)于DPO,其中TDPO2相對于TDPO1進一步提高了性能。這證明了我們的分析和修改的有效性。圖3(b)和圖3(c)分別展示了在訓練步驟中,偏好和不偏好響應(yīng)子集的序列KL散度的演變情況。圖3(d)展示了在整個訓練過程中,不偏好響應(yīng)子集的序列KL散度與偏好響應(yīng)子集的序列KL散度之間的差異。與TDPO1和DPO算法相比,TDPO2在KL散度的調(diào)節(jié)方面表現(xiàn)出了優(yōu)越性。
  
  論文地址:
  
  https://arxiv.org/abs/2404.11999
  
  代碼地址:
  
  https://github.com/Vance0124/Token-level-Direct-Preference-Optimization
  
  11. 基于擾動過程一致性的隨機微分方程的策略梯度穩(wěn)定算法
  
  Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process
  
  論文作者:周相鑫,王亮,周釔馳
  
  為了生成具有目標性質(zhì)的樣本,本研究專注于優(yōu)化參數(shù)化的隨機微分方程(SDEs)的深度神經(jīng)網(wǎng)絡(luò)生成模型,這是具有高表達性的先進生成模型。策略梯度是強化學習中的領(lǐng)先算法。然而,當將策略梯度應(yīng)用于SDEs時,由于策略梯度是基于有限的軌跡集估計的,它可能是不明確的,并且在數(shù)據(jù)稀疏區(qū)域的策略行為可能是不受控制的。這一挑戰(zhàn)妨礙了策略梯度的穩(wěn)定性,并對樣本復雜性產(chǎn)生了負面影響。
  
  為了解決這些問題,本研究提出將SDE約束為與其相關(guān)的擾動過程一致。由于擾動過程覆蓋了整個空間并且易于采樣,本研究可以緩解上述問題。研究框架提供了一種通用方法,允許靈活選擇策略梯度方法,以有效且高效地訓練SDEs。本研究在基于結(jié)構(gòu)的藥物設(shè)計任務(wù)上評估了算法,并優(yōu)化了生成的配體分子的結(jié)合親和力。本研究提出的方法在CrossDocked2020數(shù)據(jù)集上實現(xiàn)了最佳Vina得分。
  
  論文鏈接:
  
  https://arxiv.org/abs/2403.04154
  
  12. 多智能體系統(tǒng)中的序列異步動作協(xié)調(diào):斯塔克爾伯格決策Transformer方法
  
  Sequential Asynchronous Action Coordination in Multi-Agent Systems: A Stackelberg Decision Transformer Approach
  
  論文作者:張斌,毛航宇,李麗娟,徐志偉,李大鵬,趙瑞,范國梁
  
  在多智能體系統(tǒng)中,智能體不僅需要最大化自身獎勵,還需與其他智能體動態(tài)協(xié)調(diào),以實現(xiàn)最佳聯(lián)合策略。現(xiàn)有的MARL方法大多假設(shè)智能體之間的同步動作,限制了其在復雜場景中的應(yīng)用。
  
  這篇文章探討了多智能體系統(tǒng)中的異步動作協(xié)調(diào)問題。作者提出了一種新的方法—Stackelberg Decision Transformer(STEER),旨在通過結(jié)合斯塔克爾伯格博弈的層次決策結(jié)構(gòu)和自回歸序列模型的建模能力,來提高多智能體強化學習方法的可擴展性。STEER引入了雙Transformer架構(gòu),其中內(nèi)部Transformer塊能夠?qū)崿F(xiàn)博弈抽象,有效處理不同環(huán)境下的狀態(tài)配置,外部Transformer塊則促進了每個智能體策略函數(shù)和價值函數(shù)的自回歸擬合。這種架構(gòu)還能夠并行更新所有智能體的策略,大幅降低了之前基于斯塔克爾伯格博弈博弈的強化學習方法的計算成本。此外,文章還提出了知識蒸餾方案來實現(xiàn)其在分散式執(zhí)行系統(tǒng)中的部署。
  
  13. SpikeLM:通過松弛雙向脈沖機制實現(xiàn)脈沖驅(qū)動的通用語言建模
  
  SpikeLM: Towards General Spike-Driven Language Modeling via Elastic Bi-Spiking Mechanisms
  
  論文作者:邢興潤,張正,倪子懿,肖詩濤,鞠一鳴,樊思琪,王業(yè)全,張家俊,李國齊
  
  文章的目標是開發(fā)一種類腦的低功耗人工智能語言模型,即生物啟發(fā)的脈沖神經(jīng)網(wǎng)絡(luò)(SNNs)。與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(ANNs)相比,SNNs具有生物神經(jīng)細胞可解釋性、事件驅(qū)動的稀疏性和二值激活的優(yōu)勢。近期,大規(guī)模語言模型展現(xiàn)出了讓人印象深刻的泛化能力,這激發(fā)了探索更通用的脈沖驅(qū)動模型的動機。然而,現(xiàn)有SNN中的二值脈沖無法編碼足夠的語義信息,這給泛化帶來了技術(shù)挑戰(zhàn)。
  
  本文提出了一種全新的全脈沖機制,用于通用語言任務(wù),包括判別性和生成性任務(wù)。與以往的{0,1}脈沖不同,我們提出了一種更通用的脈沖形式,具有雙向、松弛的幅度和頻率編碼,同時保持了SNN的加性特性。在單時間步中,脈沖通過方向和幅度信息得到增強;在脈沖頻率上,我們設(shè)計了一種控制脈沖發(fā)射率的策略。我們將這種松弛的雙向脈沖機制應(yīng)用于語言建模,命名為SpikeLM。這是第一次使用全脈沖驅(qū)動模型處理通用語言任務(wù),其準確性大幅超越了以往方法。SpikeLM還大大縮小了SNN和ANN在語言建模中的性能差距。