AAAI 2024 | 中國(guó)科學(xué)院自動(dòng)化研究所新作速覽
【ZiDongHua 之智能自動(dòng)化收錄關(guān)鍵詞:中國(guó)科學(xué)院自動(dòng)化研究所 強(qiáng)化學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 】
AAAI 2024 | 自動(dòng)化所新作速覽
導(dǎo)讀 | 日前,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的A類國(guó)際學(xué)術(shù)會(huì)議AAAI公布論文接收結(jié)果。AAAI(AAAI Conference on Artificial Intelligence) 由國(guó)際先進(jìn)人工智能協(xié)會(huì)主辦,是人工智能領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一。第38屆AAAI人工智能年度會(huì)議將于2024年2月在加拿大溫哥華舉行。本文將介紹中國(guó)科學(xué)院自動(dòng)化研究所團(tuán)隊(duì)在AAAI 2024中錄用的27篇論文(排序不分先后)。
01. 語義概念引導(dǎo)下的集合預(yù)測(cè)用于多樣化視頻描述
Set Prediction Guided by Semantic Concepts for Diverse Video Captioning
作者:盧一帆,張子琦,原春鋒,李鵬,王炎,李兵,胡衛(wèi)明
現(xiàn)有多樣化描述方法使用獨(dú)立的“視頻-單句描述”對(duì)作為訓(xùn)練樣本,不同描述間缺乏交互,描述集合內(nèi)多樣性的沒有被充分挖掘。在本工作中,我們提出了基于語義概念引導(dǎo)集合預(yù)測(cè)(SCG-SP, Semantic-Concept-Guided Set Prediction)的多樣化視頻描述方法。首先,我們將視頻多樣化任務(wù)形式化為一個(gè)集合預(yù)測(cè)問題,使用模型直接擬合視頻的人工標(biāo)注的描述集合,實(shí)現(xiàn)集合層面的建模。隨后,我們考慮了描述多樣性的來源:語義概念(目標(biāo)、行為、場(chǎng)景等)。不同的語義概念組合代表了對(duì)視覺內(nèi)容的不同解讀,因此我們使用語義概念引導(dǎo)集合預(yù)測(cè),進(jìn)一步提升生成描述的語義多樣性。語義概念引導(dǎo)包含兩方面:1)對(duì)視頻中的語義概念進(jìn)行檢測(cè),利用其得到語義特定的視頻編碼;2)增加語義概念預(yù)測(cè)的輔助任務(wù),引入額外語義監(jiān)督。我們的方法在多個(gè)視頻描述數(shù)據(jù)集上取得了先進(jìn)表現(xiàn)。
02. 基于強(qiáng)化學(xué)習(xí)的圖像信號(hào)處理參數(shù)順序優(yōu)化方法
RL-SeqISP: Reinforcement Learning-based Sequential Optimization for Image Signal Processing
作者:孫鑫雨,趙治坤,魏莉莉,郎叢妍,蔡明軒,韓龍飛,王雋,李兵,郭宇軒
硬件圖像信號(hào)處理(ISP)旨在將輸入的RAW圖轉(zhuǎn)換為RGB圖像,它由一系列處理模塊組成,且每個(gè)模塊都包含了許多可調(diào)的參數(shù)。目前,ISP參數(shù)大都由成像專家根據(jù)圖像質(zhì)量和特定任務(wù)下的性能指標(biāo)進(jìn)行手動(dòng)調(diào)整,這一過程耗時(shí)耗力,而且會(huì)受到人類視覺主觀偏好影響。此外,每個(gè)參數(shù)的變化與輸出性能指標(biāo)之間的關(guān)系是復(fù)雜的非線性函數(shù),所以優(yōu)化如此大量的ISP參數(shù)極具挑戰(zhàn)性。受人類專家的序列化調(diào)優(yōu)過程的啟發(fā),我們提出了一種序列化ISP參數(shù)優(yōu)化模型(RL-SeqISP),它利用深度強(qiáng)化學(xué)習(xí)來預(yù)測(cè)不同成像應(yīng)用的所有ISP參數(shù)。我們提出的模型通過融合來自圖像特征空間和參數(shù)空間的信息來逐步提高圖像質(zhì)量。此外,為了避免ISP參數(shù)陷入局部最優(yōu),我們引入動(dòng)態(tài)參數(shù)優(yōu)化模塊。與其他的方法相比,RL-SeqISP模型的優(yōu)點(diǎn)及效率通過在廣泛的下游任務(wù)上的綜合實(shí)驗(yàn)得到證實(shí)。這里特別需要指出的是即使只使用10%的訓(xùn)練數(shù)據(jù),我們的模型在兩個(gè)視覺分析任務(wù)上也比其他SOTA方法平均高出7%的mAP。
03. 動(dòng)態(tài)圖片利用的多模態(tài)摘要方法
DIUSum: Dynamic Image Utilization for Multimodal Summarization
作者:肖敏,朱軍楠,翟飛飛,周玉,宗成慶
已有的多模態(tài)摘要工作都在假設(shè)圖片一定對(duì)摘要或多或少有幫助的前提下,結(jié)合圖片信息生成摘要,而忽視了不是所有樣本都可以幫助提升摘要質(zhì)量的問題。因此,我們提出了一個(gè)動(dòng)態(tài)圖像利用框架,以動(dòng)態(tài)選擇用于多模態(tài)總結(jié)的圖像。首先,我們提出了一個(gè)圖像選擇器,根據(jù)多模態(tài)特征對(duì)每個(gè)圖像進(jìn)行評(píng)分。該圖像選擇器預(yù)測(cè)圖像是否有助于生成比單模輸入更高質(zhì)量的摘要。具體而言,我們使用自我標(biāo)記方法優(yōu)化圖像選擇器,該方法根據(jù)多模輸入是否有助于生成比單模輸入更高質(zhì)量的摘要來定義圖像的貢獻(xiàn)。然后,在圖像選擇器的指導(dǎo)下,解碼器動(dòng)態(tài)地利用多模態(tài)信息生成摘要。通過這些步驟,模型可以獲取對(duì)生成摘要更有效的圖像信息,并為摘要提供更好的多模態(tài)信息。
通過實(shí)驗(yàn)結(jié)果,對(duì)圖片動(dòng)態(tài)利用的方法均在兩個(gè)公開數(shù)據(jù)集上拿到了最好的(State of Art, SOTA)的性能。這也進(jìn)一步證明了我們的初衷,即不同樣本對(duì)不同模態(tài)的需求是不一樣的。
圖1. 模型框架
“TxtEnc”和“ImgEnc”分別代表文本和圖像特征提取器。“Selc”代表圖像選擇器
表1 在MMSS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
04. 神經(jīng)群體編碼啟發(fā)的連續(xù)旋轉(zhuǎn)群等變網(wǎng)絡(luò)
Continuous Rotation Group Equivariant Network Inspired by Neural Population Coding
作者:陳智強(qiáng),陳陽,鄒曉龍,余山
群體編碼在生物神經(jīng)元中是一個(gè)普遍的機(jī)制,比如海馬中的‘place cell’、初級(jí)視覺皮層的方向、顏色、朝向等神經(jīng)元都是通過群體編碼的方式來編碼信息的。鐘型調(diào)諧曲線(bell-shaped tuning curve)對(duì)于神經(jīng)群體編碼通過離散的最優(yōu)刺激來編碼連續(xù)信息是至關(guān)重要的。受此啟發(fā),我們通過高斯調(diào)制將鐘型的調(diào)諧曲線嵌入到離散的群等變卷積中,從而實(shí)現(xiàn)使用離散群卷積達(dá)到連續(xù)群等變的目的。受益于高斯調(diào)制,卷積核在幾何維度上(如位置維度、方向維度)也具有平滑的梯度,這使得可以使用稀疏的帶有可學(xué)習(xí)幾何參數(shù)的權(quán)重來生成群等變卷積核,從而使得網(wǎng)絡(luò)既具有競(jìng)爭(zhēng)性的性能又具有極高的參數(shù)效率。
實(shí)驗(yàn)結(jié)果表明:1)在MNIST-rot上相比于之前的方法,我們的方法能夠使用更少的參數(shù)(少于25%)達(dá)到極具競(jìng)爭(zhēng)力的性能;2)尤其是在小樣本學(xué)習(xí)下,我們的方法能夠得到更加顯著的性能提升(24%);3)同時(shí)在更多的數(shù)據(jù)集(如MNIST、CIFAR和ImageNet)和不同的網(wǎng)絡(luò)架構(gòu)上(平直網(wǎng)絡(luò)架構(gòu)和ResNet架構(gòu))都具有不錯(cuò)的旋轉(zhuǎn)泛化能力。
05. 從靜態(tài)域到事件域的脈沖神經(jīng)網(wǎng)絡(luò)知識(shí)遷移策略
An Efficient Knowledge Transfer Strategy for Spiking Neural Networks from Static to Event Domain
作者:何翔,趙東城,李楊,申國(guó)斌,孔慶群,曾毅
脈沖神經(jīng)網(wǎng)絡(luò) (SNN) 因?yàn)槠涫录?qū)動(dòng)的優(yōu)勢(shì)而著稱,時(shí)間上的特征使得SNN適合處理事件數(shù)據(jù)。然而事件數(shù)據(jù)往往規(guī)模較小,限制了其進(jìn)一步發(fā)展。相比而言,靜態(tài)的RGB數(shù)據(jù)集規(guī)模較大且更易獲取。靜態(tài)的圖片能為事件數(shù)據(jù)提供有價(jià)值的空間信息,但由于事件數(shù)據(jù)與靜態(tài)圖片是兩種不同的模態(tài),它們存在著固有的域差異。
為了減小域差異,優(yōu)化SNN在事件數(shù)據(jù)上的表現(xiàn),我們主要從兩個(gè)方面來進(jìn)行解決:第一是特征分布,第二是訓(xùn)練策略。對(duì)于特征分布,我們?cè)O(shè)計(jì)了知識(shí)轉(zhuǎn)移損失函數(shù),其包括域?qū)R損失和時(shí)空正則化。域?qū)R損失通過減少靜態(tài)圖像和事件數(shù)據(jù)之間的邊緣分布距離,來學(xué)習(xí)和獲取域不變空間特征。時(shí)空正則化為域?qū)R損失提供動(dòng)態(tài)調(diào)整的系數(shù),以更好地學(xué)習(xí)數(shù)據(jù)中的時(shí)間特征。在訓(xùn)練策略方面,我們提出了滑動(dòng)訓(xùn)練策略,即在訓(xùn)練過程中用事件數(shù)據(jù)概率性地逐步替換靜態(tài)圖像輸入,從而平滑地減少知識(shí)轉(zhuǎn)移損失的作用,使訓(xùn)練過程更加穩(wěn)定。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果充分表明了所提方法的有效性。
相關(guān)代碼開源在:
https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/Perception_and_Learning/img_cls/transfer_for_dvs.
06. 弱分布檢測(cè)器可以提升視覺語言提示調(diào)整的泛化性能
Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning
作者:丁昆,張好劍,于強(qiáng),王穎,向世明,潘春洪
預(yù)訓(xùn)練視覺語言大模型包含豐富的知識(shí),將這些模型在不同的下游任務(wù)上微調(diào)以快速解決特定領(lǐng)域的問題是最近的一個(gè)研究趨勢(shì)。傳統(tǒng)的微調(diào)技術(shù)在參數(shù)效率和泛化性上均存在問題。近期,基于提示調(diào)整的參數(shù)高效微調(diào)技術(shù)在圖像識(shí)別、圖像分割等任務(wù)中取得不錯(cuò)的性能。然而,提示調(diào)整技術(shù)在保持跨類別泛化性方面仍存在缺陷,即在可見類上進(jìn)行提示調(diào)整后,新類上的識(shí)別性能顯著下降。
考慮到未經(jīng)提示調(diào)整的零樣本分類器在新類上具有很好的識(shí)別性能,而提示調(diào)整的小樣本分類器在可見類上識(shí)別性能更優(yōu),本研究將跨類別泛化性問題轉(zhuǎn)換為分布外檢測(cè)(OOD,Out-of-Distribution)問題。首先,針對(duì)零樣本分類器和小樣本分類器分別計(jì)算分布內(nèi)得分;接著,基于這兩個(gè)得分計(jì)算兩個(gè)分類器各自的權(quán)重;最后,使用上述權(quán)重對(duì)兩個(gè)分類器進(jìn)行動(dòng)態(tài)加權(quán)。本研究在理論和實(shí)驗(yàn)上展示了即時(shí)所使用的分布檢測(cè)器的分類精度不高,仍然能促進(jìn)視覺語言提示調(diào)整的跨類別泛化性。
07. 學(xué)習(xí)如何去看:用于目標(biāo)檢測(cè)和相機(jī)調(diào)整的協(xié)作具身學(xué)習(xí)
Learn How to See: Collaborative Embodied Learning for Object Detection and Camera Adjusting
作者:申領(lǐng)東,霍春雷,許諾,韓超偉,王子辰
被動(dòng)的目標(biāo)檢測(cè)器通常是在大規(guī)模靜態(tài)數(shù)據(jù)集上訓(xùn)練的,往往忽視了從物體檢測(cè)到圖像獲取的反饋。具身視覺和主動(dòng)檢測(cè)通過與環(huán)境互動(dòng)緩解了這個(gè)問題。然而,實(shí)現(xiàn)主動(dòng)性取決于資源密集型的數(shù)據(jù)收集和標(biāo)注。為了解決這些挑戰(zhàn),我們提出了一個(gè)協(xié)作式的學(xué)生-教師框架。技術(shù)上,我們基于軌跡數(shù)據(jù)構(gòu)建了一個(gè)replay buffer,封裝了狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)之間的關(guān)系。此外,學(xué)生網(wǎng)絡(luò)通過使用蘊(yùn)含因果自注意力的GPT結(jié)構(gòu)的序列決策路徑來替代使用強(qiáng)化學(xué)習(xí)的決策過程。此外,教師網(wǎng)絡(luò)基于相鄰狀態(tài)的差異建立了狀態(tài)-獎(jiǎng)勵(lì)映射,為學(xué)生提供可靠的獎(jiǎng)勵(lì),使其能夠基于龐大的未標(biāo)記的replay buffer數(shù)據(jù)自適應(yīng)地調(diào)整權(quán)重。教師網(wǎng)絡(luò)內(nèi)還提出了一個(gè)簡(jiǎn)單但有效的獎(jiǎng)勵(lì)參考值,增強(qiáng)了其有效性和簡(jiǎn)潔性。利用靈活的replay buffer和教師-學(xué)生之間的具身協(xié)作,該框架學(xué)會(huì)在檢測(cè)之前用更淺的特征和更短的推理步驟進(jìn)行觀察。實(shí)驗(yàn)證明,我們的算法在與最先進(jìn)的檢測(cè)器相比具有顯著優(yōu)勢(shì)。
08. 對(duì)抗類別增量學(xué)習(xí)中的不平衡遺忘
Defying Imbalanced Forgetting in Class Incremental Learning
作者:許世雄,孟高峰,聶興,尼博琳,樊彬,向世明
我們首次觀察到在同一個(gè)舊任務(wù)中不同類別的準(zhǔn)確性存在高度不平衡的現(xiàn)象。這個(gè)有趣的現(xiàn)象是在基于回放的類別增量學(xué)習(xí)(CIL)中發(fā)現(xiàn)的,它揭示了已學(xué)習(xí)類別的遺忘存在不平衡,因?yàn)樵跒?zāi)難性遺忘發(fā)生之前它們的準(zhǔn)確性是接近的。由于CIL中依賴于平均增量準(zhǔn)確性作為衡量標(biāo)準(zhǔn),這種衡量標(biāo)準(zhǔn)假設(shè)同一任務(wù)中的類別準(zhǔn)確性是相似的,因此此前的研究工作中忽視了這個(gè)現(xiàn)象。然而,在面對(duì)災(zāi)難性遺忘時(shí),這個(gè)假設(shè)是無效的。進(jìn)一步的實(shí)驗(yàn)與分析表明,這種不平衡的遺忘是因?yàn)檎Z義上相似的舊類別和新類別之間在特征空間中存在沖突引起的。這些沖突源于基于回放的CIL方法中存在的類別不平衡?;谶@些發(fā)現(xiàn),我們提出了Class-Aware Disentanglement(CLAD)方法,用于預(yù)測(cè)更有可能被遺忘的舊類別并提高它們的準(zhǔn)確性。重要的是,CLAD可以無縫地集成到現(xiàn)有的CIL方法中。大量的實(shí)驗(yàn)表明,CLAD能夠穩(wěn)定的改進(jìn)當(dāng)前的基于回放的方法,帶來高達(dá)2.56%的性能提升。
09. 基于互補(bǔ)專家的長(zhǎng)尾半監(jiān)督算法
Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning
作者:馬成丞,Ismail Elezi,鄧健康,董未名,徐常勝
在長(zhǎng)尾半監(jiān)督圖像分類任務(wù)中,訓(xùn)練集包含少量的有標(biāo)注數(shù)據(jù)和大量的無標(biāo)注數(shù)據(jù),有標(biāo)注子集服從長(zhǎng)尾分布,無標(biāo)注子集服從未知的類別分布,且可能與有標(biāo)注子集不同。在經(jīng)典的半監(jiān)督算法框架FixMatch中,數(shù)據(jù)集的長(zhǎng)尾分布會(huì)導(dǎo)致大量的無標(biāo)注數(shù)據(jù)被誤分為頭部類別,而這些類別不均衡的偽標(biāo)注反過來加重了模型的認(rèn)知偏差(confirmation bias)問題,最終模型將大部分測(cè)試樣本誤分成頭部類別。本文基于混合專家(Mixture-of-Experts,MoE)的思想,采用不同強(qiáng)度的logit adjustment同時(shí)訓(xùn)練三個(gè)分類頭,從而保證在多種不同的無標(biāo)注子集類別分布下始終可以有一個(gè)分類頭能預(yù)測(cè)出準(zhǔn)確的偽標(biāo)注,保證模型特征提取器的訓(xùn)練效果。實(shí)驗(yàn)證明,本文在CIFAR-10/100和STL-10數(shù)據(jù)集上均能取得不錯(cuò)的分類精度。
相關(guān)鏈接:
https://github.com/machengcheng2016/CPE-LTSSL
10. 基于時(shí)變反演擴(kuò)散模型的音樂風(fēng)格遷移
Music Style Transfer with Time-Varying Inversion of Diffusion Models
作者:李思霏,張宇欣,唐帆,馬重陽,董未名,徐常勝
隨著擴(kuò)散模型的發(fā)展,文本引導(dǎo)的圖像風(fēng)格遷移已經(jīng)展示出高質(zhì)量可控的結(jié)果。然而,利用文本進(jìn)行多樣化的音樂風(fēng)格遷移面臨著嚴(yán)峻的挑戰(zhàn),主要是由于可用的匹配的音頻-文本數(shù)據(jù)集的有限性。音樂作為一種抽象而復(fù)雜的藝術(shù)形式,即使在同一種風(fēng)格中也表現(xiàn)出較高復(fù)雜性,因此準(zhǔn)確的文本描述具有挑戰(zhàn)性。本文提出了一種能夠使用最少數(shù)據(jù)有效捕捉音樂屬性的音樂風(fēng)格轉(zhuǎn)換方法。我們引入了一種新穎的時(shí)間變化的文本反演模塊,以精確捕捉不同層次的梅爾頻譜特征。在推理過程中,我們提出了一種減少偏差的風(fēng)格化技術(shù),以獲得穩(wěn)定的風(fēng)格化結(jié)果。實(shí)驗(yàn)結(jié)果表明,我們的方法可以轉(zhuǎn)換特定樂器的風(fēng)格,并結(jié)合自然聲音來創(chuàng)作旋律。
相關(guān)鏈接:
https://lsfhuihuiff.github.io/MusicTI/
11. 基于復(fù)合文本監(jiān)督的提示學(xué)習(xí)
Compound Text-Guided Prompt Tuning via Image-Adaptive Cues
作者:譚淏、李俊、周亦莊、萬軍、雷震、張祥雨
隨著大規(guī)模視覺-文本預(yù)訓(xùn)練的出現(xiàn),視覺-文本模型在下游任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力。然而:1)現(xiàn)有的基于提示學(xué)習(xí)的微調(diào)框架需要對(duì)所有類別的文本輸入進(jìn)行并行化處理,當(dāng)目標(biāo)數(shù)據(jù)集含有大量類別時(shí),會(huì)造成巨大的顯存消耗;2)此外,現(xiàn)有工作需要在提示輸入中包含類別名稱,在處理模糊類別名時(shí)表現(xiàn)不佳。
為了解決這些不足,我們提出使用復(fù)合文本引導(dǎo)提示學(xué)習(xí),顯著減少了顯存需求,并獲得了更好的性能。具體而言,我們引入文本監(jiān)督來約束提示向量的優(yōu)化,以帶來兩個(gè)好處:1)在推理階段,模型不再依賴預(yù)定義的類別名集合,實(shí)現(xiàn)了更靈活的提示輸入;2)減少了文本端的輸入數(shù)量,從而顯著降低顯存消耗。具體而言,我們發(fā)現(xiàn)復(fù)合文本監(jiān)督(即基于類別的監(jiān)督和基于內(nèi)容的監(jiān)督)十分有效,它們分別提供了類間可分性和類內(nèi)多樣性。此外,我們還設(shè)計(jì)了一個(gè)連接器模塊來橋接文本與視覺模態(tài),促進(jìn)提示向量與視覺特征的對(duì)齊。
我們?cè)谏贅颖緢D像識(shí)別和域泛化任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn),證明了所提出的方法以較低的訓(xùn)練成本實(shí)現(xiàn)了更優(yōu)的性能。我們希望這項(xiàng)工作能夠啟發(fā)更豐富、通用的文本監(jiān)督,以進(jìn)一步增強(qiáng)提示微調(diào)在更廣泛下游任務(wù)上的表現(xiàn)。
圖1. 方法框架圖
圖2. 顯存消耗與性能對(duì)比圖
代碼地址:
https://github.com/EricTan7/TGP-T
12. WaveNet:基于圖譜小波的非平穩(wěn)圖信號(hào)處理
WaveNet: Tackling Non-Stationary Graph Signals via Graph Spectral Wavelets
作者:楊智睿,胡羽藍(lán),歐陽晟,劉敬宇,王書強(qiáng),馬喜波,Wenhan Wang,Hanjing Su,劉勇
在譜圖神經(jīng)網(wǎng)絡(luò)的研究中,多項(xiàng)式方法在基于拉普拉斯矩陣的濾波器設(shè)計(jì)上占據(jù)主導(dǎo)地位。然而,由拉普拉斯矩陣析取的多項(xiàng)式組合在信息傳遞中存在一定的限制(如過度平滑),并且多數(shù)譜圖神經(jīng)網(wǎng)絡(luò)采用的多項(xiàng)式基也會(huì)導(dǎo)致圖譜信號(hào)高頻信號(hào)的丟失。此外,本研究發(fā)現(xiàn),即使增加多項(xiàng)式階數(shù)也無法改變這種情況,這意味著基于多項(xiàng)式的模型在面對(duì)高頻信號(hào)時(shí)存在一定的缺陷。為解決這些問題,本研究打破了多項(xiàng)式方法在譜圖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的主導(dǎo)地位,并為研究人員引入了一種新的視角。首先,本研究在譜圖信號(hào)上采用多分辨率分析,證明了小波對(duì)高頻信號(hào)的強(qiáng)大擬合能力。然后,本研究利用尺度函數(shù)在圖中重構(gòu)譜信號(hào)。進(jìn)一步,本研究還采用圖像圖表實(shí)驗(yàn)、節(jié)點(diǎn)分類實(shí)驗(yàn)以及合成玩具實(shí)驗(yàn)證明了所提方法在學(xué)習(xí)復(fù)雜濾波器方面的有效性、性能優(yōu)越性以及細(xì)小成分捕捉能力的高效性。最后,本研究還對(duì)學(xué)習(xí)到的濾波器進(jìn)行了可視化,驗(yàn)證了真實(shí)世界數(shù)據(jù)集的真實(shí)濾波器的復(fù)雜性。
圖1. WaveNet的架構(gòu)示意圖。信號(hào)重構(gòu)過程基于小波基,本研究利用Haar小波在圖數(shù)據(jù)上進(jìn)行濾波。
圖2. BernNet和WaveNet學(xué)習(xí)的濾波器示意圖。WaveNet表現(xiàn)出了比BernNet更好的濾波器擬合性能。
13. 基于倒角法向距離和多尺度幾何特征的魯棒點(diǎn)云法向估計(jì)
CMG-Net: Robust Normal Estimation for Point Clouds via Chamfer Normal Distance and Multi-scale Geometry
作者:吳應(yīng)睿、趙明陽、李克強(qiáng)、全衛(wèi)澤、于天琪、羊箭鋒、賈曉紅、嚴(yán)冬明
本文提出了一種魯棒的高準(zhǔn)確度點(diǎn)云法向估計(jì)方法。先前的方法對(duì)噪聲的魯棒性較差,難以被應(yīng)用于實(shí)際場(chǎng)景中,主要原因?yàn)椋?)直接以標(biāo)注法向作為擬合目標(biāo),導(dǎo)致在帶噪聲點(diǎn)云上擬合目標(biāo)與潛在表面不一致;2)輸入尺度選取在細(xì)節(jié)保留和噪聲平滑上存在矛盾。針對(duì)標(biāo)注法向與潛在表面不一致的問題,本文以帶噪聲點(diǎn)云和干凈點(diǎn)云的法向相似度為衡量標(biāo)準(zhǔn),提出了倒角法向距離(Chamfer Normal Distance,CND)作為更合理的評(píng)價(jià)指標(biāo),并基于CND修正了網(wǎng)絡(luò)訓(xùn)練的損失函數(shù),提高了網(wǎng)絡(luò)對(duì)噪聲的魯棒性,如圖1所示。
此外,本文設(shè)計(jì)了一種基于多尺度局部特征聚合和分層幾何信息融合的法向估計(jì)網(wǎng)絡(luò),如圖2所示。
這種架構(gòu)能夠利用不同尺度特征的優(yōu)勢(shì),更有效地捕捉復(fù)雜的幾何細(xì)節(jié),并緩解在尺度選擇上的矛盾。實(shí)驗(yàn)證明,本文的方法在合成和真實(shí)的數(shù)據(jù)集上都取得了最佳的效果,且在噪聲魯棒性方面有較大的提升。
圖1. (a) CND圖示,(b) 不同方法的法向估計(jì)效果對(duì)比
圖2. CMG-Net流程
論文鏈接:
https://arxiv.org/abs/2312.09154
代碼鏈接:
https://github.com/YingruiWoo/CMG-Net Pytorch
14. AnomalyGPT: 基于多模態(tài)大模型的工業(yè)異常檢測(cè)方法
AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models
作者:古兆鵬,朱炳科,朱貴波,陳盈盈,唐明,王金橋
MiniGPT-4,LLaVA 等多模態(tài)大模型在圖像理解方面展現(xiàn)了卓越的能力,在多種通用視覺任務(wù)中取得了顯著效果,但是現(xiàn)有的多模態(tài)大模型缺乏特定領(lǐng)域知識(shí),而且對(duì)物體中局部細(xì)節(jié)的理解較弱,這導(dǎo)致這些方法不能很好地完成工業(yè)異常檢測(cè)任務(wù)。另一方面,大多數(shù)現(xiàn)有的工業(yè)異常檢測(cè)方法僅預(yù)測(cè)異常分?jǐn)?shù),需要人工設(shè)定閾值以區(qū)分正常和異常樣本,這限制了這些方法的實(shí)際應(yīng)用場(chǎng)景。本文提出了一種基于多模態(tài)大模型的新型工業(yè)異常檢測(cè)方法——AnomalyGPT,通過模擬異常樣本的方式生成多模態(tài)訓(xùn)練數(shù)據(jù),使用圖像解碼器為語言大模型提供圖像細(xì)節(jié)語義信息,并設(shè)計(jì)了一個(gè)提示學(xué)習(xí)器,使用提示嵌入對(duì)多模態(tài)大模型進(jìn)行微調(diào)。AnomalyGPT不需要手動(dòng)設(shè)置閾值,可以直接判斷異常是否存在并指出異常位置,可以實(shí)現(xiàn)多輪對(duì)話,而且可以在測(cè)試階段利用少樣本遷移到之前從未見過的新類別物體上。在僅提供一個(gè)正常樣本的條件下,AnomalyGPT在 MVTec 數(shù)據(jù)集上達(dá)到了 85.5% 的準(zhǔn)確率,94.1% 的圖像級(jí) AUC 和 95.4% 的像素級(jí) AUC,顯著地超過了現(xiàn)有方法的性能,在工業(yè)場(chǎng)景少樣本和無監(jiān)督場(chǎng)景中取得了業(yè)內(nèi)最好性能。
圖1. AnomalyGPT與現(xiàn)有的多模態(tài)大模型和工業(yè)異常檢測(cè)方法的效果對(duì)比圖
圖2. AnomalyGPT多模態(tài)大模型框架圖
論文鏈接:
https://arxiv.org/abs/2308.15366
項(xiàng)目主頁(yè)鏈接:
https://anomalygpt.github.io
開源代碼鏈接:
https://github.com/CASIA-IVA-Lab/AnomalyGPT
15. 基于波動(dòng)性度量的大語言模型的自適應(yīng)結(jié)構(gòu)化剪枝
Fluctuation-based Adaptive Structured Pruning for Large Language Models
作者:安永琪、趙旭、于濤、唐明、王金橋
網(wǎng)絡(luò)結(jié)構(gòu)剪枝是解決大語言模型(LLMs)計(jì)算資源需求過大問題的有效方法。用于LLM的剪枝方法一般是無需重新訓(xùn)練的,以避免計(jì)算量過大。然而,現(xiàn)有幾乎所有的無需重新訓(xùn)練的LLM剪枝方法都屬于非結(jié)構(gòu)化剪枝,需要特定硬件支持以獲得真實(shí)加速。本文歸納了LLM結(jié)構(gòu)化剪枝的三個(gè)關(guān)鍵要素:結(jié)構(gòu)化剪枝度量、全局壓縮結(jié)構(gòu)和性能恢復(fù),并由此提出了一種無需重新訓(xùn)練的LLM結(jié)構(gòu)化剪枝框架——FLAP。FLAP利用波動(dòng)性度量判斷去除各權(quán)重組后輸出特征圖的可恢復(fù)性,然后歸一化各層度量指標(biāo)以全局搜索壓縮結(jié)構(gòu),最后通過統(tǒng)計(jì)基準(zhǔn)值添加額外的偏置項(xiàng)來恢復(fù)輸出特征圖。在多種語言基準(zhǔn)測(cè)試中,F(xiàn)LAP的表現(xiàn)顯著優(yōu)于現(xiàn)有的結(jié)構(gòu)化剪枝方法,包括Wanda(結(jié)構(gòu)化剪枝版本)、LLM Pruner。在50%剪枝率下,F(xiàn)LAP的困惑度相較于現(xiàn)有SOTA降低了19%,零樣本任務(wù)準(zhǔn)確率比現(xiàn)有SOTA高1.49%,并實(shí)現(xiàn)了相較原始模型66%的推理加速。
論文鏈接:
https://arxiv.org/abs/2312.11983
代碼鏈接:
https://github.com/CASIA-IVA-Lab/FLAP
16. 針對(duì)深度合成音頻檢測(cè)的自適應(yīng)連續(xù)學(xué)習(xí)方法
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection
作者:張曉輝,易江燕,王成龍,章楚源,曾思丁,陶建華
語音合成和聲音轉(zhuǎn)換的迅速發(fā)展引起了重大關(guān)注,因?yàn)檫@種技術(shù)的潛在濫用可能性,迫切需要有效的音頻深度偽造檢測(cè)機(jī)制?,F(xiàn)有的檢測(cè)模型在區(qū)分已知類型的深度偽造音頻方面已顯示出可喜的成功,但在遇到新的攻擊類型時(shí)則面臨巨大的挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),一種新興且有效的方法是連續(xù)學(xué)習(xí)。在這篇論文中,我們提出了一種稱為幅度權(quán)重修正(RWM)的連續(xù)學(xué)習(xí)方法,用于音頻深度偽造檢測(cè)。RWM的基本概念涉及將所有類別分為兩組:一組是在任務(wù)中具有緊湊特征分布的類別,如真實(shí)音頻;另一組是分布更離散的類別,如各種類型的假音頻。這些區(qū)別通過類內(nèi)余弦距離來量化,隨后RWM引入針對(duì)不同數(shù)據(jù)類型的可訓(xùn)練梯度方向修正的機(jī)制。通過與一眾主流連續(xù)學(xué)習(xí)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明RWM在新知識(shí)獲取和減少對(duì)已學(xué)知識(shí)的遺忘方面的優(yōu)越性。此外,RWM不僅適用于音頻深度偽造檢測(cè),實(shí)驗(yàn)結(jié)果還顯示了其在圖像識(shí)別等多個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的潛在應(yīng)用價(jià)值。
論文鏈接:
https://arxiv.org/abs/2312.09651
代碼鏈接:
https://github.com/Cecile-hi/Radian-Weight-Modification
17. 根據(jù)顏色的低頻先驗(yàn)評(píng)估輻射場(chǎng)的幾何形狀
Evaluate Geometry of Radiance Fields with Low-frequency Color Prior
作者:方啟航,宋亞斐,李克強(qiáng),申麗,吳懷宇,熊剛,薄列峰
輻射場(chǎng)是三維場(chǎng)景的一種有效表示方式,它已被廣泛應(yīng)用于新視角合成和三維重建中。評(píng)估重建的幾何形狀,即密度場(chǎng),仍然是一個(gè)開放且具有挑戰(zhàn)性的問題。這是因?yàn)槲矬w幾何形狀的真值不易獲得,往往需要3D掃描和各種預(yù)處理,所以許多廣泛使用的數(shù)據(jù)集都沒有物體幾何形狀的真值,這導(dǎo)致密度場(chǎng)難以評(píng)估。為此,我們提出了一種新的度量標(biāo)準(zhǔn),即逆平均顏色殘差(Inverse Mean Residual Color,IMRC),它只需物體圖像就可以評(píng)估重建的密度場(chǎng)。其關(guān)鍵在于,重建的密度場(chǎng)越準(zhǔn)確,計(jì)算出顏色場(chǎng)的頻率就越低。具體地,我們?cè)O(shè)計(jì)了一種計(jì)算顏色場(chǎng)的方法,用低頻球面諧波來逼近顏色場(chǎng),并采用逼近的殘差代替顏色場(chǎng)的頻率,由此計(jì)算IMRC。IMRC越高,則密度場(chǎng)的幾何形狀越好。定性和定量的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提IMRC的有效性。我們還使用IMRC對(duì)幾種最先進(jìn)的方法進(jìn)行了基準(zhǔn)測(cè)試,以推動(dòng)未來相關(guān)研究的發(fā)展。
圖1. IMRC計(jì)算流程圖
圖2. 新視角下渲染的圖像、深度圖以及顏色殘差。IMRC可以正確分析重建的密度場(chǎng)質(zhì)量
代碼地址:
https://github.com/qihangGH/IMRC
18. 基于一致性與均勻性重新審視圖掩碼自編碼器
Rethinking Graph Masked Autoencoders through Alignment and Uniformity
作者:王亮,陶翔,劉強(qiáng),吳書,王亮
圖自監(jiān)督學(xué)習(xí)可以分為對(duì)比式方法和生成式方法。在過去幾年中,對(duì)比式方法即圖對(duì)比學(xué)習(xí)(GCL),在該領(lǐng)域中占據(jù)了主導(dǎo)地位。然而,最近提出的圖掩碼自編碼器(GraphMAE)重新引起了人們對(duì)生成式方法的關(guān)注。盡管生成式方法和對(duì)比式方法都在實(shí)踐中取得了成功,但它們之間的聯(lián)系與差異還未被充分探討。因此,我們首先在理論上建立了GraphMAE與GCL之間的關(guān)聯(lián),證明了GraphMAE中的節(jié)點(diǎn)級(jí)重構(gòu)目標(biāo)隱式地執(zhí)行了上下文級(jí)別的GCL?;谖覀兊睦碚摲治?,我們進(jìn)一步從表征一致性和均勻性的角度分析GraphMAE的局限性:其一致性受限于掩碼策略,而均勻性并未得到嚴(yán)格保證。為了克服這些局限,我們提出了一致性與均勻性增強(qiáng)的圖掩碼自編碼器AUG-MAE。具體來說,我們提出了一種由易到難的對(duì)抗掩碼策略,以提供難以對(duì)齊的樣本,從而改善表征一致性。同時(shí),我們引入了顯式的均勻性約束,以確保學(xué)習(xí)到的表征具有均勻性。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了我們模型具有顯著優(yōu)勢(shì)。
19. 學(xué)習(xí)用于神經(jīng)輻射場(chǎng)人臉重演的稠密對(duì)應(yīng)
Learning Dense Correspondence for NeRF-Based Face Reenactment
作者:楊嵩林,王偉,蘭宇時(shí),樊翔宇,彭勃,楊磊,董晶
人臉重演是一項(xiàng)具有挑戰(zhàn)性的任務(wù),需要建立在不同的人臉表征之間的稠密對(duì)應(yīng)關(guān)系用于運(yùn)動(dòng)遷移。最近的研究采用了神經(jīng)輻射場(chǎng)(NeRF)作為基礎(chǔ)表征,進(jìn)一步提高了多視圖人臉重演在照片逼真度和3D一致性方面的性能。然而,由于隱式表征缺乏像基于網(wǎng)格的3D參數(shù)化模型(例如3DMM)的索引對(duì)齊頂點(diǎn)標(biāo)注,因此在不同人臉NeRF之間建立稠密對(duì)應(yīng)關(guān)系并非易事。盡管通過將3DMM空間與基于 NeRF 的人臉表征對(duì)齊可以實(shí)現(xiàn)運(yùn)動(dòng)控制,但由于其有限的僅面部建模和低身份保真度,這并不是最佳選擇。因此,我們受到啟發(fā)提出了一個(gè)問題:我們是否可以在沒有3D參數(shù)模型先驗(yàn)的情況下學(xué)習(xí)不同人臉NeRF 表征之間的稠密對(duì)應(yīng)關(guān)系?為了解決這個(gè)挑戰(zhàn),我們提出了一個(gè)新穎的框架,采用三平面作為基礎(chǔ)NeRF表征 ,并將人臉三平面分解為三個(gè)組件:標(biāo)準(zhǔn)型空間三平面、身份形變和運(yùn)動(dòng)形變。在運(yùn)動(dòng)控制方面,我們的主要貢獻(xiàn)是提出了一個(gè)平面字典模塊,它將運(yùn)動(dòng)條件高效地映射為一組可學(xué)習(xí)的正交平面基的線性加權(quán)和。我們的框架是第一個(gè)在沒有3D參數(shù)模型先驗(yàn)的情況下實(shí)現(xiàn)單圖、多視角人臉重演的工作。大量實(shí)驗(yàn)證明,我們?cè)诰?xì)運(yùn)動(dòng)控制和身份保持方面取得了比先前方法更好的結(jié)果。
相關(guān)鏈接:
https://songlin1998.github.io/planedict/
20. 基于多目標(biāo)優(yōu)化的長(zhǎng)尾學(xué)習(xí)
Long-Tailed Learning as Multi-Objective Optimization
作者:李煒騏,呂凡,尚凡華,萬亮,馮偉
現(xiàn)實(shí)世界中普遍存在的長(zhǎng)尾分布(數(shù)據(jù)嚴(yán)重不平衡)問題通常會(huì)導(dǎo)致模型偏向具有足夠樣本的類別,對(duì)稀有類別表現(xiàn)不佳,針對(duì)該問題研究的方法稱為長(zhǎng)尾學(xué)習(xí)方法。長(zhǎng)尾學(xué)習(xí)中常采用重新平衡類別的策略,但該策略面臨補(bǔ)償不平衡問題,即提高尾部類別的性能可能會(huì)降低頭部類別的性能,反之亦然。本文認(rèn)為模型學(xué)習(xí)不平衡問題源于不同類別梯度的不平衡,即在更新過程中抑制了欠學(xué)習(xí)類別的梯度貢獻(xiàn),或者過度補(bǔ)償欠學(xué)習(xí)類別導(dǎo)致過擬合。為實(shí)現(xiàn)對(duì)各類別梯度進(jìn)行理想補(bǔ)償,本文將長(zhǎng)尾學(xué)習(xí)問題構(gòu)建為多目標(biāo)優(yōu)化問題,公平對(duì)待頭部和尾部類別的貢獻(xiàn)。為提高優(yōu)化效率,提出了梯度平衡分組(GBG)策略,將具有相似梯度方向的類別聚在一起,使每次模型參數(shù)更新近似地往帕累托下降方向前進(jìn)。本文提出的GBG方法使具有相似梯度方向的類別組合為更具代表性的梯度,并為尾部類別提供理想的補(bǔ)償。
相關(guān)鏈接:
https://arxiv.org/abs/2310.20490
21. 用于文本和表格事實(shí)核查的異構(gòu)圖推理
Heterogeneous Graph Reasoning for Fact Checking over Texts and Tables
作者:龔海松,許偉志,吳書,劉強(qiáng),王亮
本研究旨在通過對(duì)多個(gè)證據(jù)進(jìn)行推理,從而預(yù)測(cè)論斷的真實(shí)性。通常,這包括證據(jù)檢索和真實(shí)性推理兩個(gè)主要步驟。本文聚焦于后者,即對(duì)非結(jié)構(gòu)化文本和結(jié)構(gòu)化表格信息進(jìn)行推理。過去的研究主要依賴于微調(diào)預(yù)訓(xùn)練語言模型或訓(xùn)練同質(zhì)圖模型。盡管它們有效,但我們認(rèn)為它們未能充分探索不同結(jié)構(gòu)下潛在的語義信息。為解決這一問題,我們提出了一種新穎的基于異構(gòu)圖的事實(shí)檢查模型——HeterFC。我們的方法利用異構(gòu)證據(jù)圖,以單詞為節(jié)點(diǎn),巧妙設(shè)計(jì)的邊表示不同的證據(jù)屬性。通過關(guān)系圖神經(jīng)網(wǎng)絡(luò)進(jìn)行信息傳播,促進(jìn)論斷和證據(jù)之間的交互。我們采用基于注意力的方法整合信息,結(jié)合語言模型生成預(yù)測(cè)。引入多任務(wù)損失函數(shù)以考慮證據(jù)檢索中的潛在不準(zhǔn)確性。在大規(guī)模事實(shí)檢查數(shù)據(jù)集FEVEROUS上進(jìn)行的綜合實(shí)驗(yàn)證明了HeterFC的有效性。
22. 基于擴(kuò)散語言模型的文本引導(dǎo)分子生成
Text-Guided Molecule Generation with Diffusion Language Model
作者:龔海松,劉強(qiáng),吳書,王亮
文本引導(dǎo)的分子生成旨在根據(jù)文本的描述通過AI生成符合文本描述內(nèi)容的分子,從而輔助可能的藥物設(shè)計(jì)和研發(fā)。近年來基于SMILES分子表達(dá)的分子生成方法多依賴于自回歸的生成模型。本研究指出自回歸生成模型有因固定生成順序而無法修改已生成內(nèi)容的弊端,可能在分子生成領(lǐng)域帶來缺乏對(duì)全局約束有效利用的不利影響。因此本研究提出使用擴(kuò)散語言模型進(jìn)行文本引導(dǎo)的分子生成,并提出TGM-DLM模型進(jìn)行驗(yàn)證。TGM-DLM采用兩階段的逆擴(kuò)散過程從隨機(jī)噪聲中生成分子,其中第一階段以文本描述為約束生成符合文本描述的分子SMILES嵌入,第二階段對(duì)第一階段結(jié)果進(jìn)行矯正,修正可能存在的語法錯(cuò)誤。通過實(shí)驗(yàn),TGM-DLM展現(xiàn)了優(yōu)秀的性能,與同參數(shù)量級(jí)的采用自回歸生成框架的MolT5比較,獲得了3倍的準(zhǔn)確匹配率以及分子指紋相似性指標(biāo)上18%至36%的增長(zhǎng)。
23. 基于顯式接觸和隱式物體相結(jié)合的單目手物交互重建
Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images
作者:胡俊星,張鴻文,陳澤睿,李夢(mèng)成,王云龍,劉燁斌,孫哲南
基于單目RGB圖像的手物交互重建是一項(xiàng)具有挑戰(zhàn)性的任務(wù)?,F(xiàn)有方法利用隱式函數(shù)可以較好地重建手持物體,但是它們沒有很好地利用手物接觸信息,從而導(dǎo)致交互重建的效果不夠理想。本工作將顯式的手部接觸預(yù)測(cè)和隱式的物體重建相結(jié)合,以促進(jìn)手物交互的重建。首先,直接從單張圖像中預(yù)測(cè)三維的手物接觸,通過將區(qū)域級(jí)和頂點(diǎn)級(jí)的圖變換器以從粗到細(xì)的方式級(jí)聯(lián)來獲得更準(zhǔn)確的接觸預(yù)測(cè)。然后,將估計(jì)的接觸信息從手部網(wǎng)格表面擴(kuò)散到附近物體所處的三維空間,并利用擴(kuò)散的接觸概率構(gòu)建物體的隱式神經(jīng)表達(dá),這種建模方式可以有效改善手物接觸部分的重建。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本方法在取得最佳指標(biāo)的同時(shí),可以實(shí)現(xiàn)視覺上更加合理的手物交互重建。
圖1. 本方法的整體流程圖
圖2. 輸入一張RGB 圖像,本方法可以預(yù)測(cè)手-物接觸的區(qū)域并以此指導(dǎo)手持物體的三維重建
相關(guān)鏈接:
https://junxinghu.github.io/projects/hoi.html
24. 動(dòng)態(tài)深度路由的多任務(wù)強(qiáng)化學(xué)習(xí)
Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning with Dynamic Depth Routing
作者:何金岷,李凱,臧一凡,傅浩波,付強(qiáng),興軍亮,程健
多任務(wù)強(qiáng)化學(xué)習(xí)致力于用單一策略完成一系列不同的任務(wù)。為了通過在多個(gè)任務(wù)中共享參數(shù)來提高數(shù)據(jù)效率,一種常見的做法是將網(wǎng)絡(luò)分割成不同的模塊,并訓(xùn)練路由網(wǎng)絡(luò)將這些模塊重新組合成特定任務(wù)的策略。然而,現(xiàn)有的路由方法對(duì)所有任務(wù)都采用固定數(shù)量的模塊,忽略了難度不同的任務(wù)通常需要不同數(shù)量的知識(shí)。我們提出了一種動(dòng)態(tài)深度路由(D2R)框架,它可以選擇性地跳過某些中間模塊,從而靈活地為每個(gè)任務(wù)選擇不同的模塊數(shù)量。在此框架下,我們進(jìn)一步引入了ResRouting方法,以解決離策略訓(xùn)練過程中行為策略和目標(biāo)策略之間路由路徑不一致的問題。此外,我們還設(shè)計(jì)了一種自動(dòng)路由平衡機(jī)制,以鼓勵(lì)在不干擾已掌握任務(wù)路由的情況下,繼續(xù)探索未掌握任務(wù)的路由。我們?cè)跈C(jī)械臂操作環(huán)境Meta-World中進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果表明與MTRL基準(zhǔn)算法相比,D2R在采樣效率和最終性能方面都有顯著提高。
25. 合作型多智能體強(qiáng)化學(xué)習(xí)的內(nèi)在動(dòng)作趨勢(shì)一致性
Intrinsic Action Tendency Consistency for Cooperative Multi-Agent Reinforcement Learning
作者:張峻凱,張一帆,張希,臧一凡,程健
在合作型多智能體系統(tǒng)中,集中訓(xùn)練分散執(zhí)行算法(CTDE)仍存在智能體高效合作的挑戰(zhàn)。我們分析認(rèn)為智能體之間的動(dòng)作策略分歧是影響其訓(xùn)練效率的一個(gè)重要因素,這導(dǎo)致算法需要大量的訓(xùn)練樣本來訓(xùn)練智能體的團(tuán)隊(duì)共識(shí)。這種分歧源于CTDE算法的信用分配過程缺乏足夠的團(tuán)隊(duì)共識(shí)相關(guān)的獎(jiǎng)勵(lì)指導(dǎo)信號(hào)。為了解決這個(gè)問題,我們提出了合作型多智能體強(qiáng)化學(xué)習(xí)的內(nèi)在動(dòng)作趨勢(shì)一致性算法。我們利用動(dòng)作模型使得鄰居智能體能夠預(yù)測(cè)中心智能體的動(dòng)作趨勢(shì)。通過動(dòng)作趨勢(shì)的預(yù)測(cè)計(jì)算我們?cè)O(shè)計(jì)了一個(gè)合作型內(nèi)在獎(jiǎng)勵(lì),它鼓勵(lì)將中心智能體與鄰居智能體的動(dòng)作趨勢(shì)相匹配。除此之外我們通過理論分析建立了RA-CTDE與CTDE的等價(jià)性,證明了CTDE的訓(xùn)練過程可以用每個(gè)agent的獨(dú)立目標(biāo)來實(shí)現(xiàn)。在此基礎(chǔ)上,我們提出了一種結(jié)合內(nèi)在獎(jiǎng)勵(lì)和CTDE的新方法。我們?cè)赟MAC和GRF基準(zhǔn)環(huán)境中對(duì)具有挑戰(zhàn)性的任務(wù)進(jìn)行了大量實(shí)驗(yàn),性能提升證明了我們的方法的有效性。
26. 針對(duì)高效掩碼圖像建模的塊感知樣本選擇
Patch-Aware Sample Selection for Efficient Masked Image Modeling
作者:諸葛正陽,王家興,李勇,包勇軍,王培松,程健
盡管樣本選擇在傳統(tǒng)的監(jiān)督學(xué)習(xí)中可以通過提取最具重要性的子數(shù)據(jù)集來有效減少訓(xùn)練成本,但由于樣本級(jí)別的重要性賦分和圖像塊級(jí)別的預(yù)訓(xùn)練模式存在一定差異,將樣本選擇用于掩碼圖像建模(MIM)的加速仍然存在挑戰(zhàn)。我們首先構(gòu)建了在MIM預(yù)訓(xùn)練中進(jìn)行樣本選擇的基本框架,并發(fā)現(xiàn)其存在嚴(yán)重的性能下降的問題。我們認(rèn)為該問題主要?dú)w因于兩個(gè)因素:隨機(jī)的掩碼策略和簡(jiǎn)單的平均函數(shù)。因此我們提出了塊感知的樣本選擇方法(PASS),其中包括一個(gè)低成本的動(dòng)態(tài)訓(xùn)練掩碼預(yù)測(cè)器 (DTMP) 和加權(quán)選擇得分 (WSS)。DTMP始終保持對(duì)樣本中的復(fù)雜區(qū)域進(jìn)行掩碼,確保相對(duì)準(zhǔn)確和公平的樣本重要性得分。WSS利用圖像塊級(jí)別的差異來增強(qiáng)重要性得分。廣泛的下游任務(wù)實(shí)驗(yàn)顯示了PASS在加速M(fèi)IM預(yù)訓(xùn)練方面的有效性。PASS在各種數(shù)據(jù)集、不同的MIM方法和各類任務(wù)中都展現(xiàn)出了優(yōu)越的性能。例如,PASS在僅使用37%的訓(xùn)練數(shù)據(jù)預(yù)算的同時(shí),在ImageNet-1K上維持了和標(biāo)準(zhǔn)MAE相當(dāng)?shù)男阅?,并?shí)現(xiàn)了約1.7倍的訓(xùn)練加速。
27. 基于智能體拓?fù)涞亩嘀悄荏w策略梯度算法
TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient
作者:婁行舟,張俊格,Timothy J. Norman,黃凱奇,杜雅麗
多智能體策略梯度(Multi-Agent Policy Gradient,MAPG)近年來取得了顯著的進(jìn)展。然而,在最先進(jìn)的MAPG方法中,集中式評(píng)論家仍然面臨著中心化-去中心化不匹配(Centralized-Decentralized Mismatch,CDM)的問題,這意味著一些智能體的次優(yōu)行為會(huì)影響其他智能體的策略學(xué)習(xí)。雖然使用個(gè)體評(píng)論家進(jìn)行策略更新可以避免這個(gè)問題,但它們會(huì)嚴(yán)重限制智能體之間的合作。為了解決這個(gè)問題,我們提出了一個(gè)智能體拓?fù)淇蚣?,該框架決定其他智能體是否應(yīng)該在策略梯度中被考慮,并在促進(jìn)合作和減輕CDM問題之間實(shí)現(xiàn)折衷。智能體拓?fù)湓试S智能體使用聯(lián)合效用作為學(xué)習(xí)目標(biāo),而不是集中評(píng)論家的全局效用或個(gè)體評(píng)論家的局部效用。
為構(gòu)建智能體拓?fù)?,我們研究了多種隨機(jī)圖模型。我們?yōu)殡S機(jī)和確定性MAPG方法都提出了基于拓?fù)涞亩嘀悄荏w策略梯度(Topology-based multi-Agent Policy gradiEnt,TAPE)。我們從理論上證明了隨機(jī)TAPE的策略提升定理,并為智能體之間合作能力的提升提供了理論解釋。在幾個(gè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果顯示,智能體拓?fù)浞謩e能夠促進(jìn)智能體之間的合作或減輕CDM問題以提高TAPE的性能。最后,我們還進(jìn)行了多個(gè)消融研究并提出了一個(gè)啟發(fā)式圖搜索算法,以展示智能體拓?fù)涞挠行浴?/div>
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:強(qiáng)化學(xué)習(xí)微信群、神經(jīng)網(wǎng)絡(luò)微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
微信聯(lián)盟:強(qiáng)化學(xué)習(xí)微信群、神經(jīng)網(wǎng)絡(luò)微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
我要收藏
個(gè)贊
評(píng)論排行