免费观看电视剧全集在线播放高清,亚州av综合色区无码一区

　　【ZiDongHua 之智能自動(dòng)化收錄關(guān)鍵詞：中國(guó)科學(xué)院自動(dòng)化研究所強(qiáng)化學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 】

　　AAAI 2024 | 自動(dòng)化所新作速覽

　　導(dǎo)讀 | 日前，中國(guó)計(jì)算機(jī)學(xué)會(huì)（CCF）推薦的A類國(guó)際學(xué)術(shù)會(huì)議AAAI公布論文接收結(jié)果。AAAI(AAAI Conference on Artificial Intelligence) 由國(guó)際先進(jìn)人工智能協(xié)會(huì)主辦，是人工智能領(lǐng)域的頂級(jí)國(guó)際學(xué)術(shù)會(huì)議之一。第38屆AAAI人工智能年度會(huì)議將于2024年2月在加拿大溫哥華舉行。本文將介紹中國(guó)科學(xué)院自動(dòng)化研究所團(tuán)隊(duì)在AAAI 2024中錄用的27篇論文（排序不分先后）。

　　01. 語義概念引導(dǎo)下的集合預(yù)測(cè)用于多樣化視頻描述

　　Set Prediction Guided by Semantic Concepts for Diverse Video Captioning

　　作者：盧一帆，張子琦，原春鋒，李鵬，王炎，李兵，胡衛(wèi)明

　　現(xiàn)有多樣化描述方法使用獨(dú)立的“視頻-單句描述”對(duì)作為訓(xùn)練樣本，不同描述間缺乏交互，描述集合內(nèi)多樣性的沒有被充分挖掘。在本工作中，我們提出了基于語義概念引導(dǎo)集合預(yù)測(cè)（SCG-SP, Semantic-Concept-Guided Set Prediction）的多樣化視頻描述方法。首先，我們將視頻多樣化任務(wù)形式化為一個(gè)集合預(yù)測(cè)問題，使用模型直接擬合視頻的人工標(biāo)注的描述集合，實(shí)現(xiàn)集合層面的建模。隨后，我們考慮了描述多樣性的來源：語義概念（目標(biāo)、行為、場(chǎng)景等）。不同的語義概念組合代表了對(duì)視覺內(nèi)容的不同解讀，因此我們使用語義概念引導(dǎo)集合預(yù)測(cè)，進(jìn)一步提升生成描述的語義多樣性。語義概念引導(dǎo)包含兩方面：1）對(duì)視頻中的語義概念進(jìn)行檢測(cè)，利用其得到語義特定的視頻編碼；2）增加語義概念預(yù)測(cè)的輔助任務(wù)，引入額外語義監(jiān)督。我們的方法在多個(gè)視頻描述數(shù)據(jù)集上取得了先進(jìn)表現(xiàn)。

　　02. 基于強(qiáng)化學(xué)習(xí)的圖像信號(hào)處理參數(shù)順序優(yōu)化方法

　　RL-SeqISP: Reinforcement Learning-based Sequential Optimization for Image Signal Processing

　　作者：孫鑫雨，趙治坤，魏莉莉，郎叢妍，蔡明軒，韓龍飛，王雋，李兵，郭宇軒

　　硬件圖像信號(hào)處理(ISP)旨在將輸入的RAW圖轉(zhuǎn)換為RGB圖像，它由一系列處理模塊組成，且每個(gè)模塊都包含了許多可調(diào)的參數(shù)。目前，ISP參數(shù)大都由成像專家根據(jù)圖像質(zhì)量和特定任務(wù)下的性能指標(biāo)進(jìn)行手動(dòng)調(diào)整，這一過程耗時(shí)耗力，而且會(huì)受到人類視覺主觀偏好影響。此外，每個(gè)參數(shù)的變化與輸出性能指標(biāo)之間的關(guān)系是復(fù)雜的非線性函數(shù)，所以優(yōu)化如此大量的ISP參數(shù)極具挑戰(zhàn)性。受人類專家的序列化調(diào)優(yōu)過程的啟發(fā)，我們提出了一種序列化ISP參數(shù)優(yōu)化模型（RL-SeqISP），它利用深度強(qiáng)化學(xué)習(xí)來預(yù)測(cè)不同成像應(yīng)用的所有ISP參數(shù)。我們提出的模型通過融合來自圖像特征空間和參數(shù)空間的信息來逐步提高圖像質(zhì)量。此外，為了避免ISP參數(shù)陷入局部最優(yōu)，我們引入動(dòng)態(tài)參數(shù)優(yōu)化模塊。與其他的方法相比，RL-SeqISP模型的優(yōu)點(diǎn)及效率通過在廣泛的下游任務(wù)上的綜合實(shí)驗(yàn)得到證實(shí)。這里特別需要指出的是即使只使用10%的訓(xùn)練數(shù)據(jù)，我們的模型在兩個(gè)視覺分析任務(wù)上也比其他SOTA方法平均高出7%的mAP。

　　03. 動(dòng)態(tài)圖片利用的多模態(tài)摘要方法

　　DIUSum: Dynamic Image Utilization for Multimodal Summarization

　　作者：肖敏，朱軍楠，翟飛飛，周玉，宗成慶

　　已有的多模態(tài)摘要工作都在假設(shè)圖片一定對(duì)摘要或多或少有幫助的前提下，結(jié)合圖片信息生成摘要，而忽視了不是所有樣本都可以幫助提升摘要質(zhì)量的問題。因此，我們提出了一個(gè)動(dòng)態(tài)圖像利用框架，以動(dòng)態(tài)選擇用于多模態(tài)總結(jié)的圖像。首先，我們提出了一個(gè)圖像選擇器，根據(jù)多模態(tài)特征對(duì)每個(gè)圖像進(jìn)行評(píng)分。該圖像選擇器預(yù)測(cè)圖像是否有助于生成比單模輸入更高質(zhì)量的摘要。具體而言，我們使用自我標(biāo)記方法優(yōu)化圖像選擇器，該方法根據(jù)多模輸入是否有助于生成比單模輸入更高質(zhì)量的摘要來定義圖像的貢獻(xiàn)。然后，在圖像選擇器的指導(dǎo)下，解碼器動(dòng)態(tài)地利用多模態(tài)信息生成摘要。通過這些步驟，模型可以獲取對(duì)生成摘要更有效的圖像信息，并為摘要提供更好的多模態(tài)信息。

　　通過實(shí)驗(yàn)結(jié)果，對(duì)圖片動(dòng)態(tài)利用的方法均在兩個(gè)公開數(shù)據(jù)集上拿到了最好的（State of Art, SOTA)的性能。這也進(jìn)一步證明了我們的初衷，即不同樣本對(duì)不同模態(tài)的需求是不一樣的。

　　圖1. 模型框架

　　“TxtEnc”和“ImgEnc”分別代表文本和圖像特征提取器。“Selc”代表圖像選擇器

　　表1 在MMSS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

　　04. 神經(jīng)群體編碼啟發(fā)的連續(xù)旋轉(zhuǎn)群等變網(wǎng)絡(luò)

　　Continuous Rotation Group Equivariant Network Inspired by Neural Population Coding

　　作者：陳智強(qiáng)，陳陽，鄒曉龍，余山

　　群體編碼在生物神經(jīng)元中是一個(gè)普遍的機(jī)制，比如海馬中的‘place cell’、初級(jí)視覺皮層的方向、顏色、朝向等神經(jīng)元都是通過群體編碼的方式來編碼信息的。鐘型調(diào)諧曲線（bell-shaped tuning curve）對(duì)于神經(jīng)群體編碼通過離散的最優(yōu)刺激來編碼連續(xù)信息是至關(guān)重要的。受此啟發(fā)，我們通過高斯調(diào)制將鐘型的調(diào)諧曲線嵌入到離散的群等變卷積中，從而實(shí)現(xiàn)使用離散群卷積達(dá)到連續(xù)群等變的目的。受益于高斯調(diào)制，卷積核在幾何維度上（如位置維度、方向維度）也具有平滑的梯度，這使得可以使用稀疏的帶有可學(xué)習(xí)幾何參數(shù)的權(quán)重來生成群等變卷積核，從而使得網(wǎng)絡(luò)既具有競(jìng)爭(zhēng)性的性能又具有極高的參數(shù)效率。

　　實(shí)驗(yàn)結(jié)果表明：1）在MNIST-rot上相比于之前的方法，我們的方法能夠使用更少的參數(shù)（少于25%）達(dá)到極具競(jìng)爭(zhēng)力的性能；2）尤其是在小樣本學(xué)習(xí)下，我們的方法能夠得到更加顯著的性能提升（24%）；3）同時(shí)在更多的數(shù)據(jù)集（如MNIST、CIFAR和ImageNet）和不同的網(wǎng)絡(luò)架構(gòu)上（平直網(wǎng)絡(luò)架構(gòu)和ResNet架構(gòu)）都具有不錯(cuò)的旋轉(zhuǎn)泛化能力。

　　05. 從靜態(tài)域到事件域的脈沖神經(jīng)網(wǎng)絡(luò)知識(shí)遷移策略

　　An Efficient Knowledge Transfer Strategy for Spiking Neural Networks from Static to Event Domain

　　作者：何翔，趙東城，李楊，申國(guó)斌，孔慶群，曾毅

　　脈沖神經(jīng)網(wǎng)絡(luò) (SNN) 因?yàn)槠涫录?qū)動(dòng)的優(yōu)勢(shì)而著稱，時(shí)間上的特征使得SNN適合處理事件數(shù)據(jù)。然而事件數(shù)據(jù)往往規(guī)模較小，限制了其進(jìn)一步發(fā)展。相比而言，靜態(tài)的RGB數(shù)據(jù)集規(guī)模較大且更易獲取。靜態(tài)的圖片能為事件數(shù)據(jù)提供有價(jià)值的空間信息，但由于事件數(shù)據(jù)與靜態(tài)圖片是兩種不同的模態(tài)，它們存在著固有的域差異。

　　為了減小域差異，優(yōu)化SNN在事件數(shù)據(jù)上的表現(xiàn)，我們主要從兩個(gè)方面來進(jìn)行解決：第一是特征分布，第二是訓(xùn)練策略。對(duì)于特征分布，我們?cè)O(shè)計(jì)了知識(shí)轉(zhuǎn)移損失函數(shù)，其包括域?qū)R損失和時(shí)空正則化。域?qū)R損失通過減少靜態(tài)圖像和事件數(shù)據(jù)之間的邊緣分布距離，來學(xué)習(xí)和獲取域不變空間特征。時(shí)空正則化為域?qū)R損失提供動(dòng)態(tài)調(diào)整的系數(shù)，以更好地學(xué)習(xí)數(shù)據(jù)中的時(shí)間特征。在訓(xùn)練策略方面，我們提出了滑動(dòng)訓(xùn)練策略，即在訓(xùn)練過程中用事件數(shù)據(jù)概率性地逐步替換靜態(tài)圖像輸入，從而平滑地減少知識(shí)轉(zhuǎn)移損失的作用，使訓(xùn)練過程更加穩(wěn)定。在三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果充分表明了所提方法的有效性。

　　相關(guān)代碼開源在：

　　https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/Perception_and_Learning/img_cls/transfer_for_dvs.

　　06. 弱分布檢測(cè)器可以提升視覺語言提示調(diào)整的泛化性能

　　Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning

　　作者：丁昆，張好劍，于強(qiáng)，王穎，向世明，潘春洪

　　預(yù)訓(xùn)練視覺語言大模型包含豐富的知識(shí)，將這些模型在不同的下游任務(wù)上微調(diào)以快速解決特定領(lǐng)域的問題是最近的一個(gè)研究趨勢(shì)。傳統(tǒng)的微調(diào)技術(shù)在參數(shù)效率和泛化性上均存在問題。近期，基于提示調(diào)整的參數(shù)高效微調(diào)技術(shù)在圖像識(shí)別、圖像分割等任務(wù)中取得不錯(cuò)的性能。然而，提示調(diào)整技術(shù)在保持跨類別泛化性方面仍存在缺陷，即在可見類上進(jìn)行提示調(diào)整后，新類上的識(shí)別性能顯著下降。

　　考慮到未經(jīng)提示調(diào)整的零樣本分類器在新類上具有很好的識(shí)別性能，而提示調(diào)整的小樣本分類器在可見類上識(shí)別性能更優(yōu)，本研究將跨類別泛化性問題轉(zhuǎn)換為分布外檢測(cè)（OOD，Out-of-Distribution）問題。首先，針對(duì)零樣本分類器和小樣本分類器分別計(jì)算分布內(nèi)得分；接著，基于這兩個(gè)得分計(jì)算兩個(gè)分類器各自的權(quán)重；最后，使用上述權(quán)重對(duì)兩個(gè)分類器進(jìn)行動(dòng)態(tài)加權(quán)。本研究在理論和實(shí)驗(yàn)上展示了即時(shí)所使用的分布檢測(cè)器的分類精度不高，仍然能促進(jìn)視覺語言提示調(diào)整的跨類別泛化性。　　

　　07. 學(xué)習(xí)如何去看:用于目標(biāo)檢測(cè)和相機(jī)調(diào)整的協(xié)作具身學(xué)習(xí)

　　Learn How to See: Collaborative Embodied Learning for Object Detection and Camera Adjusting

　　作者：申領(lǐng)東，霍春雷，許諾，韓超偉，王子辰

　　被動(dòng)的目標(biāo)檢測(cè)器通常是在大規(guī)模靜態(tài)數(shù)據(jù)集上訓(xùn)練的，往往忽視了從物體檢測(cè)到圖像獲取的反饋。具身視覺和主動(dòng)檢測(cè)通過與環(huán)境互動(dòng)緩解了這個(gè)問題。然而，實(shí)現(xiàn)主動(dòng)性取決于資源密集型的數(shù)據(jù)收集和標(biāo)注。為了解決這些挑戰(zhàn)，我們提出了一個(gè)協(xié)作式的學(xué)生-教師框架。技術(shù)上，我們基于軌跡數(shù)據(jù)構(gòu)建了一個(gè)replay buffer，封裝了狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)之間的關(guān)系。此外，學(xué)生網(wǎng)絡(luò)通過使用蘊(yùn)含因果自注意力的GPT結(jié)構(gòu)的序列決策路徑來替代使用強(qiáng)化學(xué)習(xí)的決策過程。此外，教師網(wǎng)絡(luò)基于相鄰狀態(tài)的差異建立了狀態(tài)-獎(jiǎng)勵(lì)映射，為學(xué)生提供可靠的獎(jiǎng)勵(lì)，使其能夠基于龐大的未標(biāo)記的replay buffer數(shù)據(jù)自適應(yīng)地調(diào)整權(quán)重。教師網(wǎng)絡(luò)內(nèi)還提出了一個(gè)簡(jiǎn)單但有效的獎(jiǎng)勵(lì)參考值，增強(qiáng)了其有效性和簡(jiǎn)潔性。利用靈活的replay buffer和教師-學(xué)生之間的具身協(xié)作，該框架學(xué)會(huì)在檢測(cè)之前用更淺的特征和更短的推理步驟進(jìn)行觀察。實(shí)驗(yàn)證明，我們的算法在與最先進(jìn)的檢測(cè)器相比具有顯著優(yōu)勢(shì)。

　　08. 對(duì)抗類別增量學(xué)習(xí)中的不平衡遺忘

　　Defying Imbalanced Forgetting in Class Incremental Learning

　　作者：許世雄，孟高峰，聶興，尼博琳，樊彬，向世明

　　我們首次觀察到在同一個(gè)舊任務(wù)中不同類別的準(zhǔn)確性存在高度不平衡的現(xiàn)象。這個(gè)有趣的現(xiàn)象是在基于回放的類別增量學(xué)習(xí)（CIL）中發(fā)現(xiàn)的，它揭示了已學(xué)習(xí)類別的遺忘存在不平衡，因?yàn)樵跒?zāi)難性遺忘發(fā)生之前它們的準(zhǔn)確性是接近的。由于CIL中依賴于平均增量準(zhǔn)確性作為衡量標(biāo)準(zhǔn)，這種衡量標(biāo)準(zhǔn)假設(shè)同一任務(wù)中的類別準(zhǔn)確性是相似的，因此此前的研究工作中忽視了這個(gè)現(xiàn)象。然而，在面對(duì)災(zāi)難性遺忘時(shí)，這個(gè)假設(shè)是無效的。進(jìn)一步的實(shí)驗(yàn)與分析表明，這種不平衡的遺忘是因?yàn)檎Z義上相似的舊類別和新類別之間在特征空間中存在沖突引起的。這些沖突源于基于回放的CIL方法中存在的類別不平衡?；谶@些發(fā)現(xiàn)，我們提出了Class-Aware Disentanglement（CLAD）方法，用于預(yù)測(cè)更有可能被遺忘的舊類別并提高它們的準(zhǔn)確性。重要的是，CLAD可以無縫地集成到現(xiàn)有的CIL方法中。大量的實(shí)驗(yàn)表明，CLAD能夠穩(wěn)定的改進(jìn)當(dāng)前的基于回放的方法，帶來高達(dá)2.56%的性能提升。

　　09. 基于互補(bǔ)專家的長(zhǎng)尾半監(jiān)督算法

　　Three Heads Are Better Than One: Complementary Experts for Long-Tailed Semi-supervised Learning

　　作者：馬成丞，Ismail Elezi，鄧健康，董未名，徐常勝

　　在長(zhǎng)尾半監(jiān)督圖像分類任務(wù)中，訓(xùn)練集包含少量的有標(biāo)注數(shù)據(jù)和大量的無標(biāo)注數(shù)據(jù)，有標(biāo)注子集服從長(zhǎng)尾分布，無標(biāo)注子集服從未知的類別分布，且可能與有標(biāo)注子集不同。在經(jīng)典的半監(jiān)督算法框架FixMatch中，數(shù)據(jù)集的長(zhǎng)尾分布會(huì)導(dǎo)致大量的無標(biāo)注數(shù)據(jù)被誤分為頭部類別，而這些類別不均衡的偽標(biāo)注反過來加重了模型的認(rèn)知偏差（confirmation bias）問題，最終模型將大部分測(cè)試樣本誤分成頭部類別。本文基于混合專家（Mixture-of-Experts，MoE）的思想，采用不同強(qiáng)度的logit adjustment同時(shí)訓(xùn)練三個(gè)分類頭，從而保證在多種不同的無標(biāo)注子集類別分布下始終可以有一個(gè)分類頭能預(yù)測(cè)出準(zhǔn)確的偽標(biāo)注，保證模型特征提取器的訓(xùn)練效果。實(shí)驗(yàn)證明，本文在CIFAR-10/100和STL-10數(shù)據(jù)集上均能取得不錯(cuò)的分類精度。

　　相關(guān)鏈接：

　　https://github.com/machengcheng2016/CPE-LTSSL

　　10. 基于時(shí)變反演擴(kuò)散模型的音樂風(fēng)格遷移

　　Music Style Transfer with Time-Varying Inversion of Diffusion Models

　　作者：李思霏，張宇欣，唐帆，馬重陽，董未名，徐常勝

　　隨著擴(kuò)散模型的發(fā)展，文本引導(dǎo)的圖像風(fēng)格遷移已經(jīng)展示出高質(zhì)量可控的結(jié)果。然而，利用文本進(jìn)行多樣化的音樂風(fēng)格遷移面臨著嚴(yán)峻的挑戰(zhàn)，主要是由于可用的匹配的音頻-文本數(shù)據(jù)集的有限性。音樂作為一種抽象而復(fù)雜的藝術(shù)形式，即使在同一種風(fēng)格中也表現(xiàn)出較高復(fù)雜性，因此準(zhǔn)確的文本描述具有挑戰(zhàn)性。本文提出了一種能夠使用最少數(shù)據(jù)有效捕捉音樂屬性的音樂風(fēng)格轉(zhuǎn)換方法。我們引入了一種新穎的時(shí)間變化的文本反演模塊，以精確捕捉不同層次的梅爾頻譜特征。在推理過程中，我們提出了一種減少偏差的風(fēng)格化技術(shù)，以獲得穩(wěn)定的風(fēng)格化結(jié)果。實(shí)驗(yàn)結(jié)果表明，我們的方法可以轉(zhuǎn)換特定樂器的風(fēng)格，并結(jié)合自然聲音來創(chuàng)作旋律。

　　相關(guān)鏈接：

　　https://lsfhuihuiff.github.io/MusicTI/

　　11. 基于復(fù)合文本監(jiān)督的提示學(xué)習(xí)

　　Compound Text-Guided Prompt Tuning via Image-Adaptive Cues

　　作者：譚淏、李俊、周亦莊、萬軍、雷震、張祥雨

　　隨著大規(guī)模視覺-文本預(yù)訓(xùn)練的出現(xiàn)，視覺-文本模型在下游任務(wù)中展現(xiàn)出強(qiáng)大的泛化能力。然而：1）現(xiàn)有的基于提示學(xué)習(xí)的微調(diào)框架需要對(duì)所有類別的文本輸入進(jìn)行并行化處理，當(dāng)目標(biāo)數(shù)據(jù)集含有大量類別時(shí)，會(huì)造成巨大的顯存消耗；2）此外，現(xiàn)有工作需要在提示輸入中包含類別名稱，在處理模糊類別名時(shí)表現(xiàn)不佳。

　　為了解決這些不足，我們提出使用復(fù)合文本引導(dǎo)提示學(xué)習(xí)，顯著減少了顯存需求，并獲得了更好的性能。具體而言，我們引入文本監(jiān)督來約束提示向量的優(yōu)化，以帶來兩個(gè)好處：1）在推理階段，模型不再依賴預(yù)定義的類別名集合，實(shí)現(xiàn)了更靈活的提示輸入；2）減少了文本端的輸入數(shù)量，從而顯著降低顯存消耗。具體而言，我們發(fā)現(xiàn)復(fù)合文本監(jiān)督（即基于類別的監(jiān)督和基于內(nèi)容的監(jiān)督）十分有效，它們分別提供了類間可分性和類內(nèi)多樣性。此外，我們還設(shè)計(jì)了一個(gè)連接器模塊來橋接文本與視覺模態(tài)，促進(jìn)提示向量與視覺特征的對(duì)齊。

　　我們?cè)谏贅颖緢D像識(shí)別和域泛化任務(wù)上進(jìn)行了廣泛的實(shí)驗(yàn)，證明了所提出的方法以較低的訓(xùn)練成本實(shí)現(xiàn)了更優(yōu)的性能。我們希望這項(xiàng)工作能夠啟發(fā)更豐富、通用的文本監(jiān)督，以進(jìn)一步增強(qiáng)提示微調(diào)在更廣泛下游任務(wù)上的表現(xiàn)。

　　圖1. 方法框架圖

　　圖2. 顯存消耗與性能對(duì)比圖

　　代碼地址：

　　https://github.com/EricTan7/TGP-T

　　12. WaveNet：基于圖譜小波的非平穩(wěn)圖信號(hào)處理

　　WaveNet: Tackling Non-Stationary Graph Signals via Graph Spectral Wavelets

　　作者：楊智睿，胡羽藍(lán)，歐陽晟，劉敬宇，王書強(qiáng)，馬喜波，Wenhan Wang，Hanjing Su，劉勇

　　在譜圖神經(jīng)網(wǎng)絡(luò)的研究中，多項(xiàng)式方法在基于拉普拉斯矩陣的濾波器設(shè)計(jì)上占據(jù)主導(dǎo)地位。然而，由拉普拉斯矩陣析取的多項(xiàng)式組合在信息傳遞中存在一定的限制（如過度平滑），并且多數(shù)譜圖神經(jīng)網(wǎng)絡(luò)采用的多項(xiàng)式基也會(huì)導(dǎo)致圖譜信號(hào)高頻信號(hào)的丟失。此外，本研究發(fā)現(xiàn)，即使增加多項(xiàng)式階數(shù)也無法改變這種情況，這意味著基于多項(xiàng)式的模型在面對(duì)高頻信號(hào)時(shí)存在一定的缺陷。為解決這些問題，本研究打破了多項(xiàng)式方法在譜圖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的主導(dǎo)地位，并為研究人員引入了一種新的視角。首先，本研究在譜圖信號(hào)上采用多分辨率分析，證明了小波對(duì)高頻信號(hào)的強(qiáng)大擬合能力。然后，本研究利用尺度函數(shù)在圖中重構(gòu)譜信號(hào)。進(jìn)一步，本研究還采用圖像圖表實(shí)驗(yàn)、節(jié)點(diǎn)分類實(shí)驗(yàn)以及合成玩具實(shí)驗(yàn)證明了所提方法在學(xué)習(xí)復(fù)雜濾波器方面的有效性、性能優(yōu)越性以及細(xì)小成分捕捉能力的高效性。最后，本研究還對(duì)學(xué)習(xí)到的濾波器進(jìn)行了可視化，驗(yàn)證了真實(shí)世界數(shù)據(jù)集的真實(shí)濾波器的復(fù)雜性。

　　圖1. WaveNet的架構(gòu)示意圖。信號(hào)重構(gòu)過程基于小波基，本研究利用Haar小波在圖數(shù)據(jù)上進(jìn)行濾波。

　　圖2. BernNet和WaveNet學(xué)習(xí)的濾波器示意圖。WaveNet表現(xiàn)出了比BernNet更好的濾波器擬合性能。

　　13. 基于倒角法向距離和多尺度幾何特征的魯棒點(diǎn)云法向估計(jì)

　　CMG-Net: Robust Normal Estimation for Point Clouds via Chamfer Normal Distance and Multi-scale Geometry

　　作者：吳應(yīng)睿、趙明陽、李克強(qiáng)、全衛(wèi)澤、于天琪、羊箭鋒、賈曉紅、嚴(yán)冬明

　　本文提出了一種魯棒的高準(zhǔn)確度點(diǎn)云法向估計(jì)方法。先前的方法對(duì)噪聲的魯棒性較差，難以被應(yīng)用于實(shí)際場(chǎng)景中，主要原因?yàn)椋?）直接以標(biāo)注法向作為擬合目標(biāo)，導(dǎo)致在帶噪聲點(diǎn)云上擬合目標(biāo)與潛在表面不一致；2）輸入尺度選取在細(xì)節(jié)保留和噪聲平滑上存在矛盾。針對(duì)標(biāo)注法向與潛在表面不一致的問題，本文以帶噪聲點(diǎn)云和干凈點(diǎn)云的法向相似度為衡量標(biāo)準(zhǔn)，提出了倒角法向距離（Chamfer Normal Distance，CND）作為更合理的評(píng)價(jià)指標(biāo)，并基于CND修正了網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)，提高了網(wǎng)絡(luò)對(duì)噪聲的魯棒性，如圖1所示。

　　此外，本文設(shè)計(jì)了一種基于多尺度局部特征聚合和分層幾何信息融合的法向估計(jì)網(wǎng)絡(luò)，如圖2所示。

　　這種架構(gòu)能夠利用不同尺度特征的優(yōu)勢(shì)，更有效地捕捉復(fù)雜的幾何細(xì)節(jié)，并緩解在尺度選擇上的矛盾。實(shí)驗(yàn)證明，本文的方法在合成和真實(shí)的數(shù)據(jù)集上都取得了最佳的效果，且在噪聲魯棒性方面有較大的提升。

　　圖1. (a) CND圖示，(b) 不同方法的法向估計(jì)效果對(duì)比

　　圖2. CMG-Net流程

　　論文鏈接：

　　https://arxiv.org/abs/2312.09154

　　代碼鏈接：

　　https://github.com/YingruiWoo/CMG-Net Pytorch

　　14. AnomalyGPT: 基于多模態(tài)大模型的工業(yè)異常檢測(cè)方法

　　AnomalyGPT: Detecting Industrial Anomalies Using Large Vision-Language Models

　　作者：古兆鵬，朱炳科，朱貴波，陳盈盈，唐明，王金橋

　　MiniGPT-4，LLaVA 等多模態(tài)大模型在圖像理解方面展現(xiàn)了卓越的能力，在多種通用視覺任務(wù)中取得了顯著效果，但是現(xiàn)有的多模態(tài)大模型缺乏特定領(lǐng)域知識(shí)，而且對(duì)物體中局部細(xì)節(jié)的理解較弱，這導(dǎo)致這些方法不能很好地完成工業(yè)異常檢測(cè)任務(wù)。另一方面，大多數(shù)現(xiàn)有的工業(yè)異常檢測(cè)方法僅預(yù)測(cè)異常分?jǐn)?shù)，需要人工設(shè)定閾值以區(qū)分正常和異常樣本，這限制了這些方法的實(shí)際應(yīng)用場(chǎng)景。本文提出了一種基于多模態(tài)大模型的新型工業(yè)異常檢測(cè)方法——AnomalyGPT，通過模擬異常樣本的方式生成多模態(tài)訓(xùn)練數(shù)據(jù)，使用圖像解碼器為語言大模型提供圖像細(xì)節(jié)語義信息，并設(shè)計(jì)了一個(gè)提示學(xué)習(xí)器，使用提示嵌入對(duì)多模態(tài)大模型進(jìn)行微調(diào)。AnomalyGPT不需要手動(dòng)設(shè)置閾值，可以直接判斷異常是否存在并指出異常位置，可以實(shí)現(xiàn)多輪對(duì)話，而且可以在測(cè)試階段利用少樣本遷移到之前從未見過的新類別物體上。在僅提供一個(gè)正常樣本的條件下，AnomalyGPT在 MVTec 數(shù)據(jù)集上達(dá)到了 85.5% 的準(zhǔn)確率，94.1% 的圖像級(jí) AUC 和 95.4% 的像素級(jí) AUC，顯著地超過了現(xiàn)有方法的性能，在工業(yè)場(chǎng)景少樣本和無監(jiān)督場(chǎng)景中取得了業(yè)內(nèi)最好性能。

　　圖1. AnomalyGPT與現(xiàn)有的多模態(tài)大模型和工業(yè)異常檢測(cè)方法的效果對(duì)比圖

　　圖2. AnomalyGPT多模態(tài)大模型框架圖

　　論文鏈接：

　　https://arxiv.org/abs/2308.15366

　　項(xiàng)目主頁(yè)鏈接：

　　https://anomalygpt.github.io

　　開源代碼鏈接：

　　https://github.com/CASIA-IVA-Lab/AnomalyGPT

　　15. 基于波動(dòng)性度量的大語言模型的自適應(yīng)結(jié)構(gòu)化剪枝

　　Fluctuation-based Adaptive Structured Pruning for Large Language Models

　　作者：安永琪、趙旭、于濤、唐明、王金橋

　　網(wǎng)絡(luò)結(jié)構(gòu)剪枝是解決大語言模型（LLMs）計(jì)算資源需求過大問題的有效方法。用于LLM的剪枝方法一般是無需重新訓(xùn)練的，以避免計(jì)算量過大。然而，現(xiàn)有幾乎所有的無需重新訓(xùn)練的LLM剪枝方法都屬于非結(jié)構(gòu)化剪枝，需要特定硬件支持以獲得真實(shí)加速。本文歸納了LLM結(jié)構(gòu)化剪枝的三個(gè)關(guān)鍵要素：結(jié)構(gòu)化剪枝度量、全局壓縮結(jié)構(gòu)和性能恢復(fù)，并由此提出了一種無需重新訓(xùn)練的LLM結(jié)構(gòu)化剪枝框架——FLAP。FLAP利用波動(dòng)性度量判斷去除各權(quán)重組后輸出特征圖的可恢復(fù)性，然后歸一化各層度量指標(biāo)以全局搜索壓縮結(jié)構(gòu)，最后通過統(tǒng)計(jì)基準(zhǔn)值添加額外的偏置項(xiàng)來恢復(fù)輸出特征圖。在多種語言基準(zhǔn)測(cè)試中，F(xiàn)LAP的表現(xiàn)顯著優(yōu)于現(xiàn)有的結(jié)構(gòu)化剪枝方法，包括Wanda（結(jié)構(gòu)化剪枝版本）、LLM Pruner。在50%剪枝率下，F(xiàn)LAP的困惑度相較于現(xiàn)有SOTA降低了19%，零樣本任務(wù)準(zhǔn)確率比現(xiàn)有SOTA高1.49%，并實(shí)現(xiàn)了相較原始模型66%的推理加速。

　　論文鏈接：

　　https://arxiv.org/abs/2312.11983

　　代碼鏈接：

　　https://github.com/CASIA-IVA-Lab/FLAP

　　16. 針對(duì)深度合成音頻檢測(cè)的自適應(yīng)連續(xù)學(xué)習(xí)方法

　　What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection

　　作者：張曉輝，易江燕，王成龍，章楚源，曾思丁，陶建華

　　語音合成和聲音轉(zhuǎn)換的迅速發(fā)展引起了重大關(guān)注，因?yàn)檫@種技術(shù)的潛在濫用可能性，迫切需要有效的音頻深度偽造檢測(cè)機(jī)制?，F(xiàn)有的檢測(cè)模型在區(qū)分已知類型的深度偽造音頻方面已顯示出可喜的成功，但在遇到新的攻擊類型時(shí)則面臨巨大的挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn)，一種新興且有效的方法是連續(xù)學(xué)習(xí)。在這篇論文中，我們提出了一種稱為幅度權(quán)重修正（RWM）的連續(xù)學(xué)習(xí)方法，用于音頻深度偽造檢測(cè)。RWM的基本概念涉及將所有類別分為兩組：一組是在任務(wù)中具有緊湊特征分布的類別，如真實(shí)音頻；另一組是分布更離散的類別，如各種類型的假音頻。這些區(qū)別通過類內(nèi)余弦距離來量化，隨后RWM引入針對(duì)不同數(shù)據(jù)類型的可訓(xùn)練梯度方向修正的機(jī)制。通過與一眾主流連續(xù)學(xué)習(xí)方法進(jìn)行比較，實(shí)驗(yàn)結(jié)果表明RWM在新知識(shí)獲取和減少對(duì)已學(xué)知識(shí)的遺忘方面的優(yōu)越性。此外，RWM不僅適用于音頻深度偽造檢測(cè)，實(shí)驗(yàn)結(jié)果還顯示了其在圖像識(shí)別等多個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的潛在應(yīng)用價(jià)值。

　　論文鏈接：

　　https://arxiv.org/abs/2312.09651

　　代碼鏈接：

　　https://github.com/Cecile-hi/Radian-Weight-Modification

　　17. 根據(jù)顏色的低頻先驗(yàn)評(píng)估輻射場(chǎng)的幾何形狀

　　Evaluate Geometry of Radiance Fields with Low-frequency Color Prior

　　作者：方啟航，宋亞斐，李克強(qiáng)，申麗，吳懷宇，熊剛，薄列峰

　　輻射場(chǎng)是三維場(chǎng)景的一種有效表示方式，它已被廣泛應(yīng)用于新視角合成和三維重建中。評(píng)估重建的幾何形狀，即密度場(chǎng)，仍然是一個(gè)開放且具有挑戰(zhàn)性的問題。這是因?yàn)槲矬w幾何形狀的真值不易獲得，往往需要3D掃描和各種預(yù)處理，所以許多廣泛使用的數(shù)據(jù)集都沒有物體幾何形狀的真值，這導(dǎo)致密度場(chǎng)難以評(píng)估。為此，我們提出了一種新的度量標(biāo)準(zhǔn)，即逆平均顏色殘差（Inverse Mean Residual Color，IMRC），它只需物體圖像就可以評(píng)估重建的密度場(chǎng)。其關(guān)鍵在于，重建的密度場(chǎng)越準(zhǔn)確，計(jì)算出顏色場(chǎng)的頻率就越低。具體地，我們?cè)O(shè)計(jì)了一種計(jì)算顏色場(chǎng)的方法，用低頻球面諧波來逼近顏色場(chǎng)，并采用逼近的殘差代替顏色場(chǎng)的頻率，由此計(jì)算IMRC。IMRC越高，則密度場(chǎng)的幾何形狀越好。定性和定量的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提IMRC的有效性。我們還使用IMRC對(duì)幾種最先進(jìn)的方法進(jìn)行了基準(zhǔn)測(cè)試，以推動(dòng)未來相關(guān)研究的發(fā)展。

　　圖1. IMRC計(jì)算流程圖

　　圖2. 新視角下渲染的圖像、深度圖以及顏色殘差。IMRC可以正確分析重建的密度場(chǎng)質(zhì)量

　　代碼地址：

　　https://github.com/qihangGH/IMRC

　　18. 基于一致性與均勻性重新審視圖掩碼自編碼器

　　Rethinking Graph Masked Autoencoders through Alignment and Uniformity

　　作者：王亮，陶翔，劉強(qiáng)，吳書，王亮

　　圖自監(jiān)督學(xué)習(xí)可以分為對(duì)比式方法和生成式方法。在過去幾年中，對(duì)比式方法即圖對(duì)比學(xué)習(xí)（GCL），在該領(lǐng)域中占據(jù)了主導(dǎo)地位。然而，最近提出的圖掩碼自編碼器（GraphMAE）重新引起了人們對(duì)生成式方法的關(guān)注。盡管生成式方法和對(duì)比式方法都在實(shí)踐中取得了成功，但它們之間的聯(lián)系與差異還未被充分探討。因此，我們首先在理論上建立了GraphMAE與GCL之間的關(guān)聯(lián)，證明了GraphMAE中的節(jié)點(diǎn)級(jí)重構(gòu)目標(biāo)隱式地執(zhí)行了上下文級(jí)別的GCL?；谖覀兊睦碚摲治?，我們進(jìn)一步從表征一致性和均勻性的角度分析GraphMAE的局限性：其一致性受限于掩碼策略，而均勻性并未得到嚴(yán)格保證。為了克服這些局限，我們提出了一致性與均勻性增強(qiáng)的圖掩碼自編碼器AUG-MAE。具體來說，我們提出了一種由易到難的對(duì)抗掩碼策略，以提供難以對(duì)齊的樣本，從而改善表征一致性。同時(shí)，我們引入了顯式的均勻性約束，以確保學(xué)習(xí)到的表征具有均勻性。在基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了我們模型具有顯著優(yōu)勢(shì)。

　　19. 學(xué)習(xí)用于神經(jīng)輻射場(chǎng)人臉重演的稠密對(duì)應(yīng)

　　Learning Dense Correspondence for NeRF-Based Face Reenactment

　　作者：楊嵩林，王偉，蘭宇時(shí)，樊翔宇，彭勃，楊磊，董晶

　　人臉重演是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，需要建立在不同的人臉表征之間的稠密對(duì)應(yīng)關(guān)系用于運(yùn)動(dòng)遷移。最近的研究采用了神經(jīng)輻射場(chǎng)（NeRF）作為基礎(chǔ)表征，進(jìn)一步提高了多視圖人臉重演在照片逼真度和3D一致性方面的性能。然而，由于隱式表征缺乏像基于網(wǎng)格的3D參數(shù)化模型（例如3DMM）的索引對(duì)齊頂點(diǎn)標(biāo)注，因此在不同人臉NeRF之間建立稠密對(duì)應(yīng)關(guān)系并非易事。盡管通過將3DMM空間與基于 NeRF 的人臉表征對(duì)齊可以實(shí)現(xiàn)運(yùn)動(dòng)控制，但由于其有限的僅面部建模和低身份保真度，這并不是最佳選擇。因此，我們受到啟發(fā)提出了一個(gè)問題：我們是否可以在沒有3D參數(shù)模型先驗(yàn)的情況下學(xué)習(xí)不同人臉NeRF 表征之間的稠密對(duì)應(yīng)關(guān)系？為了解決這個(gè)挑戰(zhàn)，我們提出了一個(gè)新穎的框架，采用三平面作為基礎(chǔ)NeRF表征，并將人臉三平面分解為三個(gè)組件：標(biāo)準(zhǔn)型空間三平面、身份形變和運(yùn)動(dòng)形變。在運(yùn)動(dòng)控制方面，我們的主要貢獻(xiàn)是提出了一個(gè)平面字典模塊，它將運(yùn)動(dòng)條件高效地映射為一組可學(xué)習(xí)的正交平面基的線性加權(quán)和。我們的框架是第一個(gè)在沒有3D參數(shù)模型先驗(yàn)的情況下實(shí)現(xiàn)單圖、多視角人臉重演的工作。大量實(shí)驗(yàn)證明，我們?cè)诰?xì)運(yùn)動(dòng)控制和身份保持方面取得了比先前方法更好的結(jié)果。

　　相關(guān)鏈接：

　　https://songlin1998.github.io/planedict/

　　20. 基于多目標(biāo)優(yōu)化的長(zhǎng)尾學(xué)習(xí)

　　Long-Tailed Learning as Multi-Objective Optimization

　　作者：李煒騏，呂凡，尚凡華，萬亮，馮偉

　　現(xiàn)實(shí)世界中普遍存在的長(zhǎng)尾分布（數(shù)據(jù)嚴(yán)重不平衡）問題通常會(huì)導(dǎo)致模型偏向具有足夠樣本的類別，對(duì)稀有類別表現(xiàn)不佳，針對(duì)該問題研究的方法稱為長(zhǎng)尾學(xué)習(xí)方法。長(zhǎng)尾學(xué)習(xí)中常采用重新平衡類別的策略，但該策略面臨補(bǔ)償不平衡問題，即提高尾部類別的性能可能會(huì)降低頭部類別的性能，反之亦然。本文認(rèn)為模型學(xué)習(xí)不平衡問題源于不同類別梯度的不平衡，即在更新過程中抑制了欠學(xué)習(xí)類別的梯度貢獻(xiàn)，或者過度補(bǔ)償欠學(xué)習(xí)類別導(dǎo)致過擬合。為實(shí)現(xiàn)對(duì)各類別梯度進(jìn)行理想補(bǔ)償，本文將長(zhǎng)尾學(xué)習(xí)問題構(gòu)建為多目標(biāo)優(yōu)化問題，公平對(duì)待頭部和尾部類別的貢獻(xiàn)。為提高優(yōu)化效率，提出了梯度平衡分組（GBG）策略，將具有相似梯度方向的類別聚在一起，使每次模型參數(shù)更新近似地往帕累托下降方向前進(jìn)。本文提出的GBG方法使具有相似梯度方向的類別組合為更具代表性的梯度，并為尾部類別提供理想的補(bǔ)償。

　　相關(guān)鏈接：

　　https://arxiv.org/abs/2310.20490

　　21. 用于文本和表格事實(shí)核查的異構(gòu)圖推理

　　Heterogeneous Graph Reasoning for Fact Checking over Texts and Tables

　　作者：龔海松，許偉志，吳書，劉強(qiáng)，王亮

　　本研究旨在通過對(duì)多個(gè)證據(jù)進(jìn)行推理，從而預(yù)測(cè)論斷的真實(shí)性。通常，這包括證據(jù)檢索和真實(shí)性推理兩個(gè)主要步驟。本文聚焦于后者，即對(duì)非結(jié)構(gòu)化文本和結(jié)構(gòu)化表格信息進(jìn)行推理。過去的研究主要依賴于微調(diào)預(yù)訓(xùn)練語言模型或訓(xùn)練同質(zhì)圖模型。盡管它們有效，但我們認(rèn)為它們未能充分探索不同結(jié)構(gòu)下潛在的語義信息。為解決這一問題，我們提出了一種新穎的基于異構(gòu)圖的事實(shí)檢查模型——HeterFC。我們的方法利用異構(gòu)證據(jù)圖，以單詞為節(jié)點(diǎn)，巧妙設(shè)計(jì)的邊表示不同的證據(jù)屬性。通過關(guān)系圖神經(jīng)網(wǎng)絡(luò)進(jìn)行信息傳播，促進(jìn)論斷和證據(jù)之間的交互。我們采用基于注意力的方法整合信息，結(jié)合語言模型生成預(yù)測(cè)。引入多任務(wù)損失函數(shù)以考慮證據(jù)檢索中的潛在不準(zhǔn)確性。在大規(guī)模事實(shí)檢查數(shù)據(jù)集FEVEROUS上進(jìn)行的綜合實(shí)驗(yàn)證明了HeterFC的有效性。

　　22. 基于擴(kuò)散語言模型的文本引導(dǎo)分子生成

　　Text-Guided Molecule Generation with Diffusion Language Model

　　作者：龔海松，劉強(qiáng)，吳書，王亮

　　文本引導(dǎo)的分子生成旨在根據(jù)文本的描述通過AI生成符合文本描述內(nèi)容的分子，從而輔助可能的藥物設(shè)計(jì)和研發(fā)。近年來基于SMILES分子表達(dá)的分子生成方法多依賴于自回歸的生成模型。本研究指出自回歸生成模型有因固定生成順序而無法修改已生成內(nèi)容的弊端，可能在分子生成領(lǐng)域帶來缺乏對(duì)全局約束有效利用的不利影響。因此本研究提出使用擴(kuò)散語言模型進(jìn)行文本引導(dǎo)的分子生成，并提出TGM-DLM模型進(jìn)行驗(yàn)證。TGM-DLM采用兩階段的逆擴(kuò)散過程從隨機(jī)噪聲中生成分子，其中第一階段以文本描述為約束生成符合文本描述的分子SMILES嵌入，第二階段對(duì)第一階段結(jié)果進(jìn)行矯正，修正可能存在的語法錯(cuò)誤。通過實(shí)驗(yàn)，TGM-DLM展現(xiàn)了優(yōu)秀的性能，與同參數(shù)量級(jí)的采用自回歸生成框架的MolT5比較，獲得了3倍的準(zhǔn)確匹配率以及分子指紋相似性指標(biāo)上18%至36%的增長(zhǎng)。

　　23. 基于顯式接觸和隱式物體相結(jié)合的單目手物交互重建

　　Learning Explicit Contact for Implicit Reconstruction of Hand-held Objects from Monocular Images

　　作者：胡俊星，張鴻文，陳澤睿，李夢(mèng)成，王云龍，劉燁斌，孫哲南

　　基于單目RGB圖像的手物交互重建是一項(xiàng)具有挑戰(zhàn)性的任務(wù)?，F(xiàn)有方法利用隱式函數(shù)可以較好地重建手持物體，但是它們沒有很好地利用手物接觸信息，從而導(dǎo)致交互重建的效果不夠理想。本工作將顯式的手部接觸預(yù)測(cè)和隱式的物體重建相結(jié)合，以促進(jìn)手物交互的重建。首先，直接從單張圖像中預(yù)測(cè)三維的手物接觸，通過將區(qū)域級(jí)和頂點(diǎn)級(jí)的圖變換器以從粗到細(xì)的方式級(jí)聯(lián)來獲得更準(zhǔn)確的接觸預(yù)測(cè)。然后，將估計(jì)的接觸信息從手部網(wǎng)格表面擴(kuò)散到附近物體所處的三維空間，并利用擴(kuò)散的接觸概率構(gòu)建物體的隱式神經(jīng)表達(dá)，這種建模方式可以有效改善手物接觸部分的重建。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明，本方法在取得最佳指標(biāo)的同時(shí)，可以實(shí)現(xiàn)視覺上更加合理的手物交互重建。

　　圖1. 本方法的整體流程圖

　　圖2. 輸入一張RGB 圖像，本方法可以預(yù)測(cè)手-物接觸的區(qū)域并以此指導(dǎo)手持物體的三維重建

　　相關(guān)鏈接：

　　https://junxinghu.github.io/projects/hoi.html

　　24. 動(dòng)態(tài)深度路由的多任務(wù)強(qiáng)化學(xué)習(xí)

　　Not All Tasks Are Equally Difficult: Multi-Task Reinforcement Learning with Dynamic Depth Routing

　　作者：何金岷，李凱，臧一凡，傅浩波，付強(qiáng)，興軍亮，程健

　　多任務(wù)強(qiáng)化學(xué)習(xí)致力于用單一策略完成一系列不同的任務(wù)。為了通過在多個(gè)任務(wù)中共享參數(shù)來提高數(shù)據(jù)效率，一種常見的做法是將網(wǎng)絡(luò)分割成不同的模塊，并訓(xùn)練路由網(wǎng)絡(luò)將這些模塊重新組合成特定任務(wù)的策略。然而，現(xiàn)有的路由方法對(duì)所有任務(wù)都采用固定數(shù)量的模塊，忽略了難度不同的任務(wù)通常需要不同數(shù)量的知識(shí)。我們提出了一種動(dòng)態(tài)深度路由（D2R）框架，它可以選擇性地跳過某些中間模塊，從而靈活地為每個(gè)任務(wù)選擇不同的模塊數(shù)量。在此框架下，我們進(jìn)一步引入了ResRouting方法，以解決離策略訓(xùn)練過程中行為策略和目標(biāo)策略之間路由路徑不一致的問題。此外，我們還設(shè)計(jì)了一種自動(dòng)路由平衡機(jī)制，以鼓勵(lì)在不干擾已掌握任務(wù)路由的情況下，繼續(xù)探索未掌握任務(wù)的路由。我們?cè)跈C(jī)械臂操作環(huán)境Meta-World中進(jìn)行了廣泛的實(shí)驗(yàn)，結(jié)果表明與MTRL基準(zhǔn)算法相比，D2R在采樣效率和最終性能方面都有顯著提高。

　　25. 合作型多智能體強(qiáng)化學(xué)習(xí)的內(nèi)在動(dòng)作趨勢(shì)一致性

　　Intrinsic Action Tendency Consistency for Cooperative Multi-Agent Reinforcement Learning

　　作者：張峻凱，張一帆，張希，臧一凡，程健

　　在合作型多智能體系統(tǒng)中，集中訓(xùn)練分散執(zhí)行算法(CTDE)仍存在智能體高效合作的挑戰(zhàn)。我們分析認(rèn)為智能體之間的動(dòng)作策略分歧是影響其訓(xùn)練效率的一個(gè)重要因素，這導(dǎo)致算法需要大量的訓(xùn)練樣本來訓(xùn)練智能體的團(tuán)隊(duì)共識(shí)。這種分歧源于CTDE算法的信用分配過程缺乏足夠的團(tuán)隊(duì)共識(shí)相關(guān)的獎(jiǎng)勵(lì)指導(dǎo)信號(hào)。為了解決這個(gè)問題，我們提出了合作型多智能體強(qiáng)化學(xué)習(xí)的內(nèi)在動(dòng)作趨勢(shì)一致性算法。我們利用動(dòng)作模型使得鄰居智能體能夠預(yù)測(cè)中心智能體的動(dòng)作趨勢(shì)。通過動(dòng)作趨勢(shì)的預(yù)測(cè)計(jì)算我們?cè)O(shè)計(jì)了一個(gè)合作型內(nèi)在獎(jiǎng)勵(lì)，它鼓勵(lì)將中心智能體與鄰居智能體的動(dòng)作趨勢(shì)相匹配。除此之外我們通過理論分析建立了RA-CTDE與CTDE的等價(jià)性，證明了CTDE的訓(xùn)練過程可以用每個(gè)agent的獨(dú)立目標(biāo)來實(shí)現(xiàn)。在此基礎(chǔ)上，我們提出了一種結(jié)合內(nèi)在獎(jiǎng)勵(lì)和CTDE的新方法。我們?cè)赟MAC和GRF基準(zhǔn)環(huán)境中對(duì)具有挑戰(zhàn)性的任務(wù)進(jìn)行了大量實(shí)驗(yàn)，性能提升證明了我們的方法的有效性。

　　26. 針對(duì)高效掩碼圖像建模的塊感知樣本選擇

　　Patch-Aware Sample Selection for Efficient Masked Image Modeling

　　作者：諸葛正陽，王家興，李勇，包勇軍，王培松，程健

　　盡管樣本選擇在傳統(tǒng)的監(jiān)督學(xué)習(xí)中可以通過提取最具重要性的子數(shù)據(jù)集來有效減少訓(xùn)練成本，但由于樣本級(jí)別的重要性賦分和圖像塊級(jí)別的預(yù)訓(xùn)練模式存在一定差異，將樣本選擇用于掩碼圖像建模(MIM)的加速仍然存在挑戰(zhàn)。我們首先構(gòu)建了在MIM預(yù)訓(xùn)練中進(jìn)行樣本選擇的基本框架，并發(fā)現(xiàn)其存在嚴(yán)重的性能下降的問題。我們認(rèn)為該問題主要?dú)w因于兩個(gè)因素：隨機(jī)的掩碼策略和簡(jiǎn)單的平均函數(shù)。因此我們提出了塊感知的樣本選擇方法（PASS），其中包括一個(gè)低成本的動(dòng)態(tài)訓(xùn)練掩碼預(yù)測(cè)器 (DTMP) 和加權(quán)選擇得分 (WSS)。DTMP始終保持對(duì)樣本中的復(fù)雜區(qū)域進(jìn)行掩碼，確保相對(duì)準(zhǔn)確和公平的樣本重要性得分。WSS利用圖像塊級(jí)別的差異來增強(qiáng)重要性得分。廣泛的下游任務(wù)實(shí)驗(yàn)顯示了PASS在加速M(fèi)IM預(yù)訓(xùn)練方面的有效性。PASS在各種數(shù)據(jù)集、不同的MIM方法和各類任務(wù)中都展現(xiàn)出了優(yōu)越的性能。例如，PASS在僅使用37%的訓(xùn)練數(shù)據(jù)預(yù)算的同時(shí)，在ImageNet-1K上維持了和標(biāo)準(zhǔn)MAE相當(dāng)?shù)男阅?，并?shí)現(xiàn)了約1.7倍的訓(xùn)練加速。

　　27. 基于智能體拓?fù)涞亩嘀悄荏w策略梯度算法

　　TAPE: Leveraging Agent Topology for Cooperative Multi-Agent Policy Gradient

　　作者：婁行舟，張俊格，Timothy J. Norman，黃凱奇，杜雅麗

　　多智能體策略梯度（Multi-Agent Policy Gradient，MAPG）近年來取得了顯著的進(jìn)展。然而，在最先進(jìn)的MAPG方法中，集中式評(píng)論家仍然面臨著中心化-去中心化不匹配（Centralized-Decentralized Mismatch，CDM）的問題，這意味著一些智能體的次優(yōu)行為會(huì)影響其他智能體的策略學(xué)習(xí)。雖然使用個(gè)體評(píng)論家進(jìn)行策略更新可以避免這個(gè)問題，但它們會(huì)嚴(yán)重限制智能體之間的合作。為了解決這個(gè)問題，我們提出了一個(gè)智能體拓?fù)淇蚣?，該框架決定其他智能體是否應(yīng)該在策略梯度中被考慮，并在促進(jìn)合作和減輕CDM問題之間實(shí)現(xiàn)折衷。智能體拓?fù)湓试S智能體使用聯(lián)合效用作為學(xué)習(xí)目標(biāo)，而不是集中評(píng)論家的全局效用或個(gè)體評(píng)論家的局部效用。

　　為構(gòu)建智能體拓?fù)?，我們研究了多種隨機(jī)圖模型。我們?yōu)殡S機(jī)和確定性MAPG方法都提出了基于拓?fù)涞亩嘀悄荏w策略梯度（Topology-based multi-Agent Policy gradiEnt，TAPE）。我們從理論上證明了隨機(jī)TAPE的策略提升定理，并為智能體之間合作能力的提升提供了理論解釋。在幾個(gè)基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果顯示，智能體拓?fù)浞謩e能夠促進(jìn)智能體之間的合作或減輕CDM問題以提高TAPE的性能。最后，我們還進(jìn)行了多個(gè)消融研究并提出了一個(gè)啟發(fā)式圖搜索算法，以展示智能體拓?fù)涞挠行浴?/div>

自動(dòng)對(duì)焦：強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請(qǐng)加微信：ZiDongHuaX 。

微信聯(lián)盟：強(qiáng)化學(xué)習(xí)微信群、神經(jīng)網(wǎng)絡(luò)微信群，各細(xì)分行業(yè)微信群：點(diǎn)擊這里進(jìn)入。

鴻達(dá)安視：水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器　　　　　　金葉儀器：氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案

 西凱昂：SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等　　　　　山東諾方：顆粒物傳感器、粉塵濃度傳感器

 深圳金瑞銘：RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案　　　　　　北京英諾艾智：容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案

評(píng)論排行

自動(dòng)化網(wǎng)誠(chéng)征自動(dòng)化科技賦能高質(zhì)量發(fā)展解決方案(3)

深耕應(yīng)用，兆易創(chuàng)新攜全系產(chǎn)品和行業(yè)解決方案亮相慕尼黑電子展(3)

推好品牌觀察：西門子在滬設(shè)立其中國(guó)首個(gè)智能基礎(chǔ)設(shè)施數(shù)字化賦能中心(2)

黑芝麻智能發(fā)布華山開發(fā)者計(jì)劃高質(zhì)量賦能多元應(yīng)用場(chǎng)景(2)

WOODHEAD通訊卡備品備件：Applicom International PCU1500S7 PCU 1500 S7 V4.5.0(2)

安森美和上能電氣攜手引領(lǐng)可持續(xù)能源應(yīng)用的發(fā)展兩家公司合作開發(fā)高性能儲(chǔ)能和太陽能組串式逆變器方案以實(shí)現(xiàn)可持續(xù)的未來(2)

【6.15-16日】2023第八屆中國(guó)數(shù)字供應(yīng)鏈創(chuàng)新峰會(huì),演講大咖陣容官宣(2)

LS伺服電機(jī)APM-SB02ADK(2)

Kepware 工業(yè)數(shù)據(jù)采集軟件及常見問題解答(2)

維視教育大咖年終講：打造智能制造人才培養(yǎng)體系(1)

白鶴灘水電站全部機(jī)組投產(chǎn)發(fā)電世界最大清潔能源走廊全面建成|將為建設(shè)新型能源體系、保障國(guó)家能源安全、實(shí)現(xiàn)“雙碳”目標(biāo)提供有力支撐(1)

推好細(xì)分產(chǎn)業(yè)觀察--物聯(lián)網(wǎng)：2026年中國(guó)物聯(lián)網(wǎng)市場(chǎng)規(guī)模接近3000億美元智慧工廠、智慧城市、智慧電網(wǎng)等將占60%以上(1)

加大在用計(jì)量器具、試驗(yàn)檢測(cè)設(shè)備的自動(dòng)化、數(shù)字化改造力度|市場(chǎng)監(jiān)管總局工業(yè)和信息化部關(guān)于促進(jìn)企業(yè)計(jì)量能力提升的指導(dǎo)意見(1)

全國(guó)首套自動(dòng)化虛擬電廠系統(tǒng)在深圳試運(yùn)行功能匹敵大型電廠，已入選國(guó)際典型案例(1)

自動(dòng)化科技將在鄉(xiāng)村振興工作中大有作為|《關(guān)于做好2023年全面推進(jìn)鄉(xiāng)村振興重點(diǎn)工作的意見》發(fā)布(1)

ECG-E30 邊緣計(jì)算網(wǎng)關(guān)及典型應(yīng)用場(chǎng)景 | 工業(yè)級(jí)嵌入式AI計(jì)算機(jī) ，嵌入式無風(fēng)扇工業(yè)計(jì)算機(jī)(1)

將充分調(diào)動(dòng)超級(jí)自動(dòng)化各技術(shù)領(lǐng)域?qū)＜屹Y源|中國(guó)信通院“超級(jí)自動(dòng)化平臺(tái)”標(biāo)準(zhǔn)研制工作正在進(jìn)行中(1)

自動(dòng)化網(wǎng)“創(chuàng)新自科文”欄目更名為“創(chuàng)新自化成”(1)

韓國(guó)工控自動(dòng)化-丹陽昌達(dá)電器(1)

“TWINHOW 推好”高質(zhì)量發(fā)展 2022年度細(xì)分產(chǎn)業(yè)領(lǐng)域典型應(yīng)用場(chǎng)景中的優(yōu)質(zhì)自動(dòng)化科技解決方案—“金好質(zhì)級(jí)”解決方案測(cè)評(píng)工作啟動(dòng)(0)

我要收藏
個(gè)贊

上一篇：直播預(yù)約 | 基于STM32 的CODESYS智能自動(dòng)化解決方案
下一篇：打造5G+智慧燃?xì)夥桨?邯鄲華潤(rùn)燃?xì)馐鬃悄茏詣?dòng)化廠站改造完成

相關(guān)文章

中國(guó)自動(dòng)化學(xué)會(huì)理事長(zhǎng)鄭南寧院士：具身智能是人工智能領(lǐng)域的重要方向

NVIDIA CEO 黃仁勛：“每個(gè)行業(yè)、每個(gè)公司、每個(gè)國(guó)家都需要推動(dòng)一場(chǎng)新的工業(yè)革命”

百度世界2024｜李彥宏：智能體是AI應(yīng)用的最主流形態(tài)，即將迎來爆發(fā)點(diǎn)

博世與清華大學(xué)續(xù)簽人工智能研究合作協(xié)議，共同推進(jìn)工業(yè)領(lǐng)域人工智能發(fā)展

中國(guó)寶武、河鋼集團(tuán)、中國(guó)鋼研同期發(fā)布鋼鐵行業(yè)大模型！

新質(zhì)發(fā)展智控未來——從2024中國(guó)自動(dòng)化大會(huì)看自動(dòng)化發(fā)展

IBM 專家觀點(diǎn)：AI 在制造業(yè)應(yīng)用現(xiàn)狀及發(fā)展前景展望

深圳前海黃埔基金訪問紫光華智，共探AI技術(shù)創(chuàng)新與產(chǎn)業(yè)升級(jí)之路

萬億參數(shù)模型的數(shù)據(jù)遷移挑戰(zhàn)巨大，PCIe7.0如何提升AI芯片帶寬？

愛芯元智創(chuàng)始人仇肖莘出席2024清華自動(dòng)化論壇并做主題演講

楊元慶：砥礪向上，智創(chuàng)未來｜2024聯(lián)想創(chuàng)投CEO年會(huì)

我國(guó)首個(gè)海洋油氣裝備“智能工廠”全面投產(chǎn)

我國(guó)首個(gè)海洋油氣裝備“智能工廠”全面投產(chǎn)

智能自動(dòng)化|云知聲受邀出席“第三屆上海市城市設(shè)計(jì)與城市科學(xué)重點(diǎn)實(shí)驗(yàn)室學(xué)術(shù)年會(huì)暨低碳綠色城市發(fā)展論壇”

最新要聞 | 清華大學(xué)聯(lián)合東華大學(xué)發(fā)布國(guó)內(nèi)首個(gè)纖維知識(shí)大模型

兩大人工智能產(chǎn)業(yè)中心在南沙成立！

用人工智能重新定義鋼鐵！寶武自主研發(fā)的鋼鐵行業(yè)大模型首發(fā)

喜報(bào)！道爾芬“智能機(jī)器人AI自主決策焊接系統(tǒng)研發(fā)”項(xiàng)目獲批市重點(diǎn)研發(fā)項(xiàng)目

中國(guó)電氣裝備黨委書記、董事長(zhǎng)李洪鳳赴浙江盛達(dá)、恒馳電氣、西電常變、常州東智調(diào)研

從數(shù)字孿生到自動(dòng)化分析：德國(guó)工業(yè)AI如何提升制造效率