NeurIPS 2023 | 自動(dòng)化所新作速覽!
【ZiDongHua 之自動(dòng)化學(xué)院派收錄關(guān)鍵詞: 自動(dòng)化所 機(jī)器學(xué)習(xí) 計(jì)算神經(jīng)】
NeurIPS 2023 | 自動(dòng)化所新作速覽!
導(dǎo)讀 | NeurIPS全稱(chēng)神經(jīng)信息處理系統(tǒng)大會(huì)(Conference on Neural Information Processing Systems),是機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域的頂級(jí)國(guó)際會(huì)議。本期將介紹自動(dòng)化所團(tuán)隊(duì)在NeurIPS 2023中收錄的18篇論文(排序不分先后),更多接收論文將在下一期推出!
01. 基于ODE的無(wú)模型強(qiáng)化學(xué)習(xí)方法用于POMDPs
ODE-based Recurrent Model-free Reinforcement Learning for POMDPs
作者:趙烜樂(lè),張篤振,韓立元,張鐵林,徐波
神經(jīng)常微分方程(ODEs)被廣泛認(rèn)可為建模物理機(jī)制的標(biāo)準(zhǔn),有助于在未知的物理或生物環(huán)境中進(jìn)行近似推斷。在部分可觀測(cè)的環(huán)境中,如何從原始觀察中推斷不可見(jiàn)信息是困擾智能體的一大挑戰(zhàn)。通過(guò)使用具有緊湊上下文的循環(huán)策略,基于上下文的強(qiáng)化學(xué)習(xí)提供了一種靈活的方式,從歷史轉(zhuǎn)換中提取不可觀察的信息。為了幫助智能體提取更多與動(dòng)態(tài)相關(guān)的信息,我們提出了一種新穎的基于ODE的循環(huán)模型,結(jié)合無(wú)模型強(qiáng)化學(xué)習(xí)框架,以解決部分可觀察的馬爾可夫決策過(guò)程。我們通過(guò)部分可觀察的連續(xù)控制和元強(qiáng)化學(xué)習(xí)任務(wù)實(shí)驗(yàn)證明了方法的有效性。此外,由于ODE能夠建模不規(guī)則采樣的時(shí)間序列,因此本研究提出的方法對(duì)不規(guī)則觀測(cè)具有魯棒性。
02. 脈沖驅(qū)動(dòng)Transformer
Spike-driven Transformer
作者:姚滿、胡珈魁、周昭坤、袁粒、田永鴻、徐波、李國(guó)齊
本文提出了首個(gè)脈沖驅(qū)動(dòng)Transformer(Spike-driven Transformer),整個(gè)網(wǎng)絡(luò)中只有稀疏加法。所提出的Spike-driven Transformer具有四個(gè)獨(dú)特性質(zhì):(1)事件驅(qū)動(dòng),當(dāng)Transformer的輸入為零時(shí)不觸發(fā)計(jì)算;(2)二進(jìn)制脈沖通信,所有與脈沖矩陣相關(guān)的矩陣乘法都可以轉(zhuǎn)化為稀疏加法;(3)所設(shè)計(jì)的自注意力機(jī)制在token和通道維度上都具有線性復(fù)雜度;(4)脈沖形式的Query、Key、Value矩陣之間的運(yùn)算為掩碼和加法??傊?,所提出的網(wǎng)絡(luò)中只有稀疏加法運(yùn)算。為實(shí)現(xiàn)這一目標(biāo),本文設(shè)計(jì)了一種新穎的脈沖驅(qū)動(dòng)自注意力(Spike-Driven Self-Attention, SDSA)算子,算子中僅利用掩碼和加法進(jìn)行運(yùn)算,而不進(jìn)行任何乘法,因此其能耗比原始自注意力算子低87.2倍。此外,為確保網(wǎng)絡(luò)中所有神經(jīng)元間傳遞的信號(hào)為二進(jìn)制脈沖,本文重新排列了網(wǎng)絡(luò)中所有的殘差連接。實(shí)驗(yàn)結(jié)果表明,Spike-driven Transformer在ImageNet-1K上可以達(dá)到77.1%的 top-1精度,這是SNN領(lǐng)域內(nèi)的最佳結(jié)果。
論文鏈接:
https://arxiv.org/abs/2307.01694
代碼鏈接:
https://github.com/BICLab/Spike-Driven-Transformer
03. 動(dòng)態(tài)組合模型來(lái)應(yīng)對(duì)數(shù)據(jù)分布的變化
OneNet: Enhancing Time Series Forecasting Models under Concept Drift by Online Ensembling
作者:張一帆,文青松,王雪,陳緯奇,張彰,王亮,金榕,譚鐵牛
概念漂移(concept drift)是時(shí)序數(shù)據(jù)常見(jiàn)的一個(gè)問(wèn)題,即未來(lái)的數(shù)據(jù)展現(xiàn)出不同于過(guò)去的模式。在這些情況下,從頭重新訓(xùn)練模型可能會(huì)非常耗時(shí)。因此,在線訓(xùn)練深度預(yù)測(cè)模型,通過(guò)增量更新預(yù)測(cè)模型來(lái)捕捉環(huán)境中不斷變化的動(dòng)態(tài)是非常必要的。本文提出了OneNet,其思想十分簡(jiǎn)單,采用了兩個(gè)不同的模型,一個(gè)模型專(zhuān)注于建模時(shí)間維度上的相關(guān)性,另一個(gè)模型則專(zhuān)注于建??缱兞恐g的依賴(lài)關(guān)系。這兩個(gè)模型都在訓(xùn)練過(guò)程中使用相同的訓(xùn)練數(shù)據(jù)進(jìn)行獨(dú)立訓(xùn)練。在測(cè)試時(shí),OneNet將強(qiáng)化學(xué)習(xí)方法引入傳統(tǒng)的在線凸規(guī)劃框架中,允許動(dòng)態(tài)調(diào)整權(quán)重以線性組合兩個(gè)模型。這樣,OneNet可以同時(shí)利用這兩種模型的優(yōu)勢(shì),既能處理概念漂移,又能提高預(yù)測(cè)精度。
04. 揭示分子表示學(xué)習(xí)的神經(jīng)尺度率
Uncovering Neural Scaling Laws of Molecular Representation Learning
作者:陳丁碩,朱彥樵,張介宇,杜沅豈,李志勛,劉強(qiáng),吳書(shū),王亮
近年來(lái),分子表示學(xué)習(xí)(MRL)被證實(shí)可以有效助力藥物和材料發(fā)現(xiàn)的多種下游任務(wù),例如分子虛擬篩選和逆向設(shè)計(jì)。其中,以模型設(shè)計(jì)為導(dǎo)向的研究受到研究者們的廣泛關(guān)注,但從數(shù)據(jù)的視角出發(fā),分子的數(shù)量和質(zhì)量如何影響分子表示學(xué)習(xí)還是一個(gè)開(kāi)放性的問(wèn)題。
本文我們以數(shù)據(jù)為中心的角度深入研究了MRL的神經(jīng)尺度率,其中涉及了四個(gè)關(guān)鍵維度:(1)數(shù)據(jù)模態(tài),(2)數(shù)據(jù)集分割方式,(3)預(yù)訓(xùn)練的干預(yù),以及(4)模型容量。我們的研究證實(shí)了數(shù)據(jù)量和分子表示學(xué)習(xí)性能在這些維度上均滿足冪律關(guān)系。此外,我們揭示了提高M(jìn)RL學(xué)習(xí)效率的潛在途徑。為了提高現(xiàn)有的冪律學(xué)習(xí)效率,我們將七種主流的數(shù)據(jù)修剪策略應(yīng)用于分子數(shù)據(jù)并對(duì)其性能進(jìn)行了基準(zhǔn)測(cè)試。本工作強(qiáng)調(diào)了以數(shù)據(jù)為中心探究MRL的重要性,并強(qiáng)調(diào)了未來(lái)相關(guān)研究的可能方向。
05. 圖結(jié)構(gòu)學(xué)習(xí)基準(zhǔn)庫(kù)
GSLB: The Graph Structure Learning Benchmark
作者:李志勛,王亮,孫鑫,羅逸凡,朱彥樵,陳丁碩,羅穎韜,周相鑫,劉強(qiáng),吳書(shū),王亮,Jeffrey Xu Yu
本篇論文提出了首個(gè)圖結(jié)構(gòu)學(xué)習(xí)基準(zhǔn)庫(kù)(GSLB),其包含16個(gè)圖結(jié)構(gòu)學(xué)習(xí)算法和20個(gè)常用的圖數(shù)據(jù)集。在本文中,我們從有效性,魯棒性,復(fù)雜度三個(gè)維度系統(tǒng)地研究了圖結(jié)構(gòu)學(xué)習(xí)的性質(zhì)。本文在節(jié)點(diǎn)級(jí)別和圖級(jí)別任務(wù)中全面地評(píng)估現(xiàn)有圖結(jié)構(gòu)學(xué)習(xí)方法,分析他們?cè)隰敯魧W(xué)習(xí)當(dāng)中的效果,以及對(duì)各算法的復(fù)雜度進(jìn)行了研究。并且,為了促進(jìn)可復(fù)現(xiàn)研究,我們開(kāi)發(fā)了一個(gè)易于使用的庫(kù)來(lái)對(duì)不同的圖結(jié)構(gòu)學(xué)習(xí)算法進(jìn)行訓(xùn)練、評(píng)估和可視化。我們的大量實(shí)驗(yàn)結(jié)果顯示了圖結(jié)構(gòu)學(xué)習(xí)的能力,并且解釋了其在不同場(chǎng)景的任務(wù)中的潛在優(yōu)勢(shì),為后續(xù)的研究提供了見(jiàn)解和思路。
相關(guān)鏈接:
https://github.com/GSL-Benchmark/GSLB
06. 回波超越點(diǎn)云:在多模態(tài)數(shù)據(jù)融合中釋放雷達(dá)原始數(shù)據(jù)的潛力
Echoes Beyond Points: Unleashing the Power of Raw Radar Data in Multi-modality Fusion
作者:劉洋、王峰、王乃巖、張兆翔
毫米波雷達(dá),由于其低廉的成本以及對(duì)惡劣天氣的強(qiáng)魯棒性,如今已成為自動(dòng)駕駛系統(tǒng)中必備的傳感器組件。然而,由于毫米波雷達(dá)產(chǎn)生的點(diǎn)云十分系數(shù),加之方位角和仰角分辨率較差,因此基于雷達(dá)的檢測(cè)算法性能通常表現(xiàn)不佳。此外,為了減少虛警目標(biāo),毫米波點(diǎn)云的生成算法只保留了峰值信號(hào),但這對(duì)于深度融合的使用可能是次優(yōu)的。在本文中,我們提出了一種名為 EchoFusion 的新方法來(lái)跳過(guò)現(xiàn)有的雷達(dá)信號(hào)處理流程,直接將雷達(dá)原始數(shù)據(jù)與其他傳感器相結(jié)合。具體來(lái)說(shuō),我們?cè)邙B(niǎo)瞰圖 (BEV)空間以一種新的融合范式將雷達(dá)中獲取的頻譜特征與其他傳感器融合。通過(guò)這種方法,我們的方法可以利用來(lái)自雷達(dá)回波的豐富的距離和速度信息和圖像中豐富的語(yǔ)義信息,進(jìn)而在RADIal數(shù)據(jù)集上超越了所有現(xiàn)有的方法,并達(dá)到了接近激光雷達(dá)的性能。Camera-Ready版本的論文以及代碼將很快公開(kāi)。
文章鏈接:
https://arxiv.org/pdf/2307.16532.pdf
07. SheetCopilot: 借助大語(yǔ)言模型讓軟件生產(chǎn)力更上一層樓
SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models
作者:李鴻鑫,蘇靖然,陳韞韜,李青,張兆翔
本文作者提出了一種利用語(yǔ)言模型實(shí)現(xiàn)復(fù)雜軟件操控的全新框架——SheetCopilot,并在典型辦公軟件Excel和GoogleSheets上進(jìn)行測(cè)試。本工作將表格操控的核心功能抽象為一組虛擬 API,用于生成解決方案,作為 LLM 與軟件之間交互的橋梁。為了實(shí)現(xiàn)高效閉環(huán)控制,SheetCopilot 根據(jù)表格狀態(tài)規(guī)劃每一個(gè)步驟,且借助軟件錯(cuò)誤反饋進(jìn)行回溯??紤]到語(yǔ)言模型的輸入窗口有限,每次規(guī)劃都從外置知識(shí)庫(kù)中提取候選API的文檔,既降低輸入處理用時(shí),又提升了成功率。本文還提出一個(gè)高質(zhì)量評(píng)測(cè)基準(zhǔn),涉及表格操作的幾乎所有典型任務(wù)(公式、制圖、透視表、排序篩選等)。
實(shí)驗(yàn)結(jié)果顯示,SheetCopilot僅需約10 步組合操作即可在上千行數(shù)十列的多張表格中快速完成任務(wù)。以GPT-4 為后端模型時(shí),SheetCopilot符合任務(wù)要求的解決方案占比最高且效率最優(yōu),GPT-3.5-Turbo緊隨其后,Claude最次但也接近 GPT-3.5-Turbo。與將用戶(hù)指令翻譯成晦澀的VBA 代碼并在Excel上執(zhí)行的方法對(duì)比,SheetCopilot不僅取得了出色的成功率,生成的解決方案也通俗易懂。這意味著 SheetCopilot讓不會(huì)編程的用戶(hù)能以日常交流的方式指揮計(jì)算機(jī)完成繁雜的工作。
項(xiàng)目主頁(yè):
https://sheetcopilot.github.io/
文章鏈接:
http://arxiv.org/abs/2305.19308
08. 預(yù)訓(xùn)練視覺(jué)Transformer的新方法——重建丟棄位置 (DropPos)
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions
作者:王淏辰,樊峻菘,王玉璽,宋開(kāi)友,王彤,張兆翔
視覺(jué)Transformer對(duì)輸入圖像塊的順序非常不敏感,因此亟需一種能夠增強(qiáng)視覺(jué)轉(zhuǎn)換器位置感知能力的預(yù)訓(xùn)練模式。為了解決這個(gè)問(wèn)題,我們提出了DropPos,旨在重建在模型前向過(guò)程中隨機(jī)丟棄的位置。DropPos的設(shè)計(jì)十分簡(jiǎn)單:首先,在標(biāo)準(zhǔn)的前向過(guò)程中,我們隨機(jī)丟棄大量的位置編碼;然后使模型僅根據(jù)視覺(jué)外觀,對(duì)每個(gè)圖像塊的實(shí)際位置進(jìn)行預(yù)測(cè)。該任務(wù)被建模為一個(gè)簡(jiǎn)單的分類(lèi)任務(wù)。為了避免平凡解,我們只保留了部分可見(jiàn)圖像塊,從而增加了這項(xiàng)代理任務(wù)的難度。此外,考慮到?jīng)]有必要重建視覺(jué)外觀相似的不同圖像塊的精確位置的情況,我們提出了位置平滑和注意重建策略來(lái)松弛這一分類(lèi)問(wèn)題。在廣泛的下游測(cè)試中,DropPos的表現(xiàn)優(yōu)于有監(jiān)督的預(yù)訓(xùn)練,并與最先進(jìn)的自監(jiān)督替代方法相比取得了具有競(jìng)爭(zhēng)力的結(jié)果。這表明,像 DropPos這樣顯示鼓勵(lì)空間推理能力,確實(shí)有助于提高視覺(jué)Transformer的位置感知能力。
09. 基于多模態(tài)查詢(xún)的開(kāi)放世界目標(biāo)檢測(cè)
Multi-modal Queried Object Detection in the Wild
作者:許逸凡,張夢(mèng)丹,傅朝友,陳珮?gòu)?,楊小汕,李珂,徐常?/div>
我們提出了基于多模態(tài)查詢(xún)的目標(biāo)檢測(cè)(MQ-Det),首個(gè)同時(shí)支持文本描述和視覺(jué)示例查詢(xún)的開(kāi)放世界目標(biāo)檢測(cè)器。MQ-Det是一種高效的架構(gòu)和預(yù)訓(xùn)練策略設(shè)計(jì),可以同時(shí)利用高泛化性的文本描述和高細(xì)粒度的視覺(jué)示例來(lái)對(duì)圖像中的目標(biāo)進(jìn)行查詢(xún)檢測(cè),即多模態(tài)查詢(xún)。MQ-Det將視覺(jué)示例查詢(xún)整合到現(xiàn)有的基于語(yǔ)言查詢(xún)的檢測(cè)器中,并提出了一種即插即用的門(mén)控感知器模塊來(lái)將視覺(jué)信息插入文本描述。為了解決凍結(jié)檢測(cè)器帶來(lái)的學(xué)習(xí)惰性問(wèn)題,我們提出了一種以視覺(jué)為條件的掩碼語(yǔ)言預(yù)測(cè)策略。MQ-Det的簡(jiǎn)單而有效的架構(gòu)和訓(xùn)練策略設(shè)計(jì)與目前大多數(shù)基于語(yǔ)言查詢(xún)的目標(biāo)檢測(cè)器兼容,因此具備廣泛的適用性。實(shí)驗(yàn)結(jié)果表明,多模態(tài)查詢(xún)能夠大幅度推動(dòng)開(kāi)放世界目標(biāo)檢測(cè)。例如,MQ-Det通過(guò)多模態(tài)查詢(xún)?cè)诨鶞?zhǔn)數(shù)據(jù)集LVIS上將目前最先進(jìn)的開(kāi)集檢測(cè)器GLIP提升了約7.8% AP,而無(wú)需進(jìn)行任何下游微調(diào);同時(shí),其將13個(gè)小樣本下游任務(wù)平均提高了6.3% AP。完成以上這些提升僅需要在GLIP基礎(chǔ)上進(jìn)行額外的3%的調(diào)制訓(xùn)練時(shí)間。
圖片
論文鏈接:
https://arxiv.org/abs/2305.18980
代碼鏈接:
https://github.com/YifanXu74/MQ-Det
10. 基于全局指導(dǎo)視頻解碼器的連續(xù)非自回歸視頻生成方法
GLOBER: Coherent Non-autoregressive Video Generation via GLOBal Guided Video DecodER
作者:孫銘真,王衛(wèi)寧,秦子涵,孫家輝,陳思涵,劉靜
視頻生成需要同時(shí)具備全局一致性和局部真實(shí)性。本文提出了一種新穎的非自回歸方法 GLOBER,首先生成全局特征以獲取綜合性的全局引導(dǎo),然后基于全局特征合成視頻幀以生成連貫的視頻。具體而言,我們提出了一個(gè)視頻自編碼器,其中視頻編碼器將視頻編碼成全局特征,而建立在擴(kuò)散模型上的視頻解碼器以非自回歸方式解碼全局特征并合成視頻幀。為了實(shí)現(xiàn)最大的靈活性,我們的視頻解碼器通過(guò)標(biāo)準(zhǔn)化的幀索引來(lái)解碼時(shí)間信息,從而能夠自由合成任意子視頻片段。此外,我們引入了一種新穎的對(duì)抗損失,以提高合成視頻幀之間的全局一致性和局部真實(shí)性。最后,我們采用基于擴(kuò)散的視頻生成器來(lái)擬合視頻編碼器輸出的全局特征的分布,從而執(zhí)行視頻生成任務(wù)。大量實(shí)驗(yàn)證明了我們提出的方法的有效性和高效性,且本方法在多個(gè)基準(zhǔn)數(shù)據(jù)集中取得了新的最優(yōu)性能。
圖片
相關(guān)鏈接:
http://arxiv.org/abs/2309.13274
11. 一種面向復(fù)雜時(shí)空因果關(guān)系的多模態(tài)視頻跟蹤評(píng)估基準(zhǔn)
A Multi-modal Global Instance Tracking Benchmark (MGIT): Better Locating Target in Complex Spatio-temporal and Causal Relationship
作者:胡世宇,張岱凌,武美奇,豐效坤,李旭宸,趙鑫,黃凱奇
因果推理是人類(lèi)決策中的重要能力之一,如人類(lèi)在觀看長(zhǎng)時(shí)視頻時(shí)可以準(zhǔn)確定位復(fù)雜場(chǎng)景中的目標(biāo)位置。然而,目前算法仍缺乏這種能力,現(xiàn)有跟蹤算法雖然可以在短視頻序列中持續(xù)定位目標(biāo),但在高挑戰(zhàn)性的長(zhǎng)視頻序列中卻缺乏魯棒性。為評(píng)估智能體長(zhǎng)時(shí)因果推理能力,本文構(gòu)建了一種面向復(fù)雜時(shí)空因果關(guān)系的多模態(tài)視頻跟蹤評(píng)估基準(zhǔn)MGIT,主要?jiǎng)?chuàng)新如下:(1)構(gòu)建了一個(gè)長(zhǎng)時(shí)視頻文本雙模態(tài)數(shù)據(jù)集,該數(shù)據(jù)包含150段總計(jì)203萬(wàn)幀的長(zhǎng)視頻序列,單段時(shí)長(zhǎng)為現(xiàn)有基準(zhǔn)的5-22倍;此外,每段視頻均包含一套參考人類(lèi)認(rèn)知結(jié)構(gòu)的層級(jí)化多粒度語(yǔ)義標(biāo)簽,總計(jì)7.8萬(wàn)詞。(2)設(shè)計(jì)了一套多模態(tài)跟蹤任務(wù)評(píng)測(cè)機(jī)制并對(duì)現(xiàn)有算法進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明現(xiàn)有跟蹤算法缺乏長(zhǎng)文本處理能力和模態(tài)對(duì)齊能力,無(wú)法進(jìn)行長(zhǎng)時(shí)因果推理,與人類(lèi)的跟蹤能力仍有較大差距。綜上,本工作提供了高質(zhì)量的實(shí)驗(yàn)環(huán)境和評(píng)測(cè)系統(tǒng),能幫助研究者從多模態(tài)的視角去理解視頻推理能力,并為算法的設(shè)計(jì)和評(píng)估提供支持。
圖1. 多模態(tài)單目標(biāo)跟蹤基準(zhǔn)MGIT構(gòu)建框架
12. 基于自動(dòng)分組機(jī)制的高效合作型多智能體強(qiáng)化學(xué)習(xí)
Automatic Grouping for Ef?cient Cooperative Multi-Agent Reinforcement Learning
作者:臧一凡,何金岷,李凱,傅浩波,付強(qiáng),興軍亮,程健
自然系統(tǒng)中常見(jiàn)的分組現(xiàn)象對(duì)于提高團(tuán)隊(duì)合作效率而言至關(guān)重要。本文提出一種分組學(xué)習(xí)的多智能體強(qiáng)化學(xué)習(xí)方法GoMARL,在沒(méi)有任何先驗(yàn)知識(shí)的條件下學(xué)習(xí)自動(dòng)分組來(lái)實(shí)現(xiàn)智能體之間的高效合作。不同于直接學(xué)習(xí)聯(lián)合動(dòng)作價(jià)值和個(gè)體動(dòng)作價(jià)值之間復(fù)雜關(guān)系的方法,本文以小組作為橋梁建模智能體之間的關(guān)聯(lián),通過(guò)鼓勵(lì)小組內(nèi)和小組間的配合來(lái)提高整個(gè)團(tuán)隊(duì)的工作效率。具體而言,本文將聯(lián)合動(dòng)作價(jià)值分解為小組價(jià)值的組合,指導(dǎo)智能體以更細(xì)粒度的方式改進(jìn)策略。GoMARL運(yùn)用一種自動(dòng)分組機(jī)制來(lái)生成動(dòng)態(tài)組別和相應(yīng)的小組動(dòng)作價(jià)值,并進(jìn)一步提出一種用于策略學(xué)習(xí)的分層控制,驅(qū)動(dòng)同一組中的智能體學(xué)習(xí)相似的策略,不同組的智能體學(xué)習(xí)多樣化的策略。本文在星際微操任務(wù)和谷歌足球場(chǎng)景的實(shí)驗(yàn)中驗(yàn)證了GoMARL的高效性,并通過(guò)消融實(shí)驗(yàn)和組件分析展示分組在提升算法性能方面的重要性。
13. 面向高效準(zhǔn)確Winograd卷積的全量化方法
Towards Efficient and Accurate Winograd Convolution via Full Quantization
作者:陳天奇,許偉翔,陳維漢,王培松,程健
Winograd算法是一種通過(guò)域變換來(lái)減少計(jì)算量的快速卷積實(shí)現(xiàn)。通過(guò)對(duì)Winograd卷積量化,降低其計(jì)算精度,可以進(jìn)一步加速卷積神經(jīng)網(wǎng)絡(luò),但這同樣面臨性能損失。針對(duì)這一問(wèn)題,本文通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)量化會(huì)導(dǎo)致Winograd變換過(guò)程的不一致性,并提出以輸出對(duì)齊為監(jiān)督信號(hào)對(duì)變換矩陣統(tǒng)一優(yōu)化。另外,本文首次對(duì)Winograd的域變換過(guò)程進(jìn)行全量化,并通過(guò)實(shí)驗(yàn)和理論分析發(fā)現(xiàn)量化瓶頸在于輸出變換過(guò)程。本文因此提出了一種可分解的量化系數(shù),該方法更好的兼顧了硬件友好和量化損失。
14. ZoomTrack:用于高效視覺(jué)跟蹤的目標(biāo)感知非均勻尺寸調(diào)整
ZoomTrack : Target-aware Non-uniform Resizing for Efficient Visual Tracking
作者:寇宇同,高晉,李椋,王剛,胡衛(wèi)明,王以政,李兵
最近,由于輸入尺寸更小或特征提取骨干更輕,Transformer使面向速度的跟蹤器能夠以高速接近最先進(jìn)(SOTA)的性能,盡管它們?nèi)匀淮蟠舐浜笥谙鄳?yīng)的面向性能的版本。在本文中,我們證明了在較小輸入尺寸的基礎(chǔ)上實(shí)現(xiàn)高速跟蹤的同時(shí)縮小甚至抹平這一性能差距是可能的。為此,我們非均勻地調(diào)整了裁剪圖像的大小,使其輸入尺寸更小,而目標(biāo)更可能出現(xiàn)的區(qū)域的分辨率卻更高,反之亦然。由此可以解決兩難的問(wèn)題:既要關(guān)注更大的視野,又要在較小的輸入尺寸下保留更多的目標(biāo)原始信息。我們的非均勻尺寸調(diào)整可以通過(guò)二次編程(QP)有效解決,并自然地集成到大多數(shù)基于剪裁的局部跟蹤器中。在五個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上對(duì)兩種Transformer跟蹤器(即 OSTrack 和 TransT)進(jìn)行的綜合實(shí)驗(yàn)表明,我們的方法具有一致的性能提升。特別是,將我們的方法應(yīng)用于面向速度的 OSTrack 版本,在 TNL2K 上的 AUC 甚至比面向性能的對(duì)應(yīng)版本高出 0.6%,同時(shí)運(yùn)行速度提高了 50%,節(jié)省了 55% 以上的 MAC。
15. 基于上下文物體和關(guān)系學(xué)習(xí)的3D指代目標(biāo)檢測(cè)
Exploiting Contextual Objects and Relations for 3D Visual Grounding
作者:楊力,原春鋒,張子琦,祁仲昂,許龑?zhuān)瑒?,單瀛,李兵,楊偉平,胡衛(wèi)明
3D指代目標(biāo)檢測(cè)是根據(jù)自然語(yǔ)言輸入從三維場(chǎng)景中識(shí)別出視覺(jué)目標(biāo)的任務(wù)。這項(xiàng)任務(wù)對(duì)于使機(jī)器人能夠理解并與真實(shí)環(huán)境交互起著至關(guān)重要的作用。然而,由于需要捕獲三維上下文信息才能從復(fù)雜的三維場(chǎng)景中分辨出目標(biāo)物體,這項(xiàng)任務(wù)極具挑戰(zhàn)性。同時(shí),缺乏上下文物體和關(guān)系的標(biāo)注進(jìn)一步加劇了困難。在本文中,我們提出了一種新穎的檢測(cè)模型 CORE-3DVG,通過(guò)對(duì)上下文物體和關(guān)系進(jìn)行顯式的學(xué)習(xí)來(lái)應(yīng)對(duì)這些挑戰(zhàn)。我們的方法通過(guò)三個(gè)連續(xù)的模塊化網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)3D指代目標(biāo)檢測(cè),包括一個(gè)文本引導(dǎo)的物體檢測(cè)網(wǎng)絡(luò)、一個(gè)關(guān)系匹配網(wǎng)絡(luò)和一個(gè)目標(biāo)推理網(wǎng)絡(luò)。在訓(xùn)練過(guò)程中,我們引入了偽標(biāo)簽自生成策略和弱監(jiān)督方法,以建立對(duì)無(wú)標(biāo)注的上下文物體和關(guān)系的顯式學(xué)習(xí)。所提出的技術(shù)通過(guò)對(duì)上下文物體和關(guān)系的學(xué)習(xí),使推理網(wǎng)絡(luò)能夠更好地關(guān)注到三維場(chǎng)景中所指代目標(biāo)。我們?cè)诰哂刑魬?zhàn)性的Nr3D、Sr3D和ScanRefer數(shù)據(jù)集上驗(yàn)證了我們的方法,取得了最先進(jìn)的性能。
16. Bullying10K: 一個(gè)大規(guī)模神經(jīng)形態(tài)數(shù)據(jù)集用于隱私保護(hù)的暴力識(shí)別
Bullying10K: A Large-Scale neuromorphic Dataset towards Privacy-Preserving Bullying Recognition
作者:董一廷,李楊,趙東城,申國(guó)斌,曾毅
日常生活中暴力行為的普遍性對(duì)個(gè)人的身體和精神健康構(gòu)成了重大威脅。在公共場(chǎng)所使用監(jiān)控?cái)z像頭已被證明在主動(dòng)地阻止和預(yù)防此類(lèi)事件中是有效的。但由于其廣泛部署,出現(xiàn)了關(guān)于隱私侵犯的擔(dān)憂。為了解決這個(gè)問(wèn)題,我們利用動(dòng)態(tài)視覺(jué)傳感器(DVS)攝像頭來(lái)檢測(cè)暴力事件并保護(hù)隱私,因?yàn)樗蹲较袼亓炼鹊淖兓皇庆o態(tài)圖像。我們構(gòu)建了Bullying10K數(shù)據(jù)集,包括來(lái)自現(xiàn)實(shí)生活場(chǎng)景的各種動(dòng)作、復(fù)雜的運(yùn)動(dòng)和遮擋。它為評(píng)估不同任務(wù)提供了三個(gè)基準(zhǔn):動(dòng)作識(shí)別、時(shí)間動(dòng)作定位和姿態(tài)估計(jì)。Bullying10K通過(guò)提供10,000個(gè)事件段,總共120億次事件和255GB的數(shù)據(jù),平衡了暴力檢測(cè)和個(gè)人隱私的保護(hù),并對(duì)神經(jīng)形態(tài)數(shù)據(jù)集提出了挑戰(zhàn),將成為訓(xùn)練和開(kāi)發(fā)保護(hù)隱私的視頻系統(tǒng)的寶貴資源。Bullying10K為這些領(lǐng)域的創(chuàng)新方法開(kāi)辟了新的可能性。
17. ALIM: 針對(duì)噪聲部分標(biāo)簽學(xué)習(xí)調(diào)整標(biāo)簽重要性機(jī)制
ALIM: Adjusting Label Importance Mechanism for Noisy Partial Label Learning
作者:徐名宇,連政,馮磊,劉斌,陶建華
噪聲部分標(biāo)簽學(xué)習(xí)(噪聲PLL)是弱監(jiān)督學(xué)習(xí)的一個(gè)重要分支。與 PLL 中的真實(shí)標(biāo)簽必須隱藏在候選標(biāo)簽集中不同,噪聲 PLL 放寬了這一限制,并允許真實(shí)標(biāo)簽可能不在候選標(biāo)簽集中。為了解決這個(gè)具有挑戰(zhàn)性的問(wèn)題,大多數(shù)現(xiàn)有工作嘗試檢測(cè)噪聲樣本并估計(jì)每個(gè)噪聲樣本的真實(shí)標(biāo)簽。然而,檢測(cè)錯(cuò)誤是不可避免的。這些錯(cuò)誤會(huì)在訓(xùn)練過(guò)程中累積并持續(xù)影響模型優(yōu)化。為此,我們提出了一種具有理論解釋的噪聲 PLL 的新穎框架,稱(chēng)為“調(diào)整標(biāo)簽重要性機(jī)制(ALIM)”。它的目的是通過(guò)權(quán)衡初始候選集和模型輸出來(lái)減少檢測(cè)錯(cuò)誤的負(fù)面影響。ALIM 是一種插件策略,可以與現(xiàn)有 PLL 方法集成。多個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們的方法可以在噪聲 PLL 上實(shí)現(xiàn)最先進(jìn)的性能。
18.VRA:針對(duì)分布外檢測(cè)的變分修飾激活方法
VRA: Variational Rectified Activation for Out-of-distribution Detection
作者:徐名宇,連政,劉斌,陶建華
分布外 (OOD) 檢測(cè)對(duì)于在開(kāi)放世界中構(gòu)建可靠的機(jī)器學(xué)習(xí)系統(tǒng)至關(guān)重要。研究人員提出了各種策略來(lái)減少模型對(duì) OOD 數(shù)據(jù)的過(guò)度自信。其中,ReAct是處理模型過(guò)度自信的典型且有效的技術(shù),它截?cái)喔呒せ钜栽黾臃植純?nèi)和OOD之間的差距。盡管其結(jié)果很有希望,但這種技術(shù)是最好的選擇嗎?為了回答這個(gè)問(wèn)題,我們利用變分方法來(lái)尋找最優(yōu)操作,并驗(yàn)證了 OOD 檢測(cè)中抑制異常低和高激活以及放大中間激活的必要性,而不是像 ReAct 那樣只關(guān)注高激活。這促使我們提出一種名為“變分修飾激活(VRA)”的新技術(shù),該技術(shù)使用分段函數(shù)模擬這些抑制和放大操作。多個(gè)基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,我們的方法優(yōu)于現(xiàn)有的事后策略。同時(shí),VRA兼容不同的評(píng)分函數(shù)和網(wǎng)絡(luò)架構(gòu)。
歡迎后臺(tái)留言、推薦您感興趣的話題、內(nèi)容或資訊!
如需轉(zhuǎn)載或投稿,請(qǐng)后臺(tái)私信。
咨詢(xún)?cè)斍椋?/strong>如需咨詢(xún)文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:機(jī)器學(xué)習(xí)微信群、計(jì)算神經(jīng)微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂(lè)液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
微信聯(lián)盟:機(jī)器學(xué)習(xí)微信群、計(jì)算神經(jīng)微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂(lè)液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
我要收藏
個(gè)贊
評(píng)論排行