【ZiDongHua 之駕駛自動(dòng)化收錄關(guān)鍵詞:中國科學(xué)院自動(dòng)化研究所 計(jì)算機(jī)視覺 自動(dòng)駕駛
  
  ECCV 2024 | 自動(dòng)化所新作速覽
  
  ECCV(European Conference on Computer Vision,歐洲計(jì)算機(jī)視覺會(huì)議)是全球計(jì)算機(jī)視覺領(lǐng)域的三大頂級會(huì)議之一。日前,ECCV 2024 在意大利米蘭召開。自動(dòng)化所多篇論文被本屆大會(huì)錄用,其中2篇論文入選Award Candidate(全球共15篇論文)。
  
  Award Candidate入選名單
  
  1. 整數(shù)訓(xùn)練脈沖推理的高精度低能耗目標(biāo)檢測脈沖神經(jīng)網(wǎng)絡(luò)
  
  Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection
  
  論文作者:羅昕昊,姚滿,侴雨宏,徐波,李國齊
  
  ★ 本研究入選Award Candidate
  
  SNN領(lǐng)域長久存在且難以克服的一個(gè)問題是如何在大規(guī)模復(fù)雜的檢測任務(wù)上取得具有競爭力的性能。該研究提出的SpikeYOLO極大地彌合SNN和ANN在目標(biāo)檢測任務(wù)上的性能差距,主要包括兩點(diǎn)貢獻(xiàn):
  
  首先,網(wǎng)絡(luò)架構(gòu)方面,該研究將 YOLOv8 的宏觀設(shè)計(jì)和 Meta-SpikeFormer 的微觀設(shè)計(jì)相結(jié)合,以避免過于復(fù)雜的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)導(dǎo)致脈沖退化(圖1)。第二,脈沖神經(jīng)元方面,提出一種新型脈沖神經(jīng)元,采用整數(shù)訓(xùn)練和脈沖驅(qū)動(dòng)推理,在有效降低脈沖神經(jīng)元量化誤差的同時(shí)保證脈沖驅(qū)動(dòng)計(jì)算特性(圖2)。實(shí)驗(yàn)結(jié)果表明,該方法在保證低功耗的同時(shí),能夠大幅提升任務(wù)性能。在靜態(tài)數(shù)據(jù)集COCO上,SpikeYOLO的mAP達(dá)到了48.9%,比當(dāng)前SNN領(lǐng)域SOTA結(jié)果高出18.7%。在神經(jīng)形態(tài)數(shù)據(jù)集Gen1上,SpikeYOLO和同架構(gòu)的ANN網(wǎng)絡(luò)相比,mAP提高了2.7%,且能效提升5.7倍。
  
  本研究展現(xiàn)了SNN在超低功耗邊緣視覺端的廣闊應(yīng)用前景。目前,研究團(tuán)隊(duì)在進(jìn)行SNN在更多典型邊緣視覺場景中應(yīng)用研究的同時(shí),開展了通用SNN架構(gòu)的硬件仿真及設(shè)計(jì)工作。這一工作在算法層面挖掘了SNN在性能/能效上的潛力,證明SNN在未來有能力實(shí)現(xiàn)對現(xiàn)有人工神經(jīng)網(wǎng)絡(luò)的低功耗替代,對于下一代神經(jīng)形態(tài)算法/芯片的發(fā)展有著重要指導(dǎo)意義。
 
  
  圖1. SpikeYOLO架構(gòu)設(shè)計(jì)
  
  2. 擴(kuò)展場景圖邊界:通過視覺概念對齊和保持實(shí)現(xiàn)完全開放詞匯的場景圖生成
  
  Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention
  
  論文作者:陳祖耀,吳錦林,雷震,張兆翔,陳長汶
  
  ★ 本研究入選Award Candidate
  
  我們在這篇文章中探討了如何應(yīng)對場景圖生成(SGG)任務(wù)在開放詞匯環(huán)境下的挑戰(zhàn)。傳統(tǒng)的 SGG 模型通常只能夠識別預(yù)先定義的對象和關(guān)系類別,這在實(shí)際應(yīng)用中限制了模型的泛化能力,尤其是在面對未見過的對象和關(guān)系時(shí)。因此,我們提出了一個(gè)名為 OvSGTR 的框架,旨在解決這些問題。
  
  OvSGTR 框架采用端到端的 Transformer 架構(gòu),通過視覺-概念對齊技術(shù),使得模型能夠識別未見過的對象和關(guān)系。我們特別針對關(guān)系識別的難題,設(shè)計(jì)了基于圖像-字幕數(shù)據(jù)的弱監(jiān)督關(guān)系預(yù)訓(xùn)練,并通過知識蒸餾技術(shù)防止模型在引入新數(shù)據(jù)時(shí)遺忘之前學(xué)到的信息。此外,我們提出了四種場景圖生成設(shè)置,涵蓋了從封閉集到完全開放詞匯的不同場景。
  
  實(shí)驗(yàn)結(jié)果驗(yàn)證了我們方法的有效性。在Visual Genome數(shù)據(jù)集上的測試顯示,OvSGTR在處理未見對象和關(guān)系類別時(shí)表現(xiàn)顯著優(yōu)于現(xiàn)有模型。這項(xiàng)研究不僅擴(kuò)展了場景圖生成的應(yīng)用邊界,還為未來在開放詞匯環(huán)境下的視覺概念對齊和生成任務(wù)提供了新的思路。
  
  3. WPS-SAM: 基于視覺基礎(chǔ)模型的弱監(jiān)督部件分割
  
  WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models
  
  論文作者:吳鑫健,張瑞松,覃杰,馬時(shí)杰,劉成林
  
  為了克服部件級分割任務(wù)中細(xì)粒度標(biāo)注不足的問題,我們提出了一種新穎的弱監(jiān)督部件分割方法,僅依賴部件的邊界框或中心點(diǎn)形式的弱標(biāo)簽,實(shí)現(xiàn)高質(zhì)量的像素級分割,顯著減少了對高成本像素級標(biāo)注的依賴。為了達(dá)到這一目的,我們深入挖掘了預(yù)訓(xùn)練視覺基礎(chǔ)模型 SAM 的零樣本泛化能力,設(shè)計(jì)了一個(gè)端到端的弱監(jiān)督部件分割框架,在訓(xùn)練過程中凍結(jié)來自預(yù)訓(xùn)練 SAM 的部分參數(shù)模塊,并引入基于輕量級查詢式 Transformer 架構(gòu)的學(xué)生提示模塊,進(jìn)一步增強(qiáng)了模型在弱標(biāo)簽條件下的分割性能。該框架不僅減輕了標(biāo)注負(fù)擔(dān),還在更細(xì)細(xì)粒度的分割任務(wù)上取得了領(lǐng)先的性能,展示了該方法在實(shí)際應(yīng)用中的強(qiáng)大潛力。
  
  4. PILoRA:原型引導(dǎo)增量式LoRA的聯(lián)邦類別增量學(xué)習(xí)
  
  PILoRA: Prototype Guided Incremental LoRA for Federated Class-Incremental Learning
  
  論文作者:郭海洋,朱飛,劉文卓,張煦堯,劉成林
  
  現(xiàn)有的聯(lián)邦學(xué)習(xí)方法已經(jīng)有效地處理了涉及數(shù)據(jù)隱私和非獨(dú)立同分布(non-IID)數(shù)據(jù)的去中心化學(xué)習(xí)場景。然而,在實(shí)際應(yīng)用中,每個(gè)客戶端動(dòng)態(tài)地學(xué)習(xí)新類別,這要求全局模型能夠?qū)λ幸岩婎悇e進(jìn)行分類。為了在低通信成本下有效緩解災(zāi)難性遺忘和數(shù)據(jù)異質(zhì)性,我們提出了一種簡單而有效的方法,命名為PILoRA。一方面,我們采用原型學(xué)習(xí)來獲得更好的特征表示,并利用原型與類別特征之間的啟發(fā)式信息設(shè)計(jì)了一個(gè)原型重標(biāo)定模塊,以解決數(shù)據(jù)異質(zhì)性導(dǎo)致的分類器偏差,而無需重新訓(xùn)練分類器。另一方面,我們將增量學(xué)習(xí)視為學(xué)習(xí)不同任務(wù)向量的過程,并將它們編碼到不同的LoRA參數(shù)中。因此,我們提出了增量LoRA來緩解災(zāi)難性遺忘。在CIFAR100和Tinyimagenet上的實(shí)驗(yàn)結(jié)果表明,我們的方法顯著優(yōu)于當(dāng)前最先進(jìn)的方法。更重要的是,我們的方法在不同設(shè)置和數(shù)據(jù)異質(zhì)性程度下展現(xiàn)了強(qiáng)大的魯棒性和優(yōu)越性。
  
  PILORA框架示意圖
  
  5. 生成式端到端自動(dòng)駕駛
  
  GenAD: Generative End-to-End Autonomous Driving
  
  論文作者:鄭文釗,宋瑞琦,國顯達(dá),張宸鳴,陳龍
  
  在本文中,探討了一種新的端到端自動(dòng)駕駛范式,其關(guān)鍵在于預(yù)測給定過去場景時(shí)自車輛和周圍環(huán)境如何演變。本文提出了GenAD,一個(gè)生成式框架,將自動(dòng)駕駛轉(zhuǎn)化為一個(gè)生成式建模問題。文章提出了一種以實(shí)例為中心的場景標(biāo)記器,首先將周圍場景轉(zhuǎn)換為地圖感知的實(shí)例標(biāo)記。然后,作者使用變分自編碼器在結(jié)構(gòu)化潛在空間中學(xué)習(xí)未來軌跡分布,用于軌跡先驗(yàn)建模。進(jìn)一步采用時(shí)間模型來在潛在空間中捕捉代理和自車運(yùn)動(dòng),以生成更有效的未來軌跡。GenAD最終通過在學(xué)習(xí)的結(jié)構(gòu)化潛在空間中根據(jù)實(shí)例標(biāo)記條件采樣分布,并使用學(xué)習(xí)到的時(shí)間模型生成未來,同時(shí)進(jìn)行運(yùn)動(dòng)預(yù)測和規(guī)劃。在廣泛使用的nuScenes基準(zhǔn)上的大量實(shí)驗(yàn)表明,所提出的GenAD在以視覺為中心的端到端自動(dòng)駕駛方面取得了SOTA性能,并且具有高效率。
  
  6. 通過提示提升無參考圖像質(zhì)量評估性能和泛化性
  
  PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts
  
  論文作者:陳澤文,覃海納,王雋,原春鋒,李兵,胡衛(wèi)明,王亮
  
  由于圖像質(zhì)量評估(IQA)任務(wù)在不同應(yīng)用場景中評估需求的多樣性,現(xiàn)有的IQA方法在訓(xùn)練后難以直接適應(yīng)這些多樣化的需求。因此,當(dāng)面對新的需求時(shí),典型的做法是對這些模型在專門為這些需求創(chuàng)建的數(shù)據(jù)集上進(jìn)行微調(diào)。然而,構(gòu)建IQA數(shù)據(jù)集是非常耗時(shí)的。在本研究中,我們提出了一種基于提示的IQA方法(PromptIQA),它在訓(xùn)練后可以直接適應(yīng)新的需求,而無需進(jìn)行微調(diào)。一方面,PromptIQA利用一小段圖像-評分對(ISP)作為提示進(jìn)行有針對性的預(yù)測,這顯著減少了對數(shù)據(jù)要求的依賴性。另一方面,PromptIQA在混合數(shù)據(jù)集上進(jìn)行訓(xùn)練,并提出了兩種數(shù)據(jù)增強(qiáng)策略來學(xué)習(xí)多樣化的需求,從而使其能夠有效地適應(yīng)新的需求。實(shí)驗(yàn)表明,PromptIQA在性能和泛化能力方面均優(yōu)于現(xiàn)有的最先進(jìn)方法(SOTA)。
  
  7. 事件感知的視頻文本檢索
  
  EA-VTR: Event-Aware Video-Text Retrieval
  
  論文作者:馬宗揚(yáng),張子琦,陳禹昕,祁忠昂,原春鋒,李兵,駱穎民,李旭,齊曉娟,單瀛,胡衛(wèi)明
  
  理解視頻中發(fā)生的事件內(nèi)容及其內(nèi)在的時(shí)序邏輯對于視頻文本檢索十分重要。然而,網(wǎng)絡(luò)爬取的預(yù)訓(xùn)練數(shù)據(jù)集通常缺乏足夠的事件信息,而廣泛采用的視頻級跨模態(tài)對比學(xué)習(xí)也難以捕捉詳細(xì)而復(fù)雜的視頻文本事件對齊。為此,我們從數(shù)據(jù)和模型兩方面入手進(jìn)行改進(jìn)。在預(yù)訓(xùn)練數(shù)據(jù)方面,我們提出了事件增強(qiáng)策略來補(bǔ)充缺失的特定事件內(nèi)容和事件時(shí)序轉(zhuǎn)場變化?;谑录鰪?qiáng)后的訓(xùn)練數(shù)據(jù),我們構(gòu)建了新的事件感知視頻文本檢索模型,它可以同時(shí)高效地編碼幀級和視頻級視覺表征,從而實(shí)現(xiàn)詳細(xì)的事件內(nèi)容和復(fù)雜的事件時(shí)序跨模態(tài)對齊,最終獲得對視頻事件的全面理解。結(jié)果表明,我們的方法不僅在視頻文本檢索和行為識別任務(wù)的多個(gè)數(shù)據(jù)集上優(yōu)于現(xiàn)有方法,而且在多事件視頻文本檢索和視頻時(shí)刻檢索任務(wù)上表現(xiàn)出卓越的事件內(nèi)容感知能力,并在時(shí)間測試任務(wù)上表現(xiàn)出更好的事件時(shí)序理解能力。
  
  事件內(nèi)容增強(qiáng)(a)和事件時(shí)序增強(qiáng)(b)用于補(bǔ)充預(yù)訓(xùn)練數(shù)據(jù)集中的事件信息。事件內(nèi)容學(xué)習(xí)(c)和事件時(shí)間學(xué)習(xí)(d)從增強(qiáng)后的數(shù)據(jù)中學(xué)習(xí)跨模態(tài)事件信息對齊。
  
  8. LASS3D: 基于語言輔助和漸進(jìn)式不可靠點(diǎn)挖掘的半監(jiān)督3D語義分割
  
  LASS3D: Language-Assisted Semi-Supervised 3D Semantic Segmentation with Progressive Unreliable Data Exploitation
  
  論文作者:李嘉楠,董秋雷
  
  對大規(guī)模3D數(shù)據(jù)集進(jìn)行精細(xì)標(biāo)注以進(jìn)行點(diǎn)云分割會(huì)耗費(fèi)大量的時(shí)間和人工成本。為了減輕注釋負(fù)擔(dān),研究者們開始探索半監(jiān)督3D分割方法。然而,現(xiàn)有的方法中仍面臨著如下兩個(gè)問題:
  
  1) 大型語言視覺模型如何應(yīng)用在半監(jiān)督3D語義分割任務(wù)中。
  
  2) 如何有效利用預(yù)測置信度較低的無標(biāo)簽點(diǎn)(不可靠點(diǎn))。
  
  基于這兩個(gè)問題,我們提出了一種名為LASS3D的語言輔助半監(jiān)督3D語義分割方法,該方法建立在常用的MeanTacher框架之上。在LASS3D中,已有的視覺語言模型被用于生成多級字幕,圖像被作為連接文本數(shù)據(jù)和點(diǎn)云的橋梁來構(gòu)建點(diǎn)云-文本對。在學(xué)生分支中,語義感知的自適應(yīng)融合模塊將文本編碼的語義信息注入到3D特征中,然后通過知識蒸餾將經(jīng)文本增強(qiáng)后的3D特征中的語義信息傳遞給教師分支。此外,針對教師分支中的不可靠點(diǎn),漸進(jìn)式開發(fā)策略通過負(fù)標(biāo)簽學(xué)習(xí)有效地挖掘不可靠點(diǎn)中包含的信息。在室外和室內(nèi)的公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,LASS3D在大多數(shù)情況下都優(yōu)于九種主流對比方法。
  
  LASS3D結(jié)構(gòu)示意圖
  
  9. 步態(tài)識別的新型關(guān)系描述符
  
  Free Lunch for Gait Recognition: A Novel Relation Descriptor
  
  論文作者:王繼隆,侯賽輝,黃巖,曹春水,劉旭,黃永幀,張?zhí)熘?,王?/div>
  
  這篇文章提出了一種新的步態(tài)識別表征,名為“關(guān)系描述符”。傳統(tǒng)的步態(tài)識別方法通常依賴于提取個(gè)體特征,而忽略了個(gè)體之間的“關(guān)系”特征。作者提出了一種新穎的方式,通過重新利用分類器權(quán)重作為步態(tài)錨點(diǎn),構(gòu)建出相似度分布,使得步態(tài)特征在分類器權(quán)重的幫助下更具魯棒性和泛化能力。然而,直接使用關(guān)系描述符會(huì)導(dǎo)致維度擴(kuò)展問題,因?yàn)槊枋龇木S度取決于訓(xùn)練集的身份數(shù)量。為了解決這一問題,作者提出了最遠(yuǎn)步態(tài)錨點(diǎn)選擇算法,選擇最具區(qū)分性的步態(tài)錨點(diǎn),并采用正交正則化損失增加錨點(diǎn)間的多樣性。
  
  實(shí)驗(yàn)結(jié)果表明,該方法在GREW、Gait3D等五個(gè)數(shù)據(jù)集上超越了現(xiàn)有方法,幾乎無需增加額外成本,提升了步態(tài)識別的精度和效率??偟膩碚f,該工作為步態(tài)識別領(lǐng)域提供了一種新的視角,即通過步態(tài)特征之間的關(guān)系來表征個(gè)體的步態(tài),從而提高識別性能。
  
  10. OneTrack:解明端到端3D追蹤器中檢測與追蹤任務(wù)沖突的本質(zhì)
  
  OneTrack: Demystifying the Conflict Between Detection and Tracking in End-to-End 3D Trackers
  
  論文作者:王啟泰,何嘉偉,陳韞韜,張兆翔
  
  本文提出了一種解決視覺3D感知中端到端多目標(biāo)追蹤器在檢測任務(wù)中性能退化的方法?,F(xiàn)有研究趨于在統(tǒng)一模型中同時(shí)完成端到端的多目標(biāo)檢測和追蹤,但這種共同優(yōu)化往往導(dǎo)致模型檢測能力相對于單純檢測器的大幅下滑。此前,這一問題常被模糊地歸因于不同任務(wù)需求的目標(biāo)特征不兼容,而缺乏明確解釋。我們發(fā)現(xiàn),檢測和追蹤任務(wù)的沖突源于正樣本分配的部分差異,導(dǎo)致兩任務(wù)優(yōu)化過程中的分類梯度部分矛盾。
  
  基于此觀察,我們通過部分裁剪在兩任務(wù)中具有相反樣本正負(fù)性的目標(biāo)樣本的梯度以修復(fù)了兩任務(wù)在優(yōu)化過程中的沖突。提出的OneTrack方法基于完全統(tǒng)一的檢測/追蹤物體特征表示,在其檢測性能等同于單純檢測器的同時(shí),其多目標(biāo)追蹤性能大幅超越前有工作。
  
  11. 可擴(kuò)展室內(nèi)場景的單目占用預(yù)測
  
  Monocular Occupancy Prediction for Scalable Indoor Scenes
  
  論文作者:于泓瀟,王宇琪,陳韞韜,張兆翔
  
  基于攝像頭的3D占用預(yù)測最近在戶外駕駛場景中引起了越來越多的關(guān)注。然而,室內(nèi)場景的研究仍然相對未被探索。室內(nèi)場景的核心差異在于場景尺度的復(fù)雜性和對象大小的差異。本文提出了一種新的方法,稱為ISO,用于使用單目圖像預(yù)測室內(nèi)場景占用率。ISO利用預(yù)訓(xùn)練深度模型的優(yōu)點(diǎn)來實(shí)現(xiàn)精確的深度預(yù)測。此外,我們在ISO中引入了雙特征視線投影(D-FLoSP)模塊,該模塊增強(qiáng)了3D體素特征的學(xué)習(xí)。為了促進(jìn)該領(lǐng)域的進(jìn)一步研究,我們引入了Occ-ScanNet,這是一個(gè)用于室內(nèi)場景的大規(guī)模占用基準(zhǔn)。其數(shù)據(jù)集大小是NYUv2數(shù)據(jù)集的40倍,有助于未來室內(nèi)場景分析的可擴(kuò)展研究。在NYUv2和Occ-ScanNet上的實(shí)驗(yàn)結(jié)果表明,我們的方法達(dá)到了最先進(jìn)的性能。
 
  12. CityGaussian: 基于3DGS的大規(guī)模場景高質(zhì)量重建與實(shí)時(shí)渲染
  
  CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians
  
  論文作者:劉洋,關(guān)赫,羅傳琛,范略,王乃巖,彭君然,張兆翔
  
  大規(guī)模場景(十萬平米到千萬平米面積范圍的區(qū)域)的高質(zhì)量重建與實(shí)時(shí)渲染具有重要價(jià)值。然而,由于場景覆蓋范圍很大,場景結(jié)構(gòu)多樣且復(fù)雜,要進(jìn)行精準(zhǔn)重建難度高、時(shí)間長;豐富的細(xì)節(jié)和信息意味著大體量的表征模型,也給存儲(chǔ)與顯存開銷及實(shí)時(shí)性帶來挑戰(zhàn)。為了解決上述問題,我們提出了CityGaussian,在訓(xùn)練和渲染管線兩個(gè)方面進(jìn)行了針對性的創(chuàng)新與改進(jìn)。
  
  訓(xùn)練管線?;诜种嗡枷?,將高斯基元與數(shù)據(jù)劃分為不同的子塊,這些子塊被分配到不同的GPU并行訓(xùn)練,并在訓(xùn)練完成后進(jìn)行綜合。這一方式降低單GPU的訓(xùn)練負(fù)擔(dān)同時(shí)提升總體效率。
  
  渲染管線。3DGS以其優(yōu)越的實(shí)時(shí)性著稱,但其在大場景上遇到的速度挑戰(zhàn)卻并未得到充分認(rèn)知。由于渲染流程中最為耗時(shí)的環(huán)節(jié)涉及對高斯點(diǎn)按深度排序,當(dāng)總數(shù)超過10M時(shí),排序過程將消耗大量時(shí)間,致使3DGS失去實(shí)時(shí)性。為此,我們引入多細(xì)節(jié)層次技術(shù)(Level of Detail, LoD),只加載視錐范圍內(nèi)所需細(xì)節(jié)層級的高斯點(diǎn)進(jìn)行渲染。
  
  多個(gè)數(shù)據(jù)集上的測試表明,該方法在各個(gè)指標(biāo)上取得了SOTA的性能結(jié)果(圖3)。此外,渲染管線也保證了在不同的相機(jī)高度下都能獲得實(shí)時(shí)且絲滑的大規(guī)模場景游覽體驗(yàn)。
 
  13. 單樣本高保真說話人生成神經(jīng)輻射場
  
  S3D-NeRF:Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis
  
  論文作者:李東澤,趙康,王偉,馬一豐,彭勃,張迎亞,董晶
  
  單樣本說話人建模范式具有方便快捷,泛化能力強(qiáng)的特點(diǎn)。而基于神經(jīng)輻射場的說話人建模范式具有生成質(zhì)量高,姿態(tài)可控的特點(diǎn)。本工作結(jié)合了兩者的優(yōu)勢,提出了一種單樣本高保真說話人生成神經(jīng)輻射場,只需一張?jiān)慈四樢约耙欢悟?qū)動(dòng)音頻即可以生成一段高質(zhì)量的說話人視頻。為了充分提取源圖像的紋理特征和結(jié)構(gòu)特征,本工作使用了特征金字塔結(jié)構(gòu)來建模不同層次由粗到細(xì)的視覺信息。為了準(zhǔn)確的建模音頻到口型的映射,本工作使用了基于交叉注意力的跨模態(tài)偏移量預(yù)測模塊來建模受音頻信號影響的人臉區(qū)域。進(jìn)而提升音頻信號驅(qū)動(dòng)的說話人生成的真實(shí)性。
  
  本工作算法流程圖
  
  14. 基于穩(wěn)定內(nèi)存回放的異常值感知測試時(shí)自適應(yīng)
  
  Outlier-Aware Test-Time Adaptation with Stable Memory Replay
  
  論文作者:余永燦,生力軍,赫然,梁堅(jiān)
  
  測試時(shí)自適應(yīng)(TTA)旨在解決在測試時(shí)只有未標(biāo)記數(shù)據(jù)的情況下訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間的分布偏移問題。現(xiàn)有的 TTA 方法通常側(cè)重于提高與訓(xùn)練集中的類別相關(guān)的測試數(shù)據(jù)的識別性能。然而,在開放世界推理過程中,不可避免地存在來自未知類別的測試數(shù)據(jù)實(shí)例,通常稱為異常值。本文關(guān)注在異常值存在的情況下,在推理過程中進(jìn)行樣本識別和異常值拒絕的問題。為了解決這個(gè)問題,我們提出了一種基于穩(wěn)定內(nèi)存回放的新方法,它對可靠的內(nèi)存樣本而不是有風(fēng)險(xiǎn)的當(dāng)前批次進(jìn)行優(yōu)化。具體而言,我們以類平衡的方式選擇低熵和標(biāo)簽一致的樣本來動(dòng)態(tài)更新內(nèi)存,存儲(chǔ)更加可靠的樣本。此外,我們開發(fā)了一種自加權(quán)熵最小化策略,在優(yōu)化過程中為低熵樣本分配更高的權(quán)重。
  
  大量結(jié)果表明,我們的方法在識別和異常值檢測性能方面均優(yōu)于現(xiàn)有的 TTA 方法。
 
  15. Griffon:基于多模態(tài)大模型的任意粒度目標(biāo)定位
  
  Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models
  
  論文作者:詹宇飛,朱優(yōu)松,陳志揚(yáng),楊帆,唐明,王金橋
  
  模擬人類天生具有的基于任意形式和任意粒度文本定位所有物體的能力對于圖文大模型來說依然是一個(gè)巨大的挑戰(zhàn)。目前的圖文大模型僅能定位單個(gè)且確定存在的物體。這一局限性帶來了模型設(shè)計(jì)上的妥協(xié),必須引入視覺專家模型或特定的結(jié)構(gòu)。為突破這些限制,我們的研究揭示了圖文大模型在基礎(chǔ)物體感知方面的能力,使其能夠準(zhǔn)確識別和定位感興趣的物體?;谶@一發(fā)現(xiàn),我們提出了一種全新的語言提示定位數(shù)據(jù)集,旨在充分釋放圖文大模型在細(xì)粒度物體感知和精準(zhǔn)定位方面的能力。更重要的是,我們提出了Griffon,一個(gè)完全基于大語言模型的基準(zhǔn)模型。Griffon沒有引入任何特殊占位符、專家模型或額外的檢測模塊,而是通過在各種定位相關(guān)場景中實(shí)現(xiàn)統(tǒng)一表示,并通過精心設(shè)計(jì)的流程進(jìn)行端到端訓(xùn)練,從而保持了與常用圖文大模型一致的結(jié)構(gòu)。詳細(xì)的實(shí)驗(yàn)表明,Griffon不僅在細(xì)粒度的RefCOCO系列和Flickr30K Entities上達(dá)到了最好的性能水平,而且在檢測任務(wù)MSCOCO上接近專家模型Faster RCNN的能力。
 
  16. 大語言模型作為副駕駛的粗粒度視覺語言導(dǎo)航
  
  LLM as Copilot for Coarse-grained Vision-and-Language Navigation
  
  論文作者:喬滟媛,劉千一,劉家俊,劉靜,吳琦
  
  視覺語言導(dǎo)航 (Vision-and-Language Navigation, VLN) 是指通過人類提供的文本指令,引導(dǎo)智能體在室內(nèi)環(huán)境中完成導(dǎo)航任務(wù)。粗粒度視覺語言導(dǎo)航 (Coarse-grained VLN)采用簡短且抽象的高層次指令,因其更貼近現(xiàn)實(shí)世界的應(yīng)用場景而逐漸受到廣泛關(guān)注。然而,這類簡潔指令也帶來了一個(gè)顯著挑戰(zhàn),即智能體通常難以充分理解并做出合理決策。盡管已有研究探索了智能體在導(dǎo)航過程中尋求幫助的機(jī)制,但通常依賴于預(yù)定義的數(shù)據(jù)集或模擬器,難以靈活適應(yīng)復(fù)雜多變的環(huán)境。大語言模型 (Large Language Models, LLMs) 的出現(xiàn)為這一問題提供了全新的解決方案。本文提出了VLN-Copilot框架,其核心特性在于:當(dāng)智能體在決策過程中遇到困惑時(shí),能夠主動(dòng)檢測并發(fā)起求助請求,而非被動(dòng)依賴預(yù)設(shè)條件。LLM則作為“副駕駛”,根據(jù)實(shí)時(shí)環(huán)境輔助導(dǎo)航。本方法通過引入困惑度機(jī)制,量化智能體在決策過程中的不確定性,以決定何時(shí)請求幫助,并通過LLM提供實(shí)時(shí)詳盡的導(dǎo)航指導(dǎo)?;趦蓚€(gè)粗粒度VLN數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。
  
  VLN-Copilot方法概覽:在每個(gè)時(shí)間步,智能體會(huì)對當(dāng)前視圖中的候選點(diǎn)預(yù)測概率值,并計(jì)算困惑度以決定是否向LLM尋求幫助。當(dāng)困惑度超過閾值時(shí),智能體會(huì)向LLM求助,并提供環(huán)境信息幫助LLM進(jìn)行感知。LLM返回指導(dǎo)信息以輔助智能體決策。
  
  17. CoReS:推理和分割協(xié)奏共舞
  
  CoReS: Orchestrating the Dance of Reasoning and Segmentation
  
  論文作者:包笑一,孫思洋,馬帥磊,鄭可成,郭雨欣,趙國盛,鄭赟,王欣剛
  
  推理分割任務(wù)要求對復(fù)雜的查詢進(jìn)行細(xì)致的理解,以準(zhǔn)確定位目標(biāo)區(qū)域,因此越來越受到關(guān)注。然而,多模態(tài)大型語言模型(MLLM)往往難以準(zhǔn)確定位復(fù)雜推理語境中描述的對象。我們認(rèn)為,推理分割的過程應(yīng)該模仿人類視覺搜索的認(rèn)知階段,每一步都是逐步細(xì)化思維以指向最終目標(biāo)的過程。因此,我們引入了“推理與分割鏈(CoReS)”,并發(fā)現(xiàn)這種自上而下的視覺層次結(jié)構(gòu)確實(shí)提高了視覺搜索過程。具體來說,我們提出了一種雙鏈結(jié)構(gòu),生成多模態(tài)、鏈狀輸出,以輔助分割過程。此外,為了引導(dǎo)MLLM的輸出進(jìn)入預(yù)期的層次結(jié)構(gòu),我們將上下文輸入作為指導(dǎo)。廣泛的實(shí)驗(yàn)證明,我們的CoReS具有優(yōu)越的性能,在ReasonSeg數(shù)據(jù)集上的表現(xiàn)比當(dāng)前最先進(jìn)的方法高出6.5%。
  
  CoReS的整體架構(gòu)。MLLM的輸入包括用戶輸入的灰度信息和額外的上下文輸入(橙色),其中包括與用戶查詢無關(guān)的QA示例。MLLM在推理鏈的邏輯層面生成輸出,其中[LOC]和[SEG]的詞嵌入作為不同分割鏈位置的提示輸入,引導(dǎo)分割鏈逐步生成分割結(jié)果。
  
  18. 基于視覺語義提示的零樣本異常分割
  
  VCP-CLIP: A visual context prompting model for zero-shot anomaly segmentation
  
  論文作者:屈震,陶顯,Mukesh Prasad,沈飛,張正濤,宮新一,丁貴廣
  
  最近,大規(guī)模視覺-語言模型(如CLIP)在零樣本異常分割(ZSAS)任務(wù)中展示了巨大的潛力。它們通過精心設(shè)計(jì)的文本提示并利用統(tǒng)一模型直接檢測任何未見過產(chǎn)品的異常。然而,現(xiàn)有方法通常假設(shè)需要檢測的產(chǎn)品類別是已知的,因此設(shè)計(jì)了產(chǎn)品特定的文本提示,這在數(shù)據(jù)隱私場景中難以實(shí)現(xiàn)。此外,即使是同一類型的產(chǎn)品,由于特定組件和生產(chǎn)過程中差異的存在,也會(huì)表現(xiàn)出顯著的不同,這給文本提示的設(shè)計(jì)帶來了重大挑戰(zhàn)。為此,我們提出了一種基于CLIP的視覺上下文提示模型(VCP-CLIP)用于ZSAS任務(wù)。VCP-CLIP的動(dòng)機(jī)是通過視覺上下文提示來激活CLIP的異常語義感知能力。具體而言,我們首先設(shè)計(jì)了一個(gè)Pre-VCP模塊,將全局視覺信息嵌入到文本提示中,從而消除了對特定產(chǎn)品提示的需求。然后,我們提出了一個(gè)新穎的Post-VCP模塊,利用圖像的細(xì)粒度特征調(diào)整文本嵌入。在對10個(gè)真實(shí)工業(yè)異常分割數(shù)據(jù)集進(jìn)行的廣泛實(shí)驗(yàn)中,VCP-CLIP在ZSAS任務(wù)中取得了最先進(jìn)的性能。
  
  VCP-CLIP框架圖
  
  19. 面向工業(yè)異常檢測與定位的梯度上升引導(dǎo)統(tǒng)一異常合成策略
  
  A Unified Anomaly Synthesis Strategy with Gradient Ascent for Industrial Anomaly Detection and Localization
  
  論文作者:陳麒宇,羅惠元,呂承侃,張正濤
  
  由于通常難以收集足夠的缺陷樣本,同時(shí)像素級注釋的成本過高,監(jiān)督方法在實(shí)際工業(yè)缺陷檢測中存在明顯阻礙。因此,在工業(yè)檢測場景中廣泛應(yīng)用了無監(jiān)督異常檢測技術(shù)。近年來,異常合成策略有效地增強(qiáng)了無監(jiān)督異常檢測。然而,現(xiàn)有策略在異常合成的覆蓋范圍和可控性方面存在局限性,尤其是對與正常區(qū)域非常相似的微弱缺陷。本文提出了一種全新的統(tǒng)一框架:全局與局部異常共合成策略(GLASS),旨在基于流形假設(shè)來約束低維空間和高維空間的特征分布,從而由局部到全局合成覆蓋更為廣泛的異常。具體來說,GLASS使用高斯噪聲在梯度上升和截?cái)嗤队暗闹笇?dǎo)下,以可控的方式合成近分布異常。GLASS在MVTec AD等多個(gè)工業(yè)數(shù)據(jù)集上實(shí)現(xiàn)了最先進(jìn)的結(jié)果,并且在微弱缺陷檢測方面表現(xiàn)出色。其高效性在織物缺陷檢測實(shí)際工業(yè)應(yīng)用中得到了進(jìn)一步驗(yàn)證。
  
  20. 一致的三維線段建模
  
  Consistent 3D Line Mapping
  
  論文作者:白旭龍,崔海楠,申抒含
  
  本文從幾何視角出發(fā)探索了基于圖像的輕量化3D線圖的構(gòu)建方法。傳統(tǒng)三維線段建模方法以圖像線段匹配和攝像機(jī)位姿作為輸入,通過三維線段假設(shè)聚類生成局部最優(yōu)三維線段,然后構(gòu)造直線特征軌跡進(jìn)行點(diǎn)線融合的捆綁調(diào)整優(yōu)化。雖然一些方法通過多種三角化方式可以緩解三維線段生成的退化情況,但是生成了大量的異常值,影響了線段模型構(gòu)造的魯棒性,同時(shí)它們沒有考慮到3D線段在多視圖中的一致性。因此,我們提出了三種3D線段的幾何一致性約束,包括最優(yōu)線段假設(shè)的多視角一致性,線段特征軌跡中2D線段元素一致性以及3D空間元素幾何拓?fù)湟恢滦?。此外,為了進(jìn)一步提高3D線段模型的輕量化程度,我們在點(diǎn)線模型的基礎(chǔ)上提出3D平面模型,使用點(diǎn)、線、面三種混合特征進(jìn)行場景建模,同時(shí)將他們之間的拓?fù)浼s束引入到優(yōu)化過程中。在大量公開的室內(nèi)外數(shù)據(jù)上測試表明,我們的方法相比現(xiàn)有的3D線圖構(gòu)造方法在準(zhǔn)確性和完整性方面展現(xiàn)出了顯著優(yōu)勢。
  
  一致性三維線段建模流程圖
  
  21. 基于房間語義的平面布置圖重建Transformer
  
  PolyRoom: Room-aware Transformer for Floorplan Reconstruction
  
  論文作者:劉昱州,朱靈杰,馬孝冬,葉翰樵,高翔,鄭先偉,申抒含
  
  現(xiàn)有的平面布置圖生成方法主要分為兩類,第一類是深度學(xué)習(xí)與幾何優(yōu)化相結(jié)合的多階段方法,這類方法首先對點(diǎn)云投影圖進(jìn)行語義分割,在此基礎(chǔ)上通過后處理生成平面布置圖,其存在非端到端、過度依賴語義先驗(yàn)、優(yōu)化速度較慢的問題。第二類是基于Transformer的端到端方法,這類方法存在角點(diǎn)缺失或偏離導(dǎo)致輪廓錯(cuò)誤的問題。針對平面布置圖生成任務(wù)中普遍存在的結(jié)構(gòu)表達(dá)與數(shù)據(jù)缺失問題,本文通過對現(xiàn)有兩類方法進(jìn)行有效結(jié)合,利用實(shí)例分割網(wǎng)絡(luò)給出房間先驗(yàn),并利用Transformer優(yōu)化坐標(biāo);與此同時(shí),為實(shí)現(xiàn)對重建的平面布置圖輪廓有效監(jiān)督,本文沿分割輪廓稠密采樣監(jiān)督點(diǎn)坐標(biāo),進(jìn)而提升了平面布置圖的生成效果。在多個(gè)室內(nèi)場景結(jié)構(gòu)化建模數(shù)據(jù)集上的測試表明,本文方法相比現(xiàn)有的平面布置圖生成方法在房間區(qū)域(Room)、角落位置(Corner)、角落拐角(Angle)三個(gè)指標(biāo)上均取得了優(yōu)異的性能。
  
  PolyRoom整體網(wǎng)絡(luò)架構(gòu)圖
  
  22. 基于一致性建模的少樣本缺陷圖像生成
  
  Few-shot Defect Image Generation based on Consistency Modeling
  
  論文作者:史慶豐,魏靜,沈飛,張正濤
  
  提出了一種新的文本引導(dǎo)擴(kuò)散方法DefectDiffu,該方法可以對多個(gè)產(chǎn)品的產(chǎn)品內(nèi)背景一致性和產(chǎn)品間缺陷一致性進(jìn)行建模,并調(diào)節(jié)一致性擾動(dòng)方向來控制產(chǎn)品類型和缺陷強(qiáng)度,從而實(shí)現(xiàn)多樣化的缺陷圖像生成。首先,我們利用文本編碼器分別為解糾纏集成體系結(jié)構(gòu)的背景、缺陷和融合部分提供一致性提示,從而解糾纏缺陷和正常背景。其次,提出通過一致性方向的兩階段擾動(dòng)生成缺陷圖像的雙自由策略,通過調(diào)整擾動(dòng)尺度來控制產(chǎn)品類型和缺陷強(qiáng)度。此外,DefectDiffu可以利用來自缺陷部分的交叉注意映射生成缺陷掩膜注釋。最后,為了提高小缺陷和掩模的生成質(zhì)量,我們提出了自適應(yīng)注意力增強(qiáng)損失來增加缺陷的注意力。實(shí)驗(yàn)結(jié)果表明,DefectDiffu在生成質(zhì)量和多樣性方面優(yōu)于現(xiàn)有的方法,從而有效地提高了下游缺陷性能。此外,缺陷擾動(dòng)方向可以在不同產(chǎn)品之間轉(zhuǎn)移,實(shí)現(xiàn)零缺陷生成,這對解決數(shù)據(jù)不足的問題非常有利。
  
  23. 基于信息瓶頸理論的持續(xù)學(xué)習(xí)樣本偏差糾正
  
  Information Bottleneck Based Data Correction in Continual Learning
  
  論文作者:陳帥,張茗奕,張俊格,黃凱奇
  
  連續(xù)學(xué)習(xí)指模型在開放且動(dòng)態(tài)的環(huán)境中不斷獲取新任務(wù)知識的同時(shí),保持對舊任務(wù)知識的記憶能力。現(xiàn)有的基于經(jīng)驗(yàn)回放的連續(xù)學(xué)習(xí)算法在每次對舊任務(wù)數(shù)據(jù)進(jìn)行采樣時(shí),往往會(huì)丟棄一部分未被采樣的數(shù)據(jù),從而導(dǎo)致對舊任務(wù)分布估計(jì)的偏差。我們提出了一種基于信息瓶頸理論的偏差糾正算法。由于未被采樣的數(shù)據(jù)無法直接用于訓(xùn)練,我們的方法在舊任務(wù)學(xué)習(xí)完成后,通過解耦未采樣數(shù)據(jù)與已采樣數(shù)據(jù)的特征,使模型能夠通過挖掘兩類數(shù)據(jù)之間的關(guān)聯(lián)來有效估計(jì)未采樣數(shù)據(jù)的代理影響。這一方法有望顯著減輕由于數(shù)據(jù)采樣和回放引起的偏差,從而提升連續(xù)學(xué)習(xí)算法的性能,特別是在處理未采樣數(shù)據(jù)方面展現(xiàn)了潛在的優(yōu)勢。我們的方法作為一種通用的設(shè)計(jì)模塊,可以與現(xiàn)有的基于回放的方法結(jié)合應(yīng)用。
  
  24. 基于分形特征圖表征拓?fù)渥韵嗨菩砸詫?shí)現(xiàn)管狀結(jié)構(gòu)的準(zhǔn)確分割
  
  Representing Topological Self-Similarity Using Fractal Feature Maps for Accurate Segmentation of Tubular Structures
  
  論文作者:黃家興,周巖峰,羅曜儒,劉國樂,郭恒,楊戈
  
  在生物學(xué)、醫(yī)學(xué)以及遙感等多個(gè)領(lǐng)域中,對細(xì)長的管狀結(jié)構(gòu)進(jìn)行精確分割是一項(xiàng)重要任務(wù)。管狀結(jié)構(gòu)擁有復(fù)雜的拓?fù)渑c幾何特征,為分割任務(wù)帶來了重大的挑戰(zhàn)。這些結(jié)構(gòu)的基本屬性之一是它們的拓?fù)渥韵嗨菩?,這種拓?fù)渥韵嗨菩钥梢酝ㄟ^分形特征如分形維數(shù)來量化。在這項(xiàng)研究中,我們通過滑動(dòng)窗口技術(shù)將分形維數(shù)擴(kuò)展到像素級別,將分形特征融入深度學(xué)習(xí)模型中。滑動(dòng)窗口計(jì)算得到的分形特征圖隨后作為額外的通道輸入到模型中,并在損失函數(shù)中作為像素級權(quán)重,以利用其拓?fù)渥韵嗨菩栽鰪?qiáng)分割性能。此外,我們通過加入邊緣解碼器和骨架解碼器擴(kuò)展了U-Net架構(gòu),提高了分割結(jié)果的邊界準(zhǔn)確性和骨架連續(xù)性。我們在五個(gè)管狀結(jié)構(gòu)數(shù)據(jù)集上驗(yàn)證了方法的有效性和魯棒性。此外,將分形特征圖與HR-Net等其他主流分割模型結(jié)合同樣帶來分割性能的提升,這表明分形特征圖可以作為插件模塊與不同模型架構(gòu)相結(jié)合。
我要收藏
個(gè)贊
上一篇:從人工駕駛到駕駛自動(dòng)化|馬車→汽車→特斯拉電動(dòng)車→?
下一篇: 小馬智行自動(dòng)駕駛出行服務(wù)接入高德平臺