CVPR 2024 | 自動化所新作速覽（一）

時間：2024-04-10 15:41:58 發(fā)布：tgy 來源：中國科學(xué)院自動化研究所第一對焦：計算機視覺

　　【ZiDongHua 之智能自動化收錄關(guān)鍵詞：計算機視覺自動駕駛傳感器機器人】

　　CVPR 2024 | 自動化所新作速覽（一）

　　導(dǎo)讀 | CVPR全稱為IEEE國際計算機視覺與模式識別會議，是計算機視覺領(lǐng)域三大頂級會議之一。CVPR 2024將在美國西雅圖舉辦。我們將分兩期對自動化所的錄用研究成果進行簡要介紹（排名不分先后），歡迎大家共同交流討論。

　　1. 駛向未來：面向自動駕駛的多視圖預(yù)測與規(guī)劃的世界模型

　　Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

　　論文作者：王宇琪，何嘉偉，范略，李鴻鑫，陳韞韜，張兆翔

　　最近，世界模型的概念引發(fā)了廣泛關(guān)注。我們首次提出了一種名為Drive-WM的全新多視圖世界模型，旨在增強端到端自動駕駛規(guī)劃的安全性。Drive-WM模型通過多視圖世界模型，能夠想象不同規(guī)劃路線的未來情景，并根據(jù)視覺預(yù)測獲取相應(yīng)的獎懲反饋，從而優(yōu)化當(dāng)前的路線選擇，為自動駕駛系統(tǒng)的安全提供了保障。Drive-WM是與現(xiàn)有端到端規(guī)劃模型兼容的第一個駕駛世界模型。通過視圖因子分解促進的聯(lián)合時空建模，我們的模型在駕駛場景中生成了高保真度的多視角視頻。在其強大的生成能力基礎(chǔ)上，我們首次展示了將世界模型應(yīng)用于安全駕駛規(guī)劃的潛力。對真實世界駕駛數(shù)據(jù)集的評估驗證了我們的方法可以生成高質(zhì)量、一致性和可控性的多視角視頻，為真實世界的模擬和安全規(guī)劃開辟了新的可能性。

　　圖1. 自動駕駛世界模型

　　圖2. 基于多視圖世界模型的預(yù)測和規(guī)劃

　　2. PanoOcc:面向視覺三維全景分割任務(wù)的統(tǒng)一柵格占用表示

　　PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation

　　作者：王宇琪，陳韞韜，廖星宇，范略，張兆翔

　　全面的三維場景感知對于自動駕駛和機器人領(lǐng)域至關(guān)重要?；谙鄼C的三維感知取得了迅速發(fā)展，但過去的任務(wù)如三維目標(biāo)檢測、地圖語義分割等，各自關(guān)注場景表示的某一方面，且表示方式不統(tǒng)一。我們希望能夠探索一種統(tǒng)一的場景表示，使其能統(tǒng)一表達這些任務(wù)，并將背景和前景物體統(tǒng)一建模。目前基于鳥瞰圖特征的方法在三維目標(biāo)檢測上表現(xiàn)出色，但由于缺失了高度和形狀信息，直接應(yīng)用于三維場景感知任務(wù)時性能較差。這啟示需要探索適合三維場景的特征表示，這也使得三維的柵格占用表示重新受到關(guān)注。然而，與二維空間相比，三維空間更加稀疏，直接將二維鳥瞰圖特征擴展到三維體素表示將帶來巨大的顯存和計算開銷。本研究提出PanoOcc模型，將檢測和分割任務(wù)聯(lián)合學(xué)習(xí)，統(tǒng)一了檢測和分割任務(wù)的輸出表示。為實現(xiàn)高效的特征學(xué)習(xí)，我們設(shè)計了從粗到細的解碼層結(jié)構(gòu)，并探索了稀疏表示的應(yīng)用。本研究進行了大量消融研究以驗證有效性和效率，在基于相機的機的三維語義分割、全景分割和密集占用柵格預(yù)測等任務(wù)中都取得了最先進性能。

　　圖. PanoOcc的整體模型設(shè)計

　　3. 基于可靠持續(xù)學(xué)習(xí)的失敗檢測

　　RCL: Reliable Continual Learning for Unified Failure Detection

　　作者：朱飛，程真，張煦堯，劉成林，張兆翔

　　深度神經(jīng)網(wǎng)絡(luò)往往對未知輸入過于自信，給實際應(yīng)用帶來了較大風(fēng)險。已有研究主要關(guān)注檢測來自未知類別的分布外樣本，而忽略了來自已知類別的錯分樣本。最近的研究發(fā)現(xiàn)，分布外檢測方法往往對錯分檢測有害，表明這兩項任務(wù)之間似乎存在折中。本文研究了統(tǒng)一失敗檢測問題，即同時檢測錯分樣本和分布外樣本。我們發(fā)現(xiàn)對二者的學(xué)習(xí)目標(biāo)進行聯(lián)合訓(xùn)練不足以獲得統(tǒng)一檢測的能力，而序列學(xué)習(xí)的模式有較大潛力。受此啟發(fā)，本文提出了一種可靠的持續(xù)學(xué)習(xí)范式，使模型先具備錯分檢測的能力，然后在不降低已有可靠性的前提下通過持續(xù)學(xué)習(xí)提升模型的分布外檢測能力。實驗表明，該方法具有優(yōu)異的失敗檢測性能。

　　可靠持續(xù)學(xué)習(xí)示意圖

　　4. 基于偏振光融合優(yōu)化的深度測量增強方法

　　Robust Depth Enhancement via Polarization Prompt Fusion Tuning

　　作者：池村敬，黃一鳴，菲利克斯·海德，張兆翔，陳啟峰，雷晨陽

　　本文提出了一個利用偏振成像改進各種深度傳感器不準(zhǔn)確深度測量的通用框架?，F(xiàn)有的深度傳感器在存在透明或反射物體的復(fù)雜場景中會提供不準(zhǔn)確的深度值，而此前基于偏振的深度增強方法主要利用純物理公式來處理單一傳感器的數(shù)據(jù)。相比之下，本文所提出的方法采用深度學(xué)習(xí)，通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)從偏振數(shù)據(jù)和來自不同傳感器的傳感器深度圖來獲得更稠密準(zhǔn)確的深度圖。本文提出了一種稱為Polarization Prompt Fusion Tuning (PPFT)的策略，其利用在大規(guī)模RGB數(shù)據(jù)集上預(yù)訓(xùn)練的模型，在規(guī)模有限的偏振數(shù)據(jù)集上進行融合增強，從而有效地訓(xùn)練出更強大的深度增強模型。本文在一個公共數(shù)據(jù)集上進行了大量實驗證明，與現(xiàn)有的深度增強基準(zhǔn)方法相比，所提出的方法表現(xiàn)最佳。

　　圖1. 圖中數(shù)據(jù)來自偏振相機以及d-ToF深度傳感器，本方法在具有挑戰(zhàn)性的深度增強問題上產(chǎn)生準(zhǔn)確的結(jié)果，包括深度補全、透明表面的深度修復(fù)、形狀校正等。如圖所示，透明水瓶處的深度被有效修復(fù) 。

　　圖2. 本文所提出的偏振提示融合塊（PPFB）將偏振光信息作為額外視覺提示輸入，采用遞進的方法依次融合到從預(yù)訓(xùn)練層提取的特征中。

　　5. MemoNav: 基于類人工作記憶的視覺導(dǎo)航智能體

　　MemoNav: Working Memory Model for Visual Navigation

　　論文作者：李鴻鑫，王澤禹，楊旭，楊雨然，梅樹起，張兆翔

　　人類導(dǎo)航至多目標(biāo)時，會回憶起與目標(biāo)相關(guān)的地點特征，忽視其他無關(guān)區(qū)域的記憶，并利用激活的這部分局部信息來快速規(guī)劃路線，無需重復(fù)探索。MemoNav借鑒人類這種工作記憶機制，結(jié)合短期記憶和長期記憶一起提升導(dǎo)航?jīng)Q策性能（圖1）。其引入了遺忘機制、長期記憶、和工作記憶三個協(xié)同組件：

　　選擇性遺忘機制由于并非所有地圖結(jié)點都和導(dǎo)航目標(biāo)有關(guān)，MemoNav提出利用目標(biāo)注意力機制，計算地圖結(jié)點和當(dāng)前目標(biāo)的注意力分?jǐn)?shù)，然后暫時“遺忘”分?jǐn)?shù)較低即對導(dǎo)航幫助不大的偏遠結(jié)點，被保留的則用于下游決策。

　　長期記憶為了習(xí)得場景的全局表征，智能體維護一個和所有短期記憶結(jié)點相連的全局結(jié)點作為長期記憶，不斷地通過圖注意力機制聚合短期記憶特征。

　　工作記憶利用一個圖注意力機制編碼保留的短期記憶和長期記憶，得到和當(dāng)前導(dǎo)航任務(wù)最相關(guān)的工作記憶，輸入給下游策略模塊以得到最終導(dǎo)航行為。

　　在Gibson和Matterport3D場景中，該方法的多目標(biāo)導(dǎo)航性能大幅超越SoTA模型。定性實驗顯示其可以規(guī)劃更快捷的路徑，且死鎖概率更小（圖2）。

　　圖1. MemoNav借鑒人腦工作記憶的導(dǎo)航模型。MemoNav通過注意力機制選擇與當(dāng)前導(dǎo)航目標(biāo)相關(guān)的短期記憶（即地圖結(jié)點）和長期記憶（即全局結(jié)點）一起生成工作記憶，用于下游決策。

　　圖2. MemoNav和現(xiàn)有其它方法的定性對比。

　　6. 預(yù)訓(xùn)練視覺模型的連續(xù)遺忘

　　Continual Forgetting for Pre-trained Vision Models

　　論文作者：趙宏博、尼博琳、樊峻菘、王玉璽、陳韞韜、孟高峰、張兆翔

　　出于隱私和安全考慮，如今變得越來越明顯的是，需要從預(yù)訓(xùn)練的視覺模型中擦除不需要的信息。在現(xiàn)實世界場景中，用戶和模型擁有者可以隨時提出擦除請求。這些請求通常形成一個序列。因此，在這樣的設(shè)置下，期望從預(yù)訓(xùn)練模型中連續(xù)移除選定信息，同時保留其余信息。我們將這個問題定義為持續(xù)遺忘，并確定了兩個關(guān)鍵挑戰(zhàn)。(i) 對于不需要的知識，有效且高效的刪除至關(guān)重要。(ii) 對于剩余的知識，遺忘過程帶來的影響應(yīng)盡可能小。為了解決這些問題，我們提出了群稀疏LoRA（GS-LoRA）。具體來說，針對(i)，我們使用LoRA模塊獨立地對Transformer塊中的FFN層進行微調(diào)，以應(yīng)對每個遺忘任務(wù)，并針對(ii)，采用了簡單的組稀疏正則化，實現(xiàn)了特定LoRA群組的自動選擇并將其他群歸零。GS-LoRA有效、參數(shù)高效、數(shù)據(jù)高效且易于實現(xiàn)。我們在人臉識別、目標(biāo)檢測和圖像分類上進行了廣泛實驗，并展示了GS-LoRA能夠在對其他類別影響最小的情況下忘記特定類別。

　　圖1. 連續(xù)遺忘

　　圖2. GS-LoRA管線示意圖

　　7. 通過語言引導(dǎo)監(jiān)督加強視覺連續(xù)學(xué)習(xí)

　　Enhancing Visual Continual Learning with Language-Guided Supervision

　　論文作者：尼博琳、趙宏博、張承灝、胡珂、孟高峰、張兆翔、向世明

　　連續(xù)學(xué)習(xí)旨在使模型能夠在不忘記先前獲得的知識的情況下學(xué)習(xí)新的任務(wù)。當(dāng)前的工作往往集中在網(wǎng)絡(luò)結(jié)構(gòu)、回放數(shù)據(jù)和正則化等技術(shù)。然而，數(shù)據(jù)類別標(biāo)簽中的語義信息在很大程度上被忽略了。當(dāng)前的方法往往使用獨熱標(biāo)簽，每個任務(wù)獨立學(xué)習(xí)分類頭。我們認(rèn)為，獨熱標(biāo)簽無法捕捉連續(xù)學(xué)習(xí)場景下不同類別跨任務(wù)的語義關(guān)系，阻礙了知識在任務(wù)間的有效轉(zhuǎn)移。在本工作中，我們重新審視了分類頭在連續(xù)學(xué)習(xí)場景中的作用，并用來自預(yù)訓(xùn)練語言模型的語義知識取代了隨機初始化的分類頭。具體來說，我們使用預(yù)訓(xùn)練語言模型為每個類別生成語義目標(biāo)，這些目標(biāo)在訓(xùn)練期間被凍結(jié)作為監(jiān)督信號。這些目標(biāo)充分考慮了跨任務(wù)的所有類之間的語義相關(guān)性。實證研究表明，我們的方法通過減輕表征漂移和促進跨任務(wù)的知識轉(zhuǎn)移來減輕遺忘。所提出的方法易于實現(xiàn)，并且可以無縫地插入到現(xiàn)有方法中。

　　圖1. LingoCL示意圖及效果

　　8. HardMo：一個大規(guī)模難例動作捕捉數(shù)據(jù)集

　　HardMo: A Large-Scale Hardcase Dataset for Motion Capture

　　論文作者：廖佳琪，羅傳琛，杜伊諾，王玉璽，殷緒成，張曼，張兆翔，彭君然

　　本文介紹了一個大規(guī)模的難例動作捕捉數(shù)據(jù)集——HardMo，旨在彌補現(xiàn)有人體mesh恢復(fù)方法（HMR）在處理舞蹈和武術(shù)等場景中不常見姿勢的不足。由于這些領(lǐng)域的動作具有高速度和高張力特征，而現(xiàn)有數(shù)據(jù)集大多聚焦于日常動作，缺乏這類復(fù)雜動作的樣本，導(dǎo)致模型難以有效處理舞蹈和武術(shù)場景。為此，我們提出了一套數(shù)據(jù)收集流程，包括自動爬取、精確標(biāo)注和難例挖掘，基于此流程快速建立了包含700萬張的大型數(shù)據(jù)集HardMo。這些覆蓋了15類舞蹈和14類武術(shù)，每張都配有精確的標(biāo)注。實驗發(fā)現(xiàn)，舞蹈和武術(shù)中的預(yù)測失敗主要表現(xiàn)在手腕和腳踝的不對齊上。此外針對這兩個難點，我們利用提出的自動化流程篩選出相關(guān)數(shù)據(jù)，構(gòu)建了名為HardMo-Hand和HardMo-Foot的子集。廣泛的實驗表明，我們的標(biāo)注流程和數(shù)據(jù)驅(qū)動解決方案的有效性。特別是，經(jīng)HardMo訓(xùn)練后的HMR方法甚至在我們的基準(zhǔn)測試上超過了當(dāng)前的最先進技術(shù)4DHumans。

　　9. 屬性引導(dǎo)的行人檢索：跨越行人重識別中的內(nèi)在屬性變化

　　Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute Variability

　　論文作者：黃延、張彰、吳強、鐘怡、王亮

　　在智能監(jiān)控領(lǐng)域中，行人檢索（重識別）技術(shù)，扮演著至關(guān)重要的角色。目前的Re-ID方法常常忽略對行人細微屬性變化所導(dǎo)致的外觀變化顯式建模。針對這一問題，我們的研究提出了視覺屬性引導(dǎo)的行人檢索（AGPR）任務(wù)，旨在通過對特定人體屬性查詢條件與查詢圖像的整合來提高行人檢索準(zhǔn)確性。我們提出的基于ViT屬性引導(dǎo)的行人檢索（ATPR）框架通過對行人屬性組間相關(guān)性和屬性組內(nèi)去相關(guān)性建立正則化項，有效地融合了全局行人ID識別與局部屬性學(xué)習(xí)。我們基于RAP行人屬性數(shù)據(jù)集構(gòu)建了新的AGPR任務(wù)基準(zhǔn)，并進行了廣泛實驗，結(jié)果驗證了我們提出的ATPR方法在AGPR任務(wù)中的有效性。

　　10. 調(diào)查視覺-語言模型在視覺定位任務(wù)上的組合關(guān)系挑戰(zhàn)

　　Investigating Compositional Challenges in Vision-Language Models for Visual Grounding

　　論文作者：曾宇楠，黃巖，張津津，揭澤群，柴振華，王亮

　　預(yù)訓(xùn)練的視覺-語言模型（VLMs）在各種下游任務(wù)中取得了高性能，這些模型已被廣泛應(yīng)用于視覺定位任務(wù)。然而，盡管大規(guī)模的視覺和語言預(yù)訓(xùn)練貢獻了性能提升，我們發(fā)現(xiàn)最先進的VLMs在定位任務(wù)的組合推理上存在困難。為了證明這一點，我們提出了屬性、關(guān)系和主次定位（ARPGrounding）基準(zhǔn)測試，以測試VLMs在視覺定位任務(wù)中的組合推理能力。ARPGrounding包含11,425個樣本，并從三個維度評估VLMs的組合理解能力：1）屬性，測試對目標(biāo)屬性的理解；2）關(guān)系，測試對目標(biāo)之間關(guān)系的理解；3）主次，反映了與名詞相關(guān)的詞性的意識。使用ARPGrounding基準(zhǔn)測試，我們評估了幾種主流的VLMs。實驗結(jié)果表明，這些模型在傳統(tǒng)的視覺定位數(shù)據(jù)集上表現(xiàn)相當(dāng)好，達到或超過了最先進方法的性能，然而在組合推理上顯示出明顯的不足。更進一步，我們提出了組合關(guān)系感知的微調(diào)流程，展示了利用低成本的圖像-文本標(biāo)注來增強VLMs在定位任務(wù)中的組合理解能力的潛力。

　　11. 多模態(tài)提示感知器：為多功能圖像復(fù)原賦能自適應(yīng)性、泛化性和保真度

　　Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration

　　論文作者：論文作者：艾雨昂，黃懷波，周曉強，王杰翔，赫然

　　本文介紹了一種名為MPerceiver的多模態(tài)提示學(xué)習(xí)方法，旨在解決多功能圖像復(fù)原中面臨的復(fù)雜真實場景退化問題。MPerceiver通過利用Stable Diffusion中的先驗知識來增強自適應(yīng)性、泛化性和保真度。具體來說，本文提出了一個雙分支模塊提供多模態(tài)提示：文本提示用于整體表征，而視覺提示用于多尺度細節(jié)表征。這兩種提示通過CLIP圖像編碼器的退化預(yù)測動態(tài)調(diào)整，能夠適應(yīng)各種未知的退化情況。此外，MPerceiver采用了一個插件式細節(jié)精煉模塊，通過編碼器到解碼器的信息跳連，改善了圖像復(fù)原的保真度。MPerceiver在9個圖像復(fù)原任務(wù)中進行了訓(xùn)練，并且在許多任務(wù)中甚至超越了最先進的特定任務(wù)方法。在多任務(wù)預(yù)訓(xùn)練之后，MPerceiver學(xué)習(xí)到了底層視覺的通用表征，展現(xiàn)了強大的Zero-Shot和Few-Shot能力。在16個復(fù)原任務(wù)上的實驗證明了MPerceiver在自適應(yīng)性、泛化性和保真度方面的優(yōu)越性。

　　12. 基于小波增強Transformer和不確定性感知的無源自適應(yīng)圖像超分辨率

　　Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer

　　論文作者：艾雨昂，周曉強，黃懷波，張磊，赫然

　　無監(jiān)督領(lǐng)域適應(yīng)能夠通過同時訪問源數(shù)據(jù)和目標(biāo)數(shù)據(jù)，有效地解決真實場景圖像超分辨率中的域差異問題。考慮到實際場景中源數(shù)據(jù)的隱私政策或傳輸限制，本文提出了一種無源領(lǐng)域自適應(yīng)框架SODA-SR用于圖像超分辨率。SODA-SR利用源訓(xùn)練模型生成精細化的偽標(biāo)簽，用于師生學(xué)習(xí)。為了更好地利用偽標(biāo)簽，本文提出了一種新穎的基于小波的增強方法，名為小波增強Transformer，它可以靈活地結(jié)合現(xiàn)有網(wǎng)絡(luò)，隱式地產(chǎn)生有用的增強數(shù)據(jù)。此外，本文提出了一種不確定性感知的自訓(xùn)練機制，以提高偽標(biāo)簽的準(zhǔn)確性，不準(zhǔn)確的預(yù)測將通過不確定性估計得到糾正。實驗表明，即使不訪問源數(shù)據(jù)，SODA-SR也在多種設(shè)置中超越最先進的UDA方法，并且不受特定網(wǎng)絡(luò)架構(gòu)的限制。

　　RMT: Retentive Networks Meet Vision Transformers

　　論文作者：樊齊航，黃懷波，陳銘銳，劉紅敏，赫然

　　最近，Retentive Network（RetNet）作為一種有可能取代Transformer的架構(gòu)出現(xiàn)，引起了自然語言處理社區(qū)的廣泛關(guān)注。作者將RetNet的思想遷移到視覺領(lǐng)域并將RetNet和Transformer結(jié)合起來，提出了RMT。受RetNet啟發(fā)，RMT在視覺Backbone中引入了顯式衰減，將與空間距離相關(guān)的先驗知識引入到視覺模型中。這種與距離相關(guān)的空間先驗允許顯式控制每個Token可以關(guān)注的Token范圍。此外，為了降低全局建模的計算成本，作者沿圖像的兩個坐標(biāo)軸分解了這個建模過程。大量的實驗表明，RMT在各種計算機視覺任務(wù)如分類、目標(biāo)檢測、實例分割和語義分割等中表現(xiàn)出色。

　　14. 面向測試過程檢測及修復(fù)的神經(jīng)后門防御

　　Backdoor Defense via Test-Time Detecting and Repairing

　　論文作者：關(guān)霽洋，梁堅，赫然

　　針對神經(jīng)后門防御問題，之前的工作主要在模型部署之前使用干凈樣本來去除模型神經(jīng)后門，而本文研究了利用部分污染的模型測試數(shù)據(jù)從模型中去除神經(jīng)后門，并提出了一種兩階段的神經(jīng)后門防御方法。在第一階段，本文提出了一種后門樣本檢測方法DDP，它從一批混合的部分投毒數(shù)據(jù)中識別出后門樣本，其后，本文使用夏普利值估計定位并去除模型中的神經(jīng)后門。我們的的方法TTBD在多種網(wǎng)絡(luò)結(jié)構(gòu)下針對多種不同的神經(jīng)后門攻擊，均取得了良好的神經(jīng)后門防御效果。

　　15. MoPE-CLIP：使用模塊化剪枝誤差度量的高效視覺-語言模型結(jié)構(gòu)化剪枝方法

　　MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

　　論文作者：林浩坤，柏昊立，劉智立，侯璐，孫沐毅，宋林琦，魏穎，孫哲南

　　本文探索了多種多模態(tài)視覺語言預(yù)訓(xùn)練模型（如CLIP）的小型化方案，研究發(fā)現(xiàn)直接使用較小的預(yù)訓(xùn)練模型或應(yīng)用基于權(quán)重大小的剪枝，往往導(dǎo)致靈活性不足和性能不佳。針對上述挑戰(zhàn)，我們提出了一種新穎的模塊化剪枝誤差（MoPE）度量方法，旨在精確評估CLIP模塊在跨模態(tài)任務(wù)中的重要性。利用MoPE度量，我們進一步提出適用于預(yù)訓(xùn)練和特定任務(wù)微調(diào)兩個壓縮階段的剪枝框架，同時設(shè)計了更高效的知識蒸餾損失函數(shù)。在預(yù)訓(xùn)練階段，MoPE-CLIP利用教師模型的知識，顯著減少了預(yù)訓(xùn)練成本，并保持CLIP模型強大的零樣本能力。在微調(diào)階段，通過先寬度剪枝再深度剪枝的方式，我們能夠在特定任務(wù)上產(chǎn)生性能強大的專用模型。我們通過兩個階段的廣泛實驗驗證了MoPE度量的有效性， MoPE-CLIP超越了之前最先進的多模型模型剪枝方案，與先前采用單一模態(tài)剪枝度量或涉及昂貴的可學(xué)習(xí)掩模搜索過程的方法相比，我們的方法不僅提高了性能，而且提供了一種更靈活、成本效益更高的解決方案。

　　16. SfmCAD：基于“草圖+特征”建模的無監(jiān)督CAD重建

　　SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations

　　論文作者：李樸，郭建偉，李慧斌，Bedrich Benes，嚴(yán)冬明

　　SfmCAD通過學(xué)習(xí)現(xiàn)代CAD工作流中基于草圖的特征建模操作來重構(gòu)三維形狀。給定一個體素形式表示的三維形狀，SfmCAD能夠無監(jiān)督地學(xué)習(xí)一種草圖+路徑參數(shù)化表示方法，包括形狀部件的二維草圖及其三維掃掠路徑。SfmCAD利用二維草圖來表達局部幾何細節(jié)，并通過三維路徑捕捉整體結(jié)構(gòu)，實現(xiàn)了形狀細節(jié)與結(jié)構(gòu)之間的解耦。這種轉(zhuǎn)化為參數(shù)化形式的方法不僅增強了模型的可解釋性，還提高了輸出結(jié)果的可編輯性，使用戶能夠方便地編輯形狀的幾何和結(jié)構(gòu)特征。我們通過將SfmCAD應(yīng)用于各種不同類型的對象，如CAD部件、ShapeNet形狀和樹干結(jié)構(gòu)，展示了我們方法的有效性。

　　17. SVDTree：基于語義體素擴散模型的單張圖像樹木三維重建

　　SVDTree: Semantic Voxel Diffusion for Single Image Tree Reconstruction

　　論文作者：李源、劉志浩、Bedrich Benes、張曉鵬、郭建偉

　　高效地表示和重建樹木的三維幾何仍然是計算機視覺和圖形領(lǐng)域中的一個極具挑戰(zhàn)性的問題。本研究提出了一種新穎的方法，用于從單個視角的照片生成逼真的樹木三維模型。本研究將三維信息推理問題轉(zhuǎn)化為語義體素擴散過程，該過程將樹木的輸入圖像轉(zhuǎn)換為三維空間中的新穎語義體素結(jié)構(gòu)（SVS）。SVS編碼了幾何外觀和語義結(jié)構(gòu)信息（例如樹干、樹枝和樹葉），從而保留了復(fù)雜的樹木內(nèi)部特征。針對SVS，本研究提出了一種新的混合樹木建模方法，SVDTree，包括面向結(jié)構(gòu)的樹干重建和基于自組織的樹冠重建兩部分。本研究使用合成和真實樹木的圖像對SVDTree進行了算法驗證和對比，結(jié)果表明，本研究方法能夠更好地保留樹木細節(jié)，并實現(xiàn)了更為逼真和準(zhǔn)確的重建結(jié)果。

　　18. UnionFormer: 用于圖像篡改檢測和定位的多視角表征聯(lián)合學(xué)習(xí)Transformer模型

　　UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization

　　論文作者：李帥伯、馬偉、郭建偉、徐世彪、李本沖、張曉鵬

　　本研究提出了UnionFormer，一種針對圖像篡改檢測與定位的新穎Transformer框架，它采用聯(lián)合學(xué)習(xí)機制，整合了三個不同視角的篡改信息，以準(zhǔn)確判別真?zhèn)螆D像。在該研究中，我們設(shè)計了能夠從RGB視角和噪聲視角交互提取篡改表征的BSFI-Net，其不僅對邊界處的異常痕跡有著敏感的響應(yīng)，而且能夠建模多尺度的空間連續(xù)性。此外，本研究引入圖像內(nèi)不同目標(biāo)間的不一致性作為全新的判別視角，并將其構(gòu)建過程與檢測、定位任務(wù)融合于一個統(tǒng)一的三任務(wù)聯(lián)合學(xué)習(xí)架構(gòu)中，從而實現(xiàn)不同任務(wù)間的相互促進。由此，本研究提出的模型在多重監(jiān)督下，成功學(xué)習(xí)并整合三個視角的篡改判別特征，實現(xiàn)了高性能的同步檢測與定位。實驗結(jié)果表明，與先前的方法相比，本研究方法對多種類型的圖像篡改具有更高的檢測與定位準(zhǔn)確率。