【ZiDongHua 之自動(dòng)化學(xué)院派收錄關(guān)鍵詞:中科視語(yǔ) 異常檢測(cè)大模型 AnomalyGPT 中國(guó)科學(xué)院自動(dòng)化研究所 】

 

成果速遞|AAAI2024:中科視語(yǔ)提出工業(yè)異常檢測(cè)大模型 AnomalyGPT,實(shí)現(xiàn)零樣本異常檢測(cè)

 

工業(yè)異常檢測(cè)是工業(yè)生產(chǎn)中不可或缺的一部分,然而現(xiàn)有的工業(yè)異常檢測(cè)方法通常只能為測(cè)試樣本提供異常分?jǐn)?shù),需要人工設(shè)定閾值以區(qū)分正常和異常樣本,這限制了這些方法的實(shí)際應(yīng)用場(chǎng)景。此外,現(xiàn)有的大模型在圖像理解方面展現(xiàn)了卓越的能力,但是缺乏特定領(lǐng)域知識(shí),而且對(duì)圖像中局部細(xì)節(jié)的理解較弱,這導(dǎo)致這些大模型不能直接用于工業(yè)異常檢測(cè)任務(wù)。

近日,中科視語(yǔ)和中國(guó)科學(xué)院自動(dòng)化研究所的研究團(tuán)隊(duì)針對(duì)該問題提出了異常檢測(cè)大模型AnomalyGPT。AnomalyGPT利用大模型的強(qiáng)大語(yǔ)義理解能力,通過精心設(shè)計(jì)的圖像解碼器和提示嵌入微調(diào)方法,能夠讓大模型充分理解工業(yè)場(chǎng)景圖像,判斷其中是否含有異常部分并指出異常位置,在少樣本和無(wú)監(jiān)督工業(yè)場(chǎng)景中取得了業(yè)內(nèi)最好性能,有利于基礎(chǔ)大模型的行業(yè)落地。

AnomalyGPT為了解決現(xiàn)有大模型缺乏特定領(lǐng)域知識(shí)和局部細(xì)節(jié)理解較弱這兩個(gè)問題,設(shè)計(jì)了提示學(xué)習(xí)器和圖像解碼器兩個(gè)模塊,對(duì)現(xiàn)有的大模型進(jìn)行訓(xùn)練調(diào)整,方法結(jié)構(gòu)如下圖所示:

1. 圖像解碼器:該模塊參考多模態(tài)大模型的特征對(duì)齊思路,通過若干個(gè)線性投影層,將圖像編碼器所提取的由淺至深的中層特征與分別代表正常和異常語(yǔ)義的文本特征對(duì)齊。該結(jié)構(gòu)能夠提供異常區(qū)域分割的注意力圖,通過將該注意力圖輸入到大模型中,能夠指導(dǎo)大模型關(guān)注圖像中異常概率較高的局部區(qū)域,為大模型提供視覺細(xì)節(jié)信息。

2. 提示學(xué)習(xí)器:該模塊包含一個(gè)6層的卷積神經(jīng)網(wǎng)絡(luò),用于將圖像解碼器輸出的注意力圖轉(zhuǎn)化為大模型能夠理解的提示嵌入向量,通過提示嵌入的方式對(duì)大模型進(jìn)行微調(diào),可以為大語(yǔ)言模型提供異常檢測(cè)所需的領(lǐng)域知識(shí),同時(shí)有效避免大模型產(chǎn)生災(zāi)難性遺忘問題。

此外,為了對(duì)大模型進(jìn)行訓(xùn)練,研究團(tuán)隊(duì)還提出來(lái)使用基于泊松圖像編輯的異常模擬方法來(lái)產(chǎn)生模擬異常數(shù)據(jù),如下圖所示,相比于傳統(tǒng)的剪切拼接方法,泊松圖像編輯模擬產(chǎn)生的異常更加自然,這進(jìn)一步提高了AnomalyGPT方法的性能。

基于上述方法結(jié)構(gòu),AnomalyGPT研究團(tuán)隊(duì)在兩個(gè)最權(quán)威的工業(yè)異常檢測(cè)數(shù)據(jù)集 MVTec-AD和VisA上進(jìn)行了實(shí)驗(yàn),與現(xiàn)有少樣本異常檢測(cè)方法相比,AnomalyGPT取得了業(yè)內(nèi)最先進(jìn)的性能,實(shí)驗(yàn)結(jié)果如下表所示:

在無(wú)監(jiān)督設(shè)置下,AnomalyGPT也取得了業(yè)內(nèi)最高的性能,結(jié)果如下表所示:

下圖展示了AnomalyGPT在一些實(shí)例上的異常檢測(cè)和定位結(jié)果,與現(xiàn)有的大模型相比,AnomalyGPT在圖像內(nèi)容理解和異常檢測(cè)與定位任務(wù)上都具有更好的表現(xiàn):

AnomalyGPT 論文已經(jīng)被人工智能頂級(jí)會(huì)議 AAAI 2024接收,論文預(yù)印版已發(fā)布于 Arxiv 上,并開源了相關(guān)代碼和演示頁(yè)面。

研究團(tuán)隊(duì)認(rèn)為,現(xiàn)有的大模型在通用領(lǐng)域表現(xiàn)卓越,但是在工業(yè)、醫(yī)學(xué)等專業(yè)領(lǐng)域的表現(xiàn)相對(duì)較弱,如何設(shè)計(jì)相應(yīng)結(jié)構(gòu)和方法,提高大模型的行業(yè)應(yīng)用能力,是一個(gè)值得深入研究的問題。