方案應(yīng)用場

武漢人工智能研究院和中科院自動(dòng)化所的研究團(tuán)隊(duì)針對“分割一切”任務(wù)，提出了FastSAM方法

時(shí)間：2023-06-25 14:27:09 發(fā)布：tgy 來源：武漢人工智能研究院第一對焦：武漢人工智能研究院

【ZiDongHua 之方案應(yīng)用場收錄關(guān)鍵詞：武漢人工智能研究院中科院自動(dòng)化所人工智能通用視覺模型計(jì)算機(jī)視覺模式識別】

成果速遞丨武智院提出通用視覺模型FastSAM，比SAM快50倍

由美國公司提出的能夠“分割一切”的視覺基礎(chǔ)大模型SAM引起了較大影響，為探索通用視覺大模型提供了一個(gè)新的方向。

近日，武漢人工智能研究院和中科院自動(dòng)化所的研究團(tuán)隊(duì)針對“分割一切”任務(wù)，提出了FastSAM方法。FastSAM通過引入人工先驗(yàn)的結(jié)構(gòu)設(shè)計(jì)，大幅降低了原Transformer結(jié)構(gòu)在該通用感知任務(wù)上的計(jì)算冗余，實(shí)現(xiàn)了50倍加速，這一“快速”的特點(diǎn)，有利于視覺基礎(chǔ)大模型的行業(yè)落地，有利于工業(yè)化應(yīng)用落地。

SAM的“分割一切”功能實(shí)現(xiàn)了基于點(diǎn)、框、文字等多類型指令的物體及區(qū)域分割。SAM采用了端對端的Transformer結(jié)構(gòu)在千萬數(shù)量級監(jiān)督樣本上進(jìn)行訓(xùn)練，在邊緣檢測、物體檢測、顯著物體識別、工業(yè)異常檢測等下游任務(wù)上表現(xiàn)了很強(qiáng)泛化性。

武智院研究團(tuán)隊(duì)提出的FastSAM對“分割一切”這一通用視覺任務(wù)的算法設(shè)計(jì)范式進(jìn)行了重新思考，設(shè)計(jì)了“全實(shí)例分割+基于指令的掩碼輸出”兩階段算法，方法結(jié)構(gòu)如圖1所示。

圖1 FastSAM方法結(jié)構(gòu)示意圖

FastSAM在每個(gè)階段進(jìn)行了任務(wù)和方法協(xié)同的方法設(shè)計(jì)：

(1)第一階段，利用圖像中大多數(shù)物體只占據(jù)圖像局部區(qū)域的特點(diǎn)，采用天然具備局部連接特點(diǎn)的卷積算子進(jìn)行全實(shí)例分割網(wǎng)絡(luò)構(gòu)建。該結(jié)構(gòu)相較Transformer結(jié)構(gòu)更加緊致，計(jì)算成本更低，但依舊保持對物體或圖像區(qū)域的表示和判別能力。

(2)第二階段，采用物理空間匹配和圖文對齊空間匹配的策略進(jìn)行基于指令的掩碼輸出?；谏弦浑A段的全實(shí)例分割掩碼：對于基于位置點(diǎn)指令，將該點(diǎn)的位置所關(guān)聯(lián)的最優(yōu)分割區(qū)域進(jìn)行輸出，支持多點(diǎn)模式、背景點(diǎn)抑制;對于基于位置框的指令，將包圍框匹配到的最大IoU的分割掩碼進(jìn)行輸出;對于文本指令，利用圖文對齊網(wǎng)絡(luò)CLIP將掩碼圖像區(qū)域與文本指令映射到同一個(gè)空間，進(jìn)行相似性計(jì)算，進(jìn)而輸出最相似區(qū)域。

基于此方法結(jié)構(gòu)，F(xiàn)astSAM在SAM團(tuán)隊(duì)開源的SA-1B數(shù)據(jù)集上隨機(jī)挑選了2%的圖片進(jìn)行訓(xùn)練就取得了和SAM可匹配的效果，并且速度相較最常用的32×32指令版本的SAM提升了50倍，實(shí)現(xiàn)了實(shí)時(shí)的“分割一切”(圖2)。

圖2 FastSAM和SAM速度對比

圖3展示了FastSAM的分割效果，圖4在顯著物體分割任務(wù)上對比了FastSAM和SAM的分割效果。

圖3 FastSAM分割效果示意圖

圖4 FastSAM和SAM在顯著物體分割效果對比

表1和表2 在候選位置生成和邊緣檢測任務(wù)上對比了FastSAM和SAM的效果。

表1 FastSAM在物體候選位置生成任務(wù)上的準(zhǔn)確率

表2 FastSAM在邊緣檢測任務(wù)上的準(zhǔn)確率

該方法已于技術(shù)報(bào)告的形式發(fā)布于預(yù)印版網(wǎng)站Arxiv上，并開源了相關(guān)代碼和演示頁面。代碼和演示已經(jīng)上傳Github。

研究團(tuán)隊(duì)認(rèn)為，在高質(zhì)量數(shù)據(jù)的基礎(chǔ)上，面向特定任務(wù)引入人工經(jīng)驗(yàn)，設(shè)計(jì)任務(wù)相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)，在深度學(xué)習(xí)模型的準(zhǔn)確率和效率上的作用值得進(jìn)一步研究。

論文地址：

[2306.12156] Fast Segment Anything

http://export.arxiv.org/abs/2306.12156

代碼地址：

https://github.com/CASIA-IVA-Lab/FastSAM