【ZiDongHua 之方案應(yīng)用場收錄關(guān)鍵詞: 武漢人工智能研究院  中科院自動(dòng)化所  人工智能  通用視覺模型  計(jì)算機(jī)視覺  模式識別】

成果速遞丨武智院提出通用視覺模型FastSAM,比SAM快50倍

由美國 公司提出的能夠“分割一切”的視覺基礎(chǔ)大模型SAM引起了較大影響,為探索通用視覺大模型提供了一個(gè)新的方向。

近日,武漢人工智能研究院和中科院自動(dòng)化所的研究團(tuán)隊(duì)針對“分割一切”任務(wù),提出了FastSAM方法。FastSAM通過引入人工先驗(yàn)的結(jié)構(gòu)設(shè)計(jì),大幅降低了原Transformer結(jié)構(gòu)在該通用感知任務(wù)上的計(jì)算冗余,實(shí)現(xiàn)了50倍加速,這一“快速”的特點(diǎn),有利于視覺基礎(chǔ)大模型的行業(yè)落地,有利于工業(yè)化應(yīng)用落地。

SAM的“分割一切”功能實(shí)現(xiàn)了基于點(diǎn)、框、文字等多類型指令的物體及區(qū)域分割。SAM采用了端對端的Transformer結(jié)構(gòu)在千萬數(shù)量級監(jiān)督樣本上進(jìn)行訓(xùn)練,在邊緣檢測、物體檢測、顯著物體識別、工業(yè)異常檢測等下游任務(wù)上表現(xiàn)了很強(qiáng)泛化性。

武智院研究團(tuán)隊(duì)提出的FastSAM對“分割一切”這一通用視覺任務(wù)的算法設(shè)計(jì)范式進(jìn)行了重新思考,設(shè)計(jì)了“全實(shí)例分割+基于指令的掩碼輸出”兩階段算法,方法結(jié)構(gòu)如圖1所示。

圖1 FastSAM方法結(jié)構(gòu)示意圖

FastSAM在每個(gè)階段進(jìn)行了任務(wù)和方法協(xié)同的方法設(shè)計(jì):

(1)第一階段,利用圖像中大多數(shù)物體只占據(jù)圖像局部區(qū)域的特點(diǎn),采用天然具備局部連接特點(diǎn)的卷積算子進(jìn)行全實(shí)例分割網(wǎng)絡(luò)構(gòu)建。該結(jié)構(gòu)相較Transformer結(jié)構(gòu)更加緊致,計(jì)算成本更低,但依舊保持對物體或圖像區(qū)域的表示和判別能力。

(2)第二階段,采用物理空間匹配和圖文對齊空間匹配的策略進(jìn)行基于指令的掩碼輸出?;谏弦浑A段的全實(shí)例分割掩碼:對于基于位置點(diǎn)指令,將該點(diǎn)的位置所關(guān)聯(lián)的最優(yōu)分割區(qū)域進(jìn)行輸出,支持多點(diǎn)模式、背景點(diǎn)抑制;對于基于位置框的指令,將包圍框匹配到的最大IoU的分割掩碼進(jìn)行輸出;對于文本指令,利用圖文對齊網(wǎng)絡(luò)CLIP將掩碼圖像區(qū)域與文本指令映射到同一個(gè)空間,進(jìn)行相似性計(jì)算,進(jìn)而輸出最相似區(qū)域。

基于此方法結(jié)構(gòu),F(xiàn)astSAM在SAM團(tuán)隊(duì)開源的SA-1B數(shù)據(jù)集上隨機(jī)挑選了2%的圖片進(jìn)行訓(xùn)練就取得了和SAM可匹配的效果,并且速度相較最常用的32×32指令版本的SAM提升了50倍,實(shí)現(xiàn)了實(shí)時(shí)的“分割一切”(圖2)。

圖2 FastSAM和SAM速度對比

圖3展示了FastSAM的分割效果,圖4在顯著物體分割任務(wù)上對比了FastSAM和SAM的分割效果。

圖3 FastSAM分割效果示意圖

圖4 FastSAM和SAM在顯著物體分割效果對比

表1和表2 在候選位置生成和邊緣檢測任務(wù)上對比了FastSAM和SAM的效果。

表1 FastSAM在物體候選位置生成任務(wù)上的準(zhǔn)確率

表2 FastSAM在邊緣檢測任務(wù)上的準(zhǔn)確率

該方法已于技術(shù)報(bào)告的形式發(fā)布于預(yù)印版網(wǎng)站Arxiv上,并開源了相關(guān)代碼和演示頁面。代碼和演示已經(jīng)上傳Github。

研究團(tuán)隊(duì)認(rèn)為,在高質(zhì)量數(shù)據(jù)的基礎(chǔ)上,面向特定任務(wù)引入人工經(jīng)驗(yàn),設(shè)計(jì)任務(wù)相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu),在深度學(xué)習(xí)模型的準(zhǔn)確率和效率上的作用值得進(jìn)一步研究。

論文地址:

[2306.12156] Fast Segment Anything

http://export.arxiv.org/abs/2306.12156

代碼地址:

https://github.com/CASIA-IVA-Lab/FastSAM