武漢人工智能研究院和中科院自動(dòng)化所的研究團(tuán)隊(duì)針對“分割一切”任務(wù),提出了FastSAM方法
【ZiDongHua 之方案應(yīng)用場收錄關(guān)鍵詞: 武漢人工智能研究院 中科院自動(dòng)化所 人工智能 通用視覺模型 計(jì)算機(jī)視覺 模式識別】
成果速遞丨武智院提出通用視覺模型FastSAM,比SAM快50倍
由美國 公司提出的能夠“分割一切”的視覺基礎(chǔ)大模型SAM引起了較大影響,為探索通用視覺大模型提供了一個(gè)新的方向。
近日,武漢人工智能研究院和中科院自動(dòng)化所的研究團(tuán)隊(duì)針對“分割一切”任務(wù),提出了FastSAM方法。FastSAM通過引入人工先驗(yàn)的結(jié)構(gòu)設(shè)計(jì),大幅降低了原Transformer結(jié)構(gòu)在該通用感知任務(wù)上的計(jì)算冗余,實(shí)現(xiàn)了50倍加速,這一“快速”的特點(diǎn),有利于視覺基礎(chǔ)大模型的行業(yè)落地,有利于工業(yè)化應(yīng)用落地。
SAM的“分割一切”功能實(shí)現(xiàn)了基于點(diǎn)、框、文字等多類型指令的物體及區(qū)域分割。SAM采用了端對端的Transformer結(jié)構(gòu)在千萬數(shù)量級監(jiān)督樣本上進(jìn)行訓(xùn)練,在邊緣檢測、物體檢測、顯著物體識別、工業(yè)異常檢測等下游任務(wù)上表現(xiàn)了很強(qiáng)泛化性。
武智院研究團(tuán)隊(duì)提出的FastSAM對“分割一切”這一通用視覺任務(wù)的算法設(shè)計(jì)范式進(jìn)行了重新思考,設(shè)計(jì)了“全實(shí)例分割+基于指令的掩碼輸出”兩階段算法,方法結(jié)構(gòu)如圖1所示。
圖1 FastSAM方法結(jié)構(gòu)示意圖
FastSAM在每個(gè)階段進(jìn)行了任務(wù)和方法協(xié)同的方法設(shè)計(jì):
(1)第一階段,利用圖像中大多數(shù)物體只占據(jù)圖像局部區(qū)域的特點(diǎn),采用天然具備局部連接特點(diǎn)的卷積算子進(jìn)行全實(shí)例分割網(wǎng)絡(luò)構(gòu)建。該結(jié)構(gòu)相較Transformer結(jié)構(gòu)更加緊致,計(jì)算成本更低,但依舊保持對物體或圖像區(qū)域的表示和判別能力。
(2)第二階段,采用物理空間匹配和圖文對齊空間匹配的策略進(jìn)行基于指令的掩碼輸出?;谏弦浑A段的全實(shí)例分割掩碼:對于基于位置點(diǎn)指令,將該點(diǎn)的位置所關(guān)聯(lián)的最優(yōu)分割區(qū)域進(jìn)行輸出,支持多點(diǎn)模式、背景點(diǎn)抑制;對于基于位置框的指令,將包圍框匹配到的最大IoU的分割掩碼進(jìn)行輸出;對于文本指令,利用圖文對齊網(wǎng)絡(luò)CLIP將掩碼圖像區(qū)域與文本指令映射到同一個(gè)空間,進(jìn)行相似性計(jì)算,進(jìn)而輸出最相似區(qū)域。
基于此方法結(jié)構(gòu),F(xiàn)astSAM在SAM團(tuán)隊(duì)開源的SA-1B數(shù)據(jù)集上隨機(jī)挑選了2%的圖片進(jìn)行訓(xùn)練就取得了和SAM可匹配的效果,并且速度相較最常用的32×32指令版本的SAM提升了50倍,實(shí)現(xiàn)了實(shí)時(shí)的“分割一切”(圖2)。
圖2 FastSAM和SAM速度對比
圖3展示了FastSAM的分割效果,圖4在顯著物體分割任務(wù)上對比了FastSAM和SAM的分割效果。
圖3 FastSAM分割效果示意圖
圖4 FastSAM和SAM在顯著物體分割效果對比
表1和表2 在候選位置生成和邊緣檢測任務(wù)上對比了FastSAM和SAM的效果。
表1 FastSAM在物體候選位置生成任務(wù)上的準(zhǔn)確率
表2 FastSAM在邊緣檢測任務(wù)上的準(zhǔn)確率
該方法已于技術(shù)報(bào)告的形式發(fā)布于預(yù)印版網(wǎng)站Arxiv上,并開源了相關(guān)代碼和演示頁面。代碼和演示已經(jīng)上傳Github。
研究團(tuán)隊(duì)認(rèn)為,在高質(zhì)量數(shù)據(jù)的基礎(chǔ)上,面向特定任務(wù)引入人工經(jīng)驗(yàn),設(shè)計(jì)任務(wù)相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu),在深度學(xué)習(xí)模型的準(zhǔn)確率和效率上的作用值得進(jìn)一步研究。
論文地址:
[2306.12156] Fast Segment Anything
http://export.arxiv.org/abs/2306.12156
代碼地址:
https://github.com/CASIA-IVA-Lab/FastSAM
微信聯(lián)盟:中科院自動(dòng)化所微信群、人工智能微信群、通用視覺模型微信群、計(jì)算機(jī)視覺微信群、模式識別微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
評論排行