向善而生的AI助盲：以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)智能技術(shù)

時(shí)間：2023-01-10 14:45:49 發(fā)布：來源：浪潮信息第一對(duì)焦：浪潮信息

【“ZiDongHua”之方案應(yīng)用場： AI助盲、機(jī)器視覺、人工智能、浪潮信息】AI助盲在人工智能賽道上一直是最熱門的話題之一。以前，讓失明者重見光明依靠的是醫(yī)學(xué)的進(jìn)步或"奇跡"。而隨著以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)智能技術(shù)的爆發(fā)式突破，更多的失明者正在借助AI提供的感知、理解與交互能力，以另一種方式重新"看見世界"。

向善而生的AI助盲，讓AI多一點(diǎn)，障礙少一點(diǎn)

有人說，盲人與世界之間，相差的只是一個(gè)黎明。在浪潮信息研發(fā)人員的心中，失去視力的盲人不會(huì)陷入永夜，科技的進(jìn)步正在力圖給每一個(gè)人以光明未來。

AI助盲在人工智能賽道上一直是最熱門的話題之一。以前，讓失明者重見光明依靠的是醫(yī)學(xué)的進(jìn)步或"奇跡"。而隨著以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)智能技術(shù)的爆發(fā)式突破，更多的失明者正在借助AI提供的感知、理解與交互能力，以另一種方式重新"看見世界"。

新契機(jī)：多模態(tài)算法或?qū)⒃旄?shù)以億計(jì)失明者

科學(xué)實(shí)驗(yàn)表明，在人類獲取的外界信息中，來自視覺的占比高達(dá)70%~80%，因此基于AI構(gòu)建機(jī)器視覺系統(tǒng)，幫助視障患者擁有對(duì)外界環(huán)境的視覺感知與視覺理解能力，無疑是最直接有效的解決方案。

一個(gè)優(yōu)秀的AI助盲技術(shù)，需要通過智能傳感、智能用戶意圖推理和智能信息呈現(xiàn)的系統(tǒng)化發(fā)展，才能構(gòu)建信息無障礙的交互界面。僅僅依靠"一枝獨(dú)秀"超越人類水平的單模態(tài)人工智能比如計(jì)算機(jī)視覺技術(shù)還遠(yuǎn)遠(yuǎn)不夠，以"機(jī)器視覺+自然語言理解"為代表的多模態(tài)算法的突破才是正確的新方向和新契機(jī)。

多個(gè)模態(tài)的交互可以提升AI的感知、理解與交互能力，也為AI理解并幫助殘障人士帶來了更多可能。浪潮信息研發(fā)人員介紹說，多模態(tài)算法在AI助盲領(lǐng)域的應(yīng)用一旦成熟，將能夠造福數(shù)以億計(jì)的失明者。據(jù)世衛(wèi)組織統(tǒng)計(jì)，全球至少22億人視力受損或失明，而我國是世界上盲人最多的國家，占世界盲人總數(shù)的18%-20%，每年新增的盲人數(shù)量甚至高達(dá)45萬。

大挑戰(zhàn)：如何看到盲人"眼中"的千人千面

AI助盲看似簡單，但多模態(tài)算法依然面臨重大挑戰(zhàn)。

多模態(tài)智能算法，營造的是沉浸式人機(jī)交互體驗(yàn)。在該領(lǐng)域，盲人視覺問答任務(wù)成為學(xué)術(shù)界研究AI助盲的起點(diǎn)和核心研究方向之一，這項(xiàng)研究已經(jīng)吸引了全球數(shù)以萬計(jì)的視障患者參與，這些患者們上傳自己拍攝的圖像數(shù)據(jù)和相匹配的文本問題，形成了最真實(shí)的模型訓(xùn)練數(shù)據(jù)集。

但是在現(xiàn)有技術(shù)條件下，盲人視覺問答任務(wù)的精度提升面臨巨大挑戰(zhàn)：一方面是盲人上傳的問題類型很復(fù)雜，比如說分辨冰箱里的肉類、咨詢藥品的服用說明、挑選獨(dú)特顏色的襯衣、介紹書籍內(nèi)容等等。

另一方面，由于盲人的特殊性，很難提取面前物體的有效特征。比如盲人在拍照時(shí)，經(jīng)常會(huì)產(chǎn)生虛焦的情況，可能上傳的照片是模糊的或者沒有拍全，或者沒拍到關(guān)鍵信息，這就給AI推理增加了難度。

為推動(dòng)相關(guān)研究，來自卡內(nèi)基梅隆大學(xué)等機(jī)構(gòu)的學(xué)者們共同構(gòu)建了一個(gè)盲人視覺數(shù)據(jù)庫"VizWiz"，并發(fā)起全球多模態(tài)視覺問答挑戰(zhàn)賽。挑戰(zhàn)賽是給定一張盲人拍攝的圖片和問題，然后要求給出相應(yīng)的答案，解決盲人的求助。

另外，盲人的視覺問答還會(huì)遭遇到噪聲干擾的衍生問題。比如說，盲人逛超市，由于商品外觀觸感相似，很容易犯錯(cuò)，他可能會(huì)拿起一瓶醋卻詢問醬油的成分表，拿起酸奶卻詢問牛奶的保質(zhì)期等等。這種噪聲干擾往往會(huì)導(dǎo)致現(xiàn)有AI模型失效，沒法給出有效信息。

最后，針對(duì)不同盲人患者的個(gè)性化交互服務(wù)以及算法自有的反饋閉環(huán)機(jī)制，同樣也是現(xiàn)階段的研發(fā)難點(diǎn)。

多解法：浪潮信息AI助盲靶向消滅痛點(diǎn)

AI助盲哪怕形式百變，無一例外都是消滅痛點(diǎn)，逐光而行。浪潮信息多模態(tài)算法研發(fā)團(tuán)隊(duì)正在推動(dòng)多個(gè)領(lǐng)域的AI助盲研究，只為幫助盲人"看"到愈發(fā)精彩的世界。

在VizWiz官網(wǎng)上公布的2萬份求助中，盲人最多的提問就是想知道他們面前的是什么東西，很多情況下這些物品沒法靠觸覺或嗅覺來做出判斷，例如 "這本書書名是什么？"為此研發(fā)團(tuán)隊(duì)在雙流多模態(tài)錨點(diǎn)對(duì)齊模型的基礎(chǔ)上，提出了自監(jiān)督旋轉(zhuǎn)多模態(tài)模型，通過自動(dòng)修正圖像角度及字符語義增強(qiáng)，結(jié)合光學(xué)字符檢測識(shí)別技術(shù)解決"是什么"的問題。

盲人所拍攝圖片模糊、有效信息少？研發(fā)團(tuán)隊(duì)提出了答案驅(qū)動(dòng)視覺定位與大模型圖文匹配結(jié)合的算法，并提出多階段交叉訓(xùn)練策略，具備更充分的常識(shí)能力，低質(zhì)量圖像、殘缺的信息，依然能夠精準(zhǔn)的解答用戶的求助。

目前浪潮信息研發(fā)團(tuán)隊(duì)在盲人視覺問答任務(wù)VizWiz-VQA上算法精度已領(lǐng)先人類表現(xiàn)9.5個(gè)百分點(diǎn)，在AI助盲領(lǐng)域斬獲世界冠軍兩項(xiàng)、亞軍兩項(xiàng)。

真實(shí)場景中的盲人在口述時(shí)往往會(huì)有口誤、歧義、修辭等噪聲。為此，研發(fā)團(tuán)隊(duì)首次提出視覺定位文本去噪推理任務(wù)FREC，F(xiàn)REC提供3萬圖片和超過25萬的文本標(biāo)注，囊括了口誤、歧義、主觀偏差等多種噪聲，還提供噪聲糾錯(cuò)、含噪證據(jù)等可解釋標(biāo)簽。同時(shí)，該團(tuán)隊(duì)還構(gòu)建了首個(gè)可解釋去噪視覺定位模型FCTR，噪聲文本描述條件下精度較傳統(tǒng)模型提升11個(gè)百分點(diǎn)。上述研究成果已發(fā)表于ACM Multimedia 2022會(huì)議，該會(huì)議為國際多媒體領(lǐng)域最頂級(jí)會(huì)議、也是該領(lǐng)域唯一CCF推薦A類國際會(huì)議。

在智能交互研究方面上，浪潮信息研發(fā)團(tuán)隊(duì)構(gòu)建了可解釋智能體視覺交互問答任務(wù)AI-VQA，同時(shí)給出首個(gè)智能體交互行為理解算法模型ARE。該研究成果已發(fā)表于ACM Multimedia 2022會(huì)議。該研究項(xiàng)目的底層技術(shù)未來可廣泛應(yīng)用于AI醫(yī)療診斷、故事續(xù)寫、劇情推理、危情告警、智能政務(wù)等多模態(tài)交互推理場景。

眼球雖然對(duì)溫度并不敏感，但浪潮信息的研發(fā)團(tuán)隊(duì)，卻在努力讓盲人能"看"到科技的溫度，也希望吸引更多人一起推動(dòng)人工智能技術(shù)在AI助盲、AI反詐、AI診療、AI災(zāi)情預(yù)警等更多場景中的落地。有AI無礙，跨越山海?？萍嫉膫ゴ笾幉粌H僅在于改變世界，更重要的是如何造福人類，讓更多的不可能變成可能。當(dāng)科技成為人的延伸，當(dāng)AI充滿人性光輝，我們終將在瞬息萬變的科技浪潮中感受到更加細(xì)膩溫柔的善意，見證著更加光明宏大的遠(yuǎn)方。

自動(dòng)對(duì)焦：AI助盲機(jī)器視覺人工智能多模態(tài)算法 MEITONG

咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請(qǐng)加微信：ZiDongHuaX 。

微信聯(lián)盟：AI助盲微信群、機(jī)器視覺微信群、人工智能微信群、多模態(tài)算法微信群、MEITONG微信群，各細(xì)分行業(yè)微信群：點(diǎn)擊這里進(jìn)入。

鴻達(dá)安視：水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器　　　　　　金葉儀器：氣體/顆粒物/煙塵在線監(jiān)測解決方案

 西凱昂：SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等　　　　　山東諾方：顆粒物傳感器、粉塵濃度傳感器

 深圳金瑞銘：RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案　　　　　　北京英諾艾智：容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案

評(píng)論排行

自動(dòng)化網(wǎng)誠征自動(dòng)化科技賦能高質(zhì)量發(fā)展解決方案(3)

深耕應(yīng)用，兆易創(chuàng)新攜全系產(chǎn)品和行業(yè)解決方案亮相慕尼黑電子展(3)

推好品牌觀察：西門子在滬設(shè)立其中國首個(gè)智能基礎(chǔ)設(shè)施數(shù)字化賦能中心(2)

黑芝麻智能發(fā)布華山開發(fā)者計(jì)劃高質(zhì)量賦能多元應(yīng)用場景(2)

WOODHEAD通訊卡備品備件：Applicom International PCU1500S7 PCU 1500 S7 V4.5.0(2)

安森美和上能電氣攜手引領(lǐng)可持續(xù)能源應(yīng)用的發(fā)展兩家公司合作開發(fā)高性能儲(chǔ)能和太陽能組串式逆變器方案以實(shí)現(xiàn)可持續(xù)的未來(2)

【6.15-16日】2023第八屆中國數(shù)字供應(yīng)鏈創(chuàng)新峰會(huì),演講大咖陣容官宣(2)

LS伺服電機(jī)APM-SB02ADK(2)

Kepware 工業(yè)數(shù)據(jù)采集軟件及常見問題解答(2)

維視教育大咖年終講：打造智能制造人才培養(yǎng)體系(1)

白鶴灘水電站全部機(jī)組投產(chǎn)發(fā)電世界最大清潔能源走廊全面建成|將為建設(shè)新型能源體系、保障國家能源安全、實(shí)現(xiàn)“雙碳”目標(biāo)提供有力支撐(1)

推好細(xì)分產(chǎn)業(yè)觀察--物聯(lián)網(wǎng)：2026年中國物聯(lián)網(wǎng)市場規(guī)模接近3000億美元智慧工廠、智慧城市、智慧電網(wǎng)等將占60%以上(1)

加大在用計(jì)量器具、試驗(yàn)檢測設(shè)備的自動(dòng)化、數(shù)字化改造力度|市場監(jiān)管總局工業(yè)和信息化部關(guān)于促進(jìn)企業(yè)計(jì)量能力提升的指導(dǎo)意見(1)

全國首套自動(dòng)化虛擬電廠系統(tǒng)在深圳試運(yùn)行功能匹敵大型電廠，已入選國際典型案例(1)

自動(dòng)化科技將在鄉(xiāng)村振興工作中大有作為|《關(guān)于做好2023年全面推進(jìn)鄉(xiāng)村振興重點(diǎn)工作的意見》發(fā)布(1)

ECG-E30 邊緣計(jì)算網(wǎng)關(guān)及典型應(yīng)用場景 | 工業(yè)級(jí)嵌入式AI計(jì)算機(jī) ，嵌入式無風(fēng)扇工業(yè)計(jì)算機(jī)(1)

將充分調(diào)動(dòng)超級(jí)自動(dòng)化各技術(shù)領(lǐng)域?qū)＜屹Y源|中國信通院“超級(jí)自動(dòng)化平臺(tái)”標(biāo)準(zhǔn)研制工作正在進(jìn)行中(1)

自動(dòng)化網(wǎng)“創(chuàng)新自科文”欄目更名為“創(chuàng)新自化成”(1)

韓國工控自動(dòng)化-丹陽昌達(dá)電器(1)

“TWINHOW 推好”高質(zhì)量發(fā)展 2022年度細(xì)分產(chǎn)業(yè)領(lǐng)域典型應(yīng)用場景中的優(yōu)質(zhì)自動(dòng)化科技解決方案—“金好質(zhì)級(jí)”解決方案測評(píng)工作啟動(dòng)(0)

我要收藏
個(gè)贊

上一篇：澳鵬Appen以數(shù)據(jù)賦能更精準(zhǔn)、更智能、更高品質(zhì)的智慧醫(yī)療
下一篇：玩美移動(dòng)推出在線眼鏡試戴服務(wù)，為中小企業(yè)提供眼鏡虛擬試戴和快...

相關(guān)文章

不斷迭代邁動(dòng)互聯(lián)“智元AI中樞”升級(jí)

科遠(yuǎn)智慧NT6000 DCS助力浙能六橫二期2×1000MW二次再熱發(fā)電機(jī)組順利投運(yùn)！

中控技術(shù)受邀參加第三屆數(shù)據(jù)治理年會(huì)，并成功入選“數(shù)據(jù)管理百項(xiàng)優(yōu)秀案例”

神經(jīng)形態(tài)計(jì)算器件和陣列測試解決方案

遠(yuǎn)景全球最大容量構(gòu)網(wǎng)型儲(chǔ)能實(shí)證平臺(tái)全場景測試圓滿成功

軟件工程智能化 | “企業(yè)行”系列之礦山人工智能研究院數(shù)據(jù)科學(xué)與大模型研究所

農(nóng)業(yè)蟲情監(jiān)測系統(tǒng)——建起防蟲“數(shù)字防火墻”

2024中國5G+工業(yè)互聯(lián)網(wǎng)大會(huì)典型案例發(fā)布

2024中國5G+工業(yè)互聯(lián)網(wǎng)大會(huì)丨《2024年5G工廠名錄》發(fā)布 400家工廠入選

準(zhǔn)確避障，安全無憂：超聲波傳感器，為清潔機(jī)器人護(hù)航

貴州“油茶之鄉(xiāng)”全產(chǎn)業(yè)鏈發(fā)展促振興

科技推動(dòng)綠色轉(zhuǎn)型！卡奧斯助力下塘工業(yè)園入選安徽首批零碳產(chǎn)業(yè)園

智慧交通：萬集科技助力公路治超工作數(shù)字化提升

中控技術(shù)助力沙特阿美摘得2024年全球智慧城市大會(huì)“創(chuàng)新大獎(jiǎng)”

MINI F全面升級(jí)：中科融合獨(dú)家多線掃描技術(shù)，解決焊接行業(yè)成像痛點(diǎn)

卡奧斯COSMOPlat攜工業(yè)風(fēng)機(jī)、家電智能控制解決方案亮相慕尼黑電子展

北控水務(wù)3座水廠入選國家部委“污水處理綠色低碳標(biāo)桿廠”名單

柯馬為斯洛文尼亞國家化學(xué)研究所開發(fā)創(chuàng)新電芯化成和測試技術(shù)解決方案

更高效的互聯(lián)互通，博世工廠通過ctrlX CORE描繪未來藍(lán)圖

銅山區(qū)數(shù)字孿生城區(qū)防洪指揮平臺(tái)入選2024江蘇網(wǎng)絡(luò)強(qiáng)省建設(shè)優(yōu)秀實(shí)踐成果“十佳”案例