推好自動化科技觀察:全球首個(gè)AI對話系統(tǒng)分級定義出爐,和你對話的AI是幾級?
【文章導(dǎo)讀】:近日,由清華大學(xué)智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室副主任黃民烈發(fā)起,聯(lián)合十余家科研機(jī)構(gòu)和二十多位知名學(xué)者共同制定的全球首個(gè)《AI對話系統(tǒng)分級定義》正式發(fā)布。
黃民烈表示,AI對話系統(tǒng)任務(wù)繁多、評價(jià)維度多樣、技術(shù)路線豐富,撰寫小組在制定《分級定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng)。同時(shí),為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式,也不區(qū)分助理類任務(wù)、閑聊、知識對話等,均以“場景”進(jìn)行表述。
具體來說,L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質(zhì)量的對話。L1級能完成單一場景的較高質(zhì)量對話,但無法處理場景之間上下文依賴;L2可以同時(shí)完成多個(gè)場景的較高質(zhì)量對話,具有處理跨場景的上下文依賴和自然切換能力,但是無法完成新場景較高質(zhì)量的對話。L3級能針對大量場景開展高質(zhì)量對話,同時(shí)在新場景中也能有較高質(zhì)量的對話。L4級不僅在新場景中有高質(zhì)量對話能力,還有較高的擬人化程度。L5級則在L4級的基礎(chǔ)上,還能主動學(xué)習(xí)和持續(xù)學(xué)習(xí),具有多模態(tài)感知與表達(dá)能力。
全球首個(gè)AI對話系統(tǒng)分級定義出爐,和你對話的AI是幾級?
“嘿,Siri”“小度小度”“小愛同學(xué)”……只需一句簡單的喚醒語,就能與人工智能(AI)對話、讓AI實(shí)現(xiàn)指令。這個(gè)場景相信你并不陌生,但你知道跟其他AI相比,和你對話的AI水平如何嗎?
近日,由清華大學(xué)智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室副主任黃民烈發(fā)起,聯(lián)合十余家科研機(jī)構(gòu)和二十多位知名學(xué)者共同制定的全球首個(gè)《AI對話系統(tǒng)分級定義》(以下簡稱《分級定義》)正式發(fā)布。
南都·AI前哨站了解到,參照自動駕駛汽車的分級,AI對話系統(tǒng)也被分為L0-L5六個(gè)等級。據(jù)測試,在此《分級定義》的標(biāo)準(zhǔn)之下,當(dāng)前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間。
AI對話系統(tǒng)被分為L0-L5六個(gè)等級
如今,AI對話系統(tǒng)在日常生活中隨處可見。比如銀行、電信服務(wù)商配備的自動應(yīng)答機(jī)器人,顯著降低了他們的運(yùn)營成本;人們在網(wǎng)購時(shí),平臺的智能客服會根據(jù)提問快速給出解決方案。在大數(shù)據(jù)、大算力的支持下,更先進(jìn)的AI對話系統(tǒng)不僅可以回答用戶的問題,還能以有趣的方式進(jìn)行各種話題討論。
然而,AI對話系統(tǒng)作為當(dāng)下AI領(lǐng)域的前沿技術(shù),卻缺乏行業(yè)規(guī)范或統(tǒng)一標(biāo)準(zhǔn),在實(shí)際應(yīng)用中產(chǎn)生了水平參差不齊、評價(jià)體系不一的現(xiàn)狀。
因此,為了更好地評估AI對話系統(tǒng)的能力水平,黃民烈聯(lián)合學(xué)界和業(yè)界科研機(jī)構(gòu)制定了全球首個(gè)《分級定義》,旨在衡量AI對話系統(tǒng)的能力水平,促進(jìn)AI對話系統(tǒng)的進(jìn)一步研究,為行業(yè)應(yīng)用提供參考。
黃民烈講解對話系統(tǒng)分級定義
黃民烈表示,AI對話系統(tǒng)任務(wù)繁多、評價(jià)維度多樣、技術(shù)路線豐富,撰寫小組在制定《分級定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng)。同時(shí),為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值,《分級定義》的制定是從用戶可感知,以及可觀察、可測量、可度量的角度出發(fā),不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式,也不區(qū)分助理類任務(wù)、閑聊、知識對話等,均以“場景”進(jìn)行表述。
據(jù)了解,《分級定義》參考了美國汽車工程師協(xié)會(SAE)對自動駕駛汽車的分級定義——自動駕駛按照機(jī)器介入程度從無自動駕駛(L0)到完全自動駕駛(L5)分為五個(gè)等級。
具體來說,L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質(zhì)量的對話。L1級能完成單一場景的較高質(zhì)量對話,但無法處理場景之間上下文依賴;L2可以同時(shí)完成多個(gè)場景的較高質(zhì)量對話,具有處理跨場景的上下文依賴和自然切換能力,但是無法完成新場景較高質(zhì)量的對話。
L3級能針對大量場景開展高質(zhì)量對話,同時(shí)在新場景中也能有較高質(zhì)量的對話。L4級不僅在新場景中有高質(zhì)量對話能力,還有較高的擬人化程度。L5級則在L4級的基礎(chǔ)上,還能主動學(xué)習(xí)和持續(xù)學(xué)習(xí),具有多模態(tài)感知與表達(dá)能力。
對話系統(tǒng)分級定義
全球AI對話系統(tǒng)最高等級在L2至L3之間
依據(jù)《分級定義》,黃民烈等研究人員還通過讓一定數(shù)量的測試者與AI對話系統(tǒng)進(jìn)行充分的對話交互,對常用的一些AI對話系統(tǒng)進(jìn)行了測試。
在測試之前,測試者被告知系統(tǒng)的能力范圍但不告知系統(tǒng)的技術(shù)實(shí)現(xiàn)方式,最后由測試者從相關(guān)性(回復(fù)與上文的適配度)、信息量(回復(fù)是否提供足夠必要的信息,而非通用回復(fù))和自然度(與人類回復(fù)相比的自然度,包含語法是否通順、是否包含常識錯(cuò)誤等)三個(gè)維度進(jìn)行主觀的總評分。
據(jù)InfoQ報(bào)道,多位參加制定的專家學(xué)者表示,在此《分級定義》的標(biāo)準(zhǔn)之下,當(dāng)前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間?,F(xiàn)階段,AI對話系統(tǒng)在從L3向L4邁進(jìn)的過程中,還面臨諸多挑戰(zhàn)。
小米技術(shù)委員會主任、AI實(shí)驗(yàn)室主任王斌表示,《分級定義》發(fā)布后,AI對話系統(tǒng)能力水平的衡量將有據(jù)可依。《分級定義》讓用戶能夠更多地關(guān)注、更清晰地理解AI對話系統(tǒng)及其當(dāng)前的能力水平;行業(yè)也有了統(tǒng)一的評估規(guī)范,有助于企業(yè)明確研發(fā)方向。
據(jù)悉,該《分級定義》提出之后,黃民烈還將聯(lián)合該領(lǐng)域相關(guān)研究機(jī)構(gòu)及研究者開展白皮書的編纂,聚焦AI對話系統(tǒng)的發(fā)展歷程,詳細(xì)闡釋《分級定義》的制定目的和標(biāo)準(zhǔn)。
采寫:實(shí)習(xí)生韓艷燕 南都記者蔣琳
微信聯(lián)盟:清華大學(xué)微信群、黃民烈微信群、AI微信群、小米微信群、王斌微信群、自動化科技觀察微信群、推好自動化科技觀察微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
評論排行