創(chuàng)新自化成

推好自動化科技觀察：全球首個(gè)AI對話系統(tǒng)分級定義出爐，和你對話的AI是幾級?

時(shí)間：2022-07-06 08:31:37 發(fā)布：自動化網(wǎng) 來源：搜狐網(wǎng) 南方都市報(bào) 第一對焦：AI對話系統(tǒng)分級

【文章導(dǎo)讀】：近日，由清華大學(xué)智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室副主任黃民烈發(fā)起，聯(lián)合十余家科研機(jī)構(gòu)和二十多位知名學(xué)者共同制定的全球首個(gè)《AI對話系統(tǒng)分級定義》正式發(fā)布。
黃民烈表示，AI對話系統(tǒng)任務(wù)繁多、評價(jià)維度多樣、技術(shù)路線豐富，撰寫小組在制定《分級定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng)。同時(shí)，為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值，《分級定義》的制定是從用戶可感知，以及可觀察、可測量、可度量的角度出發(fā)，不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式，也不區(qū)分助理類任務(wù)、閑聊、知識對話等，均以“場景”進(jìn)行表述。
具體來說，L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質(zhì)量的對話。L1級能完成單一場景的較高質(zhì)量對話，但無法處理場景之間上下文依賴；L2可以同時(shí)完成多個(gè)場景的較高質(zhì)量對話，具有處理跨場景的上下文依賴和自然切換能力，但是無法完成新場景較高質(zhì)量的對話。L3級能針對大量場景開展高質(zhì)量對話，同時(shí)在新場景中也能有較高質(zhì)量的對話。L4級不僅在新場景中有高質(zhì)量對話能力，還有較高的擬人化程度。L5級則在L4級的基礎(chǔ)上，還能主動學(xué)習(xí)和持續(xù)學(xué)習(xí)，具有多模態(tài)感知與表達(dá)能力。

全球首個(gè)AI對話系統(tǒng)分級定義出爐，和你對話的AI是幾級?

“嘿，Siri”“小度小度”“小愛同學(xué)”……只需一句簡單的喚醒語，就能與人工智能（AI）對話、讓AI實(shí)現(xiàn)指令。這個(gè)場景相信你并不陌生，但你知道跟其他AI相比，和你對話的AI水平如何嗎？

近日，由清華大學(xué)智能技術(shù)與系統(tǒng)實(shí)驗(yàn)室副主任黃民烈發(fā)起，聯(lián)合十余家科研機(jī)構(gòu)和二十多位知名學(xué)者共同制定的全球首個(gè)《AI對話系統(tǒng)分級定義》（以下簡稱《分級定義》）正式發(fā)布。

南都·AI前哨站了解到，參照自動駕駛汽車的分級，AI對話系統(tǒng)也被分為L0-L5六個(gè)等級。據(jù)測試，在此《分級定義》的標(biāo)準(zhǔn)之下，當(dāng)前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間。

AI對話系統(tǒng)被分為L0-L5六個(gè)等級

如今，AI對話系統(tǒng)在日常生活中隨處可見。比如銀行、電信服務(wù)商配備的自動應(yīng)答機(jī)器人，顯著降低了他們的運(yùn)營成本；人們在網(wǎng)購時(shí)，平臺的智能客服會根據(jù)提問快速給出解決方案。在大數(shù)據(jù)、大算力的支持下，更先進(jìn)的AI對話系統(tǒng)不僅可以回答用戶的問題，還能以有趣的方式進(jìn)行各種話題討論。

然而，AI對話系統(tǒng)作為當(dāng)下AI領(lǐng)域的前沿技術(shù)，卻缺乏行業(yè)規(guī)范或統(tǒng)一標(biāo)準(zhǔn)，在實(shí)際應(yīng)用中產(chǎn)生了水平參差不齊、評價(jià)體系不一的現(xiàn)狀。

因此，為了更好地評估AI對話系統(tǒng)的能力水平，黃民烈聯(lián)合學(xué)界和業(yè)界科研機(jī)構(gòu)制定了全球首個(gè)《分級定義》，旨在衡量AI對話系統(tǒng)的能力水平，促進(jìn)AI對話系統(tǒng)的進(jìn)一步研究，為行業(yè)應(yīng)用提供參考。

黃民烈講解對話系統(tǒng)分級定義

黃民烈表示，AI對話系統(tǒng)任務(wù)繁多、評價(jià)維度多樣、技術(shù)路線豐富，撰寫小組在制定《分級定義》時(shí)僅關(guān)注完全由機(jī)器主導(dǎo)的對話系統(tǒng)。同時(shí)，為了在實(shí)際應(yīng)用中發(fā)揮價(jià)值，《分級定義》的制定是從用戶可感知，以及可觀察、可測量、可度量的角度出發(fā)，不考慮系統(tǒng)的具體技術(shù)實(shí)現(xiàn)方式，也不區(qū)分助理類任務(wù)、閑聊、知識對話等，均以“場景”進(jìn)行表述。

據(jù)了解，《分級定義》參考了美國汽車工程師協(xié)會（SAE）對自動駕駛汽車的分級定義——自動駕駛按照機(jī)器介入程度從無自動駕駛（L0）到完全自動駕駛（L5）分為五個(gè)等級。

具體來說，L0級的AI對話系統(tǒng)完全沒有自動對話能力或無法給出較高質(zhì)量的對話。L1級能完成單一場景的較高質(zhì)量對話，但無法處理場景之間上下文依賴；L2可以同時(shí)完成多個(gè)場景的較高質(zhì)量對話，具有處理跨場景的上下文依賴和自然切換能力，但是無法完成新場景較高質(zhì)量的對話。

L3級能針對大量場景開展高質(zhì)量對話，同時(shí)在新場景中也能有較高質(zhì)量的對話。L4級不僅在新場景中有高質(zhì)量對話能力，還有較高的擬人化程度。L5級則在L4級的基礎(chǔ)上，還能主動學(xué)習(xí)和持續(xù)學(xué)習(xí)，具有多模態(tài)感知與表達(dá)能力。

對話系統(tǒng)分級定義

全球AI對話系統(tǒng)最高等級在L2至L3之間

依據(jù)《分級定義》，黃民烈等研究人員還通過讓一定數(shù)量的測試者與AI對話系統(tǒng)進(jìn)行充分的對話交互，對常用的一些AI對話系統(tǒng)進(jìn)行了測試。

在測試之前，測試者被告知系統(tǒng)的能力范圍但不告知系統(tǒng)的技術(shù)實(shí)現(xiàn)方式，最后由測試者從相關(guān)性（回復(fù)與上文的適配度）、信息量（回復(fù)是否提供足夠必要的信息，而非通用回復(fù)）和自然度（與人類回復(fù)相比的自然度，包含語法是否通順、是否包含常識錯(cuò)誤等）三個(gè)維度進(jìn)行主觀的總評分。

據(jù)InfoQ報(bào)道，多位參加制定的專家學(xué)者表示，在此《分級定義》的標(biāo)準(zhǔn)之下，當(dāng)前全球AI對話系統(tǒng)水平最高已發(fā)展至L2至L3之間?，F(xiàn)階段，AI對話系統(tǒng)在從L3向L4邁進(jìn)的過程中，還面臨諸多挑戰(zhàn)。

小米技術(shù)委員會主任、AI實(shí)驗(yàn)室主任王斌表示，《分級定義》發(fā)布后，AI對話系統(tǒng)能力水平的衡量將有據(jù)可依。《分級定義》讓用戶能夠更多地關(guān)注、更清晰地理解AI對話系統(tǒng)及其當(dāng)前的能力水平；行業(yè)也有了統(tǒng)一的評估規(guī)范，有助于企業(yè)明確研發(fā)方向。

據(jù)悉，該《分級定義》提出之后，黃民烈還將聯(lián)合該領(lǐng)域相關(guān)研究機(jī)構(gòu)及研究者開展白皮書的編纂，聚焦AI對話系統(tǒng)的發(fā)展歷程，詳細(xì)闡釋《分級定義》的制定目的和標(biāo)準(zhǔn)。

采寫：實(shí)習(xí)生韓艷燕南都記者蔣琳