【ZiDongHua之創(chuàng)新&科技關(guān)鍵詞摘要:中國科學報  ChatGPT  強化學習  人工智能  王金橋】 

ChatGPT敲開通用人工智能大門了嗎 

中國科學報記者 趙廣立

連日來,一路“狂飆”的ChatGPT持續(xù)引發(fā)“話題地震”。

作為由OpenAI訓練的對話式大規(guī)模語言模型,ChatGPT能以對話的方式與人進行交互,回答之智能、流暢令人意外。據(jù)媒體報道,ChatGPT不僅能在短短幾秒內(nèi)響應人們的問題,還通過了美國部分高校的法律、醫(yī)學考試,以及谷歌18萬美元年薪的軟件工程師入職測試。ChatGPT還會承認錯誤,質(zhì)疑并拒絕不恰當?shù)恼埱蟆?/p>

ChatGPT是否“過于”智能了?照此進化下去,人們會逐漸實現(xiàn)通用人工智能(AGI)嗎?這是計算機學界最近熱議的話題。

ChatGPT三大技術(shù)突破

“ChatGPT是目前為止最為強大的通用人機對話系統(tǒng)。”在接受《中國科學報》采訪時,中科院自動化研究所研究員、“紫東太初”大模型研究中心常務副主任王金橋不無贊嘆地說,“它也是繼打敗人類圍棋冠軍的AlphaGo之后人工智能(AI)又一重要突破,標志著以大模型為核心的智能計算范式的確立。”

王金橋認為,這背后主要基于三大技術(shù)突破——千億級參數(shù)大模型、多任務統(tǒng)一編碼、人類反饋的強化學習。

他解釋說,ChatGPT無所不知,得益于大規(guī)模預訓練語言模型GPT3.5的支持。GPT3.5擁有千億級參數(shù),在訓練時使用了海量的人類在互聯(lián)網(wǎng)上編輯生成的多種類文本數(shù)據(jù)集,因此可以對世界已有知識進行編碼。ChatGPT一專多能,在于其實現(xiàn)了多任務統(tǒng)一編碼。傳統(tǒng)人工智能只能處理單一任務(如語音識別和人臉識別),但ChatGPT不同,通過多任務統(tǒng)一編碼,可實現(xiàn)一個模型做很多事。ChatGPT對答如流,是因為引入了人類反饋的強化學習(RLHF)。OpenAI的開發(fā)團隊通過RLHF不斷對ChatGPT模型進行微調(diào)。

正是基于這三大技術(shù)突破,ChatGPT得以像人一樣對任意輸入的問題做出非常流暢的回答,而且擁有文檔概括、文本創(chuàng)作等多種能力。

一條通往AGI的路徑?

ChatGPT的閃光點,不免讓人們對AGI浮想聯(lián)翩。

“從業(yè)10年有余,第一次覺得AGI不再是個‘時髦詞’了。”2022年12月,ChatGPT甫一面世,浙江大學計算機學院青年研究員趙俊博就在個人微信朋友圈這樣寫道,“真沒想到RLHF能做到這種程度。”

“它的推理能力、歸納能力、以語言為媒介展現(xiàn)出來的對世界常識的認知、多輪對話能力等,都值得肯定。”趙俊博認為,從技術(shù)上來講,ChatGPT已經(jīng)“不再是單純的記憶大規(guī)模文本了”。

清華大學軟件工程博士、北京智源人工智能研究院視覺方向研究員曹越,則在分析了ChatGPT背后存在“大規(guī)模語言模型+(人類反饋的)強化學習”的“循環(huán)”之后,“深切感受到好像真的找到一條通往AGI的路徑了”。

“最讓我驚艷的是,ChatGPT的上下文學習居然激活了簡單的邏輯和加減法,而且指令調(diào)優(yōu)RLHF和‘思維鏈’進一步強化了它在這方面的能力。”曹越說,現(xiàn)在的能力依然比較初級,但從0到1是最難的。

“如今,大規(guī)模語言模型通過‘預訓練+RLHF’提供了一條路徑,相當于一個有基礎語言理解能力的模型進一步擬合人在語言生成方面的表現(xiàn),同時擁有基礎的邏輯能力,且在不斷進化。”從ChatGPT聯(lián)想到AGI,曹越提出另一個角度的思考。

王金橋向《中國科學報》直言,ChatGPT的出現(xiàn)被認為是AI實現(xiàn)AGI的重要標志,“打開了AGI的大門”。因為ChatGPT證明了AI在對世界知識進行編碼后,可以把知識自動關(guān)聯(lián)起來。

“這是語言模型的一個巨大突破,顯現(xiàn)出強人工智能的影子。”王金橋說。ChatGPT的成功,表明增大模型和數(shù)據(jù)規(guī)模是突破現(xiàn)在AI技術(shù)應用瓶頸行之有效的方法,也標志著從以專用小模型訓練為主的“手工作坊時代”向以通用大模型預訓練為主的“工業(yè)化時代”AI研究范式的轉(zhuǎn)變。

AGI道阻且長

論及ChatGPT是否指明了前往AGI的路徑,學術(shù)界顯然有不同看法。

有觀點指出,ChatGPT的學習能力非常強大,但再強大也沒有擺脫“大數(shù)據(jù)、小任務”的大樣本被動學習模式。也就是說,它并沒有任何主動思考、反思和判斷,只是根據(jù)程序規(guī)則在飛速計算下完成任務。這個任務是憑借巨大的數(shù)據(jù)訓練而生成的。

從這個角度看,ChatGPT在“機械地執(zhí)行任務”,以至于時不時鬧出一些“一本正經(jīng)胡說八道”的笑話,這反映的是文本生成系統(tǒng)的可控性問題。趙俊博表示,根據(jù)目前信息來看,ChatGPT還沒有解決這個問題。

華為公司人工智能高級研究員謝凌曦表示,當前的智能體還沒有學會復雜邏輯,也就不太可能推理出數(shù)據(jù)庫里沒有的知識。因此,他對ChatGPT找到了通往AGI的道路的說法“持保留意見”。

“我更加傾向于ChatGPT是一個信息收集和歸納的AI,在邏輯層面比較薄弱。”謝凌曦說,在邏輯更復雜甚至需要多輪推理的情況下,當前(即使使用了RLHF)的訓練范式,對于數(shù)據(jù)的利用效率仍然太低,以至于AI難以完成稍微復雜的推理任務。

“RLHF確實開辟了新的路線。”謝凌曦認為,ChatGPT的一些任務結(jié)果總給人一種假象,“感覺AI學到了一種比較討巧的方法,能夠讓這些AI訓練師‘簡單地滿意’”。換句話說,如果人們不太深究的話,AI的回答“看起來還不錯”。

“當然,ChatGPT已經(jīng)比之前許多AI都好了。我們只是需要再次理解AGI是多么困難的任務,道阻且長。”謝凌曦說道。

多模態(tài)感知的AI有望更“類人”

從更高的技術(shù)角度,謝凌曦作出了進一步分析。自然語言處理(NLP)領(lǐng)域的發(fā)展,主要是抓住了自然語言的特征空間相對簡單的性質(zhì)。因而,在大數(shù)據(jù)的加持下,通過互聯(lián)網(wǎng)收集到的數(shù)據(jù)覆蓋了整個空間足夠大的比例,能使算法跨越“過擬合會產(chǎn)生危害”這條線。也就是說,即使模型是在過擬合訓練數(shù)據(jù),也完全看不出問題。但這種模式套在其他領(lǐng)域不一定行得通,比如視覺的特征空間復雜得多,不僅有無限細粒度可劃分的語義概念,還有遠超NLP的“領(lǐng)域鴻溝”。至少在短期內(nèi),計算機視覺的發(fā)展很難復刻諸如ChatGPT的(AI在NLP的)成功方式。

王金橋也認為,ChatGPT是有局限性的。“ChatGPT只是一個單純的語言文本模型,但現(xiàn)實世界中不只有文本,還有聲音、圖片等多種模態(tài)。”他說,因此多模態(tài)的感知理解是一種更重要的趨勢,更有望實現(xiàn)類人的智能融合。

這正是王金橋所在的研究團隊將攻關(guān)重心放在多模態(tài)大模型領(lǐng)域的重要原因。2021年,中科院自動化研究所推出了全球首個千億參數(shù)多模態(tài)大模型“紫東太初”,致力于實現(xiàn)圖像、文本、語音3個模態(tài)數(shù)據(jù)之間的“統(tǒng)一表示”與“相互生成”,使AI的理解和生成能力更接近人類。

“基于‘紫東太初’開發(fā)的虛擬人‘小初’是一個對話系統(tǒng),同樣擁有問答、對話、文檔概括、文本創(chuàng)作等多種能力,但跟ChatGPT不太一樣,我們的系統(tǒng)更多是對圖像、文本、語音3個模態(tài)的融合交互。”王金橋說,未來他們計劃在此基礎上加入RLHF,使之更好地捕獲人的意圖。

《中國科學報》 (2023-02-22 第3版 領(lǐng)域)