【ZiDongHua 之創(chuàng)新自科文收錄關(guān)鍵詞:中國科學(xué)院自動化研究所   曾毅    人工智能
 
  類腦心理揣測脈沖神經(jīng)網(wǎng)絡(luò)助力多智能體合作與競爭
 
  類腦心理揣測脈沖神經(jīng)網(wǎng)導(dǎo)語 | 2023年6月23日,中國科學(xué)院自動化研究所曾毅研究員課題組在Cell Press細(xì)胞出版社期刊Patterns上發(fā)表了一篇題為“A Brain-inspired Theory of Mind Spiking Neural Network Improves Multi-agent Cooperation and Competition”的新研究。他們受心理揣測(Theory of Mind)機(jī)制啟發(fā),構(gòu)建了包含模擬自我和他人的心理揣測脈沖神經(jīng)網(wǎng)絡(luò)模型(MAToM-SNN),助力多智能體高效地合作與競爭。
 
  研究亮點(diǎn)
 
  智能體能利用自身經(jīng)驗(yàn)或?qū)λ说挠^測來揣測他人行為
 
  具備心理揣測能力的智能體自適應(yīng)地調(diào)整策略以更好地與他人交互
 
  心理揣測模型能夠提升多智能體在合作和競爭任務(wù)中的表現(xiàn)
 
  心理揣測模型在基于脈沖神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)任務(wù)中展現(xiàn)出高度的泛化性
 
  論文簡介
 
  人類等群體動物在自然界中廣泛存在著合作或競爭等社會行為。心理揣測等社會認(rèn)知能力在社會智能的群體涌現(xiàn)中起到至關(guān)重要的作用。心理揣測是指能夠區(qū)分自我和他人,揣測他人心理狀態(tài)(包括信念、意圖、愿望等)的能力(圖1A)。近年來,這種認(rèn)知功能在心理學(xué)與認(rèn)知神經(jīng)科學(xué)中受到了廣泛的研究并逐漸揭開了心理揣測的神經(jīng)機(jī)制(圖1B)。而心理揣測的神經(jīng)機(jī)制為我們研究并探索基于心理揣測的多智能體社會交互、人機(jī)交互提供了重要啟發(fā)與創(chuàng)新源泉。
 
  
 
  圖1. A,心理揣測例子;B,心理揣測涉及的腦區(qū)及神經(jīng)回路
 
  中國科學(xué)院自動化研究所曾毅研究員負(fù)責(zé)的類腦認(rèn)知智能研究組借鑒人腦心理揣測的神經(jīng)機(jī)制,提出了面向多智能體的類腦心理揣測脈沖神經(jīng)網(wǎng)絡(luò)(MAToM-SNN,如圖2)。具體而言,借鑒腹內(nèi)側(cè)前額葉皮層(the ventral medial prefrontal cortex, vmPFC)和背內(nèi)側(cè)前額葉皮層(the dorsal medial prefrontal cortex, dmPFC)分別內(nèi)化和存儲與自我和他人相關(guān)的信息,背外側(cè)前額葉皮層(the dorsolateral prefrontal cortex, dlPFC)進(jìn)一步推斷他人決策的神經(jīng)機(jī)制,所提模型分別構(gòu)建了根據(jù)自身經(jīng)驗(yàn)揣測他人的模塊(Self-MAToM)和根據(jù)對他人觀測揣測他人的模塊(Other-MAToM)。兩個模塊均采用四層全連接的脈沖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用LIF模型(the leaky integrate-and-fire model)模擬脈沖神經(jīng)元放電情況。此外,受人腦前扣帶皮層(the anterior cingulate cortex, ACC)基于對他人預(yù)測的行為與真實(shí)行為的差別的響應(yīng)機(jī)制啟發(fā),所提模型基于代理梯度算法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練與優(yōu)化。MAToM-SNN預(yù)測的他人行為給決策模型提供了豐富的狀態(tài)表征,進(jìn)而幫助決策網(wǎng)絡(luò)自適應(yīng)地調(diào)整自身策略。
 
  
 
  圖2. 心理揣測模型助力多智能體高效合作與競爭
 
  文章第一作者博士生趙卓雅說:“我們在多個合作、合作競爭混合場景中進(jìn)行了實(shí)驗(yàn),其中收獲(Harvest)、升級(Escalation)、打獵(Hunt)的合作場景需要多個智能體協(xié)力收獲更多的獎勵,而單一智能體僅能取得有限的獎勵;欺騙(Physical Deception)、捕食(Predator-Prey)、通訊(World Communication)的合作競爭場景存在對立的雙方,其中一方需要合力干擾另一方的判斷或圍堵/躲避另一方。
 
  我們發(fā)現(xiàn)在合作場景中,心理揣測模型能夠幫助智能體自主與他人協(xié)作獲取群體更多利益,做出更具前瞻性的選擇;在合作競爭場景中,心理揣測模塊幫助智能體更了解隊友與對手,因此在與決策模型結(jié)合的過程中會衍生出更有利于團(tuán)隊整體的行為。實(shí)驗(yàn)結(jié)果也證明了心理揣測模型能有效泛化至由傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)和脈沖神經(jīng)網(wǎng)絡(luò)構(gòu)建的決策網(wǎng)絡(luò)上,提升平均獎勵和學(xué)習(xí)速度(圖3,圖4)。
 
  
 
  圖3. 心理揣測模型助力多智能體合作
 
  
 
  圖4. 心理揣測助力多智能體競爭
 
  除此之外,我們在競爭任務(wù)中深入研究了心理揣測模型的作用。消融實(shí)驗(yàn)顯示(表1):具有心理揣測能力的團(tuán)隊(B-ToM)比沒有心理揣測能力的團(tuán)隊(B)獲得更高的獎勵。此外,對立團(tuán)隊中一方擁有心理揣測模型(B-ToM)使得被推斷出的團(tuán)隊的獎勵(A)會減少。這表明在競爭任務(wù)中,心理揣測增加了一個團(tuán)隊的獎勵并抑制了對立團(tuán)隊的獎勵。當(dāng)兩個團(tuán)隊都有心理揣測模型時,擁有更多智能體的團(tuán)隊(B隊)可以獲得更多獎勵并抑制擁有較少智能體的團(tuán)隊獲得獎勵。這也證實(shí)了我們的模型將有助于人數(shù)較多的團(tuán)隊在競爭性任務(wù)中提高性能。”
 
  
 
  表1. 競爭任務(wù)的消融分析結(jié)果
 
  文章共同作者趙菲菲副研究員介紹:“本研究進(jìn)一步分析了基于自我經(jīng)驗(yàn)、對他人觀測實(shí)現(xiàn)的心理揣測模型在社會決策過程中的影響。從圖5可以發(fā)現(xiàn),基于自我經(jīng)驗(yàn)對他人揣測能夠在交互早期快速地幫助提升合作效率和表現(xiàn),隨著交互中不斷累積到他人的觀測數(shù)據(jù),后期對他人直接建模更加準(zhǔn)確。因此基于自我經(jīng)驗(yàn)和對他人觀測的心理揣測貢獻(xiàn)于社會交互的不同階段,協(xié)同助力多智能體的合作與競爭。
 
  
 
  圖5. 具有自我經(jīng)驗(yàn)的智能體與沒有自我經(jīng)驗(yàn)的智能體在競爭中的表現(xiàn)對比
 
  這項(xiàng)工作受人腦心理揣測的機(jī)理啟發(fā),采用具備生物合理性的脈沖神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,探索人腦區(qū)分自我和他人的心理揣測能力在社會決策中的重要作用。同時,這項(xiàng)研究為探索人機(jī)交互、多智能體社會決策提供了基礎(chǔ)。”
 
  文章責(zé)任作者曾毅研究員說:“對高等認(rèn)知功能,特別是社會認(rèn)知的類腦智能建模是我們課題組比較有特色的研究。文章中的這項(xiàng)研究通過提出并實(shí)現(xiàn)類腦心理揣測模型將心理揣測能力帶給了多智能體,并賦能其在復(fù)雜社會決策中取得應(yīng)用,證明了心理揣測能力在社會交互中能夠幫助高效地合作與競爭。這是我們課題組前期繼探索腦啟發(fā)的心理揣測脈沖神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)智能體推斷他人錯誤信念、幫助他人規(guī)避安全風(fēng)險之后,進(jìn)一步拓展至多智能體社會交互的復(fù)雜協(xié)作與競爭場景的工作。使人工智能具有心理揣測、共情等社會認(rèn)知能力是發(fā)展安全、負(fù)責(zé)任、有道德、可信的人工智能的基礎(chǔ),將促進(jìn)人與人工智能的和諧共生。”
 
  文章鏈接:
 
  https://www.sciencedirect.com/science/article/pii/S2666389923001265
 
  代碼:
 
  https://github.com/BrainCog-X/Brain-Cog/tree/main/examples/Social_Cognition/MAToM-SNN
 
  作者介紹
 
  趙卓雅
 
  中國科學(xué)院自動化研究所類腦認(rèn)知智能研究組2019級博士研究生,導(dǎo)師為曾毅研究員。研究方向?yàn)轭惸X心理揣測與決策模型。目前已在Patterns、Frontiers in Neuroscience等發(fā)表論文多篇。
 
  趙菲菲
 
  中國科學(xué)院自動化研究所類腦認(rèn)知智能研究組副研究員。研究方向?yàn)轭惸X決策、發(fā)育及演化脈沖神經(jīng)網(wǎng)絡(luò)。目前已在Patterns、IEEE Transactions on Cognitive and Developmental Systems、Neural Computation、Scientific Reports、Cognitive Computation、Frontiers in Neuroscience以及人工智能領(lǐng)域重要國際會議IJCAI等發(fā)表論文多篇。
 
  趙宇軒
 
  中國科學(xué)院自動化研究所類腦認(rèn)知智能研究組副研究員。研究方向?yàn)轭惸X認(rèn)知計算建模、高等認(rèn)知功能模擬。目前已在Patterns、iScience、Frontiers in Neuroscience、Cognitive Computation等期刊發(fā)表多篇論文。
 
  曾毅
 
  中國科學(xué)院自動化研究所研究員、類腦認(rèn)知智能研究組負(fù)責(zé)人、腦圖譜與類腦智能實(shí)驗(yàn)室副主任、人工智能倫理與治理研究中心主任;中國科學(xué)院大學(xué)崗位教授、博士生導(dǎo)師;中國人工智能學(xué)會心智計算專委會主任;國家新一代人工智能治理專委會委員;聯(lián)合國教科文組織人工智能倫理特設(shè)專家組專家。研究方向?yàn)椋侯惸X人工智能、人工智能倫理、治理與可持續(xù)發(fā)展。代表性成果發(fā)表在Cell Press細(xì)胞出版社旗下期刊Patterns、iScience、Nature出版社旗下Scientific Data、Scientific Reports、Science出版社旗下Science Advances、以及IEEE Transactions和人工智能領(lǐng)域重要國際會議IJCAI和AAAI等。
 
  孫胤乾
 
  中國科學(xué)院自動化研究所類腦認(rèn)知智能研究組博士研究生。研究方向?yàn)轭惸X信息編碼、感知決策神經(jīng)網(wǎng)絡(luò)。目前已在 iScience、Patterns、Frontiers in Neuroscience等發(fā)表論文多篇。
 
  絡(luò)助力多智能體合作與競爭