第三屆智能決策論壇回顧 | 多智能體強(qiáng)化學(xué)習(xí)分論壇
【ZiDongHua 之會(huì)展賽培壇收錄關(guān)鍵詞: 中國科學(xué)院自動(dòng)化研究所 智能決策 自動(dòng)駕駛 ChatGPT】
第三屆智能決策論壇回顧 | 多智能體強(qiáng)化學(xué)習(xí)分論壇
人工智能作為當(dāng)前最具革命性的技術(shù)之一,正在從感知向認(rèn)知、決策的縱深方向發(fā)展。中國科學(xué)院自動(dòng)化研究所長期堅(jiān)持“智能科學(xué)與技術(shù)”研究,確立了“自主進(jìn)化智能”的核心發(fā)展目標(biāo),將“博弈決策智能系統(tǒng)”作為主攻方向之一。2024年4月13至14日,自動(dòng)化所舉辦“第三屆智能決策論壇”,聚焦大模型、群體智能、強(qiáng)化學(xué)習(xí)等前沿學(xué)術(shù)領(lǐng)域,探討決策智能的未來發(fā)展之路。本系列文章將分專題對論壇報(bào)告進(jìn)行梳理。今天,我們會(huì)詳細(xì)回顧「多智能體強(qiáng)化學(xué)習(xí)分論壇」的四大報(bào)告,歡迎學(xué)界、業(yè)界同仁及人工智能愛好者共同交流探討。
#報(bào)告1
博弈交互學(xué)習(xí)
——一種復(fù)雜系統(tǒng)決策問題的求解范式
報(bào)告人:興軍亮
清華大學(xué)研究員
報(bào)告要點(diǎn):
? 報(bào)告總結(jié)了復(fù)雜系統(tǒng)決策問題研究面臨的主要技術(shù)挑戰(zhàn)。
? 興軍亮研究員分享了其提出的博弈交互學(xué)習(xí)復(fù)雜系統(tǒng)決策問題求解范式、知識數(shù)據(jù)混合驅(qū)動(dòng)學(xué)習(xí)的技術(shù)路線以及由此取得的研究進(jìn)展。
? 興軍亮研究員分享了其提出的能夠吸收人類知識的規(guī)劃器-執(zhí)行器-評估器(PAE)算法訓(xùn)練架構(gòu),可以大幅提升現(xiàn)有RL算法探索效率,為構(gòu)建人類可參與的交互式博弈學(xué)習(xí)范式提供研究和算法基礎(chǔ)。
興軍亮研究員首先介紹了復(fù)雜系統(tǒng)智能決策問題的研究背景,從感知智能、認(rèn)知智能到復(fù)雜系統(tǒng)決策智能,深入回顧了深度學(xué)習(xí)引發(fā)的人工智能研究熱潮在過去十余年來的主要進(jìn)展。然而面向復(fù)雜系統(tǒng)的決策問題還存在諸多技術(shù)瓶頸,興軍亮研究員指出,復(fù)雜系統(tǒng)所呈現(xiàn)出的多尺度性、多層次性和時(shí)空演化性給相關(guān)研究帶來了極大挑戰(zhàn),強(qiáng)對抗環(huán)境下的復(fù)雜系統(tǒng)智能決策問題還需要大量研究。
復(fù)雜系統(tǒng)決策問題的應(yīng)用場景多為巨復(fù)雜、高動(dòng)態(tài)、不確定的強(qiáng)對抗環(huán)境,面臨著難建模、難計(jì)算、難解釋等技術(shù)挑戰(zhàn),興軍亮對其中的主要技術(shù)挑戰(zhàn)進(jìn)行了總結(jié):包括稀疏獎(jiǎng)勵(lì)和長時(shí)依賴、缺數(shù)據(jù)少知識難學(xué)習(xí)、在線適應(yīng)與遷移難實(shí)現(xiàn)、復(fù)雜異構(gòu)群體協(xié)作競爭、進(jìn)化目標(biāo)不確定難評價(jià)等。針對上述技術(shù)挑戰(zhàn),興軍亮提出了一種博弈交互學(xué)習(xí)的研究范式,其主要思路是將傳統(tǒng)的計(jì)算博弈理論方法和最新的機(jī)器學(xué)習(xí)算法技術(shù)融合到一個(gè)框架中進(jìn)行建模計(jì)算,同時(shí)利用人機(jī)交互過程對學(xué)習(xí)結(jié)果、學(xué)習(xí)過程以及模型機(jī)理的可解釋性進(jìn)行探究。
基于博弈交互學(xué)習(xí)研究范式,在解決具體問題的過程中進(jìn)一步設(shè)計(jì)了知識數(shù)據(jù)混合驅(qū)動(dòng)學(xué)習(xí)的技術(shù)路線,目的是通過吸納知識推理學(xué)習(xí)和數(shù)據(jù)擬合學(xué)習(xí)的各自優(yōu)勢,實(shí)現(xiàn)知識和數(shù)據(jù)雙向的迭代增強(qiáng)。這一技術(shù)路線的實(shí)現(xiàn)主要分為三個(gè)過程:第一步,由知識推理模型引導(dǎo)數(shù)據(jù)學(xué)習(xí);第二步,由數(shù)據(jù)學(xué)習(xí)結(jié)果驅(qū)動(dòng)知識發(fā)現(xiàn):第三步,是不斷重復(fù)上述兩步實(shí)現(xiàn)雙向迭代增強(qiáng)。學(xué)習(xí)驅(qū)動(dòng)典型復(fù)雜系統(tǒng)從初始狀態(tài)到有序、再到高級決策的完整智能生成過程。
興軍亮團(tuán)隊(duì)近年來依托博弈交互學(xué)習(xí)的求解范式和知識數(shù)據(jù)混合驅(qū)動(dòng)學(xué)習(xí)的技術(shù)路線,圍繞智能體與環(huán)境(單體探索)、智能體之間(群體博弈)、以及智能體與人(人機(jī)混合)的交互學(xué)習(xí)問題開展核心算法研究,取得了系列成果。
興軍亮重點(diǎn)介紹了引入人類外部知識的高效探索AI。人類擅長從外部知識中吸收有益見解。這種能力對于AI同樣重要。但目前的RL智能體仍需通過大量試錯(cuò)來進(jìn)行學(xué)習(xí)。興軍亮提出了一種能夠吸收人類知識的規(guī)劃器-執(zhí)行器-評估器(PAE)算法訓(xùn)練架構(gòu):外部知識以自然語言的形式呈現(xiàn),規(guī)劃器由易到難提供外部知識,執(zhí)行器遵循指導(dǎo)逐漸掌握復(fù)雜技能,評估器以獎(jiǎng)勵(lì)同時(shí)驅(qū)動(dòng)規(guī)劃器和執(zhí)行器更新。該算法可以大幅提升現(xiàn)有RL算法探索效率,為構(gòu)建人類可參與的交互式博弈學(xué)習(xí)范式提供研究和算法基礎(chǔ)。
出于真實(shí)模擬、有限邊界、天使標(biāo)準(zhǔn)、無損探索、有趣益智的考慮,興軍亮團(tuán)隊(duì)采用各類不同游戲作為實(shí)驗(yàn)環(huán)境。他逐一展示了圍繞Atari游戲、星際爭霸、德州撲克、國標(biāo)麻將、王者榮耀、足球比賽等典型游戲所開發(fā)的一系列AI的應(yīng)用效果。
最后,興軍亮指出,現(xiàn)有博弈學(xué)技術(shù)需要利用海量訓(xùn)練數(shù)據(jù)、消耗巨大計(jì)算資源、采用暴力學(xué)習(xí)復(fù)雜映射關(guān)系?,F(xiàn)有問題求解范式也仍存在著學(xué)習(xí)過程不透明,進(jìn)化機(jī)理不明確,無法實(shí)現(xiàn)知識演化的主要問題。他將繼續(xù)以知識演化為目標(biāo),通過知識表征、抽象、遷移,突破知識推理和數(shù)據(jù)學(xué)習(xí)融合的混合驅(qū)動(dòng)交互學(xué)習(xí)決策技術(shù),創(chuàng)新知識數(shù)據(jù)雙向循環(huán)、迭代增強(qiáng)的技術(shù)解決方案,實(shí)現(xiàn)面向復(fù)雜系統(tǒng)的可共進(jìn)增強(qiáng)的人機(jī)混合智能。
#報(bào)告2
深度強(qiáng)化學(xué)習(xí)的挑戰(zhàn)及落地
報(bào)告人:郝建業(yè)
天津大學(xué)副教授
華為諾亞決策推理實(shí)驗(yàn)室主任
報(bào)告要點(diǎn):
? 在全新的大模型學(xué)習(xí)范式下,強(qiáng)化學(xué)習(xí)仍在決策模型中扮演著重要的作用。
? 郝建業(yè)副教授分享了策略表征、世界模型和高效探索的新思路,可支撐在線強(qiáng)化學(xué)習(xí)獲取高質(zhì)量數(shù)據(jù)。
? 郝建業(yè)副教授團(tuán)隊(duì)構(gòu)建了具備5種不同類型反饋、1500萬時(shí)間步的標(biāo)注數(shù)據(jù)、超過30種仿真環(huán)境、不同獎(jiǎng)勵(lì)模型擬合方法的開源RLHF通用平臺(tái)和基準(zhǔn)Uni-RLHF,推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展。
郝建業(yè)副教授首先快速梳理了傳統(tǒng)強(qiáng)化學(xué)習(xí)范式,包括離線強(qiáng)化學(xué)習(xí)以及在線強(qiáng)化學(xué)習(xí)中的on-policy學(xué)習(xí)和off-policy學(xué)習(xí)。在剛剛到來的大模型時(shí)代,決策領(lǐng)域又產(chǎn)生了全新的兩階段學(xué)習(xí)范式:預(yù)訓(xùn)練 + 微調(diào),即第一階段進(jìn)行離線預(yù)訓(xùn)練:采集海量數(shù)據(jù),用離線方法訓(xùn)練一個(gè)具有一定泛化性的預(yù)訓(xùn)練策略或世界模型;然后第二階段進(jìn)行在線微調(diào):將第一階段得到的策略或世界模型在線地與環(huán)境進(jìn)行少量的交互迭代,得到當(dāng)前真實(shí)任務(wù)下的一個(gè)魯棒策略。郝建業(yè)強(qiáng)調(diào),在全新的大模型學(xué)習(xí)范式下,強(qiáng)化學(xué)習(xí)仍在決策模型中扮演著重要的作用。
高效的離線預(yù)訓(xùn)練離不開海量高質(zhì)量的數(shù)據(jù)。郝建業(yè)提出利用高效在線強(qiáng)化學(xué)算法自動(dòng)獲取和收集多樣化場景下的海量數(shù)據(jù),主要?jiǎng)?chuàng)新性體現(xiàn)在三個(gè)方面:策略表征、世界模型和高效探索。
策略表征拓展的值函數(shù):將策略表征引入到價(jià)值函數(shù)中,在GPI過程中每次根據(jù)當(dāng)前策略采樣的樣本估計(jì)改進(jìn)之后的策略時(shí),利用策略表征拓展的值函數(shù),借由神經(jīng)網(wǎng)絡(luò)的泛化性對改進(jìn)之后策略做泛化,從而降低強(qiáng)化學(xué)習(xí)算法跟環(huán)境采樣的成本。理論分析證明了該方法的收斂性。對于多智能體場景,決策空間隨著智能體數(shù)量的增加而指數(shù)級增長,因此需要考慮對策略空間在建模階段做一個(gè)約減。郝建業(yè)提出置換不變性和置換等變性兩個(gè)屬性,減少同類型策略的重復(fù)學(xué)習(xí),利用超網(wǎng)絡(luò)架構(gòu)在任何多智能體學(xué)習(xí)框架前后中增添置換不變性和置換等變性的考量,從而降低策略的擬合難度。
將世界模型與上述置換不變性和置換等變性屬性相結(jié)合:針對蒙特卡洛樹搜索進(jìn)行的策略搜索,設(shè)計(jì)上述兩種屬性的世界模型,從而實(shí)現(xiàn)在多智能體的復(fù)雜策略空間的高效樹搜索。上述僅依靠置換不變性和置換等變性考量的多智能體方法已經(jīng)取得出色的成績,在添加相應(yīng)世界模型后,性能將得到進(jìn)一步的提升。
策略表征與高效探索相融合:提出了強(qiáng)化學(xué)習(xí)與演化學(xué)習(xí)相融合的學(xué)習(xí)方法ERL-Re2,演化學(xué)習(xí)雖然可以幫助強(qiáng)化學(xué)習(xí)探索到更好的策略,跳出局部最優(yōu),但是它需要跟環(huán)境做大量的并行交互。因此將策略表征直接帶入到評估模型中,可以近似預(yù)測出當(dāng)前策略的好壞,從而極大降低策略與環(huán)境的交互成本,達(dá)到“1+1>2”的效果。
郝建業(yè)接下來簡要回顧了離線學(xué)習(xí)中的策略約束方法和價(jià)值約束方法,同時(shí)概述了當(dāng)下最有潛力實(shí)現(xiàn)魯棒泛化策略的兩個(gè)架構(gòu)Transformer和Diffusion Model。類比大模型的訓(xùn)練,郝建業(yè)認(rèn)為在決策領(lǐng)域同樣需要RLHF的過程。針對當(dāng)前RLHF面臨的三個(gè)棘手問題:只有二元反饋信息、標(biāo)注成本極高以及缺乏好的獎(jiǎng)勵(lì)模型,郝建業(yè)團(tuán)隊(duì)構(gòu)建了的具備5種不同類型反饋、1500萬時(shí)間步的標(biāo)注數(shù)據(jù)、超過30種仿真環(huán)境、不同獎(jiǎng)勵(lì)模型擬合方法的開源RLHF通用平臺(tái)和基準(zhǔn)Uni-RLHF,推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展。
最后,郝建業(yè)還分享了過去兩年他和研究團(tuán)隊(duì)利用兩階段訓(xùn)練范式產(chǎn)出的兩個(gè)在工業(yè)界實(shí)際落地的項(xiàng)目。第一,在強(qiáng)交互博弈場景如路口或多車處的自動(dòng)駕駛技術(shù),根據(jù)真車實(shí)際路測的結(jié)果可知,兩階段訓(xùn)練范式可以幫助自動(dòng)駕駛汽車大大提升換道的靈活性與正確性。第二,芯片設(shè)計(jì)中上百個(gè)模塊宏觀布局的多約束多目標(biāo)優(yōu)化問題,利用工業(yè)界芯片設(shè)計(jì)的相關(guān)數(shù)據(jù)進(jìn)行離線訓(xùn)練后,在線學(xué)習(xí)階段算法僅需交互很少的次數(shù)就可以獲得遠(yuǎn)遠(yuǎn)超過已有方法的優(yōu)異性能。
#報(bào)告3
開放環(huán)境下的多智能體強(qiáng)化學(xué)習(xí)
報(bào)告人:溫穎
上海交通大學(xué)副教授
報(bào)告要點(diǎn):
? 報(bào)告探討了多模態(tài)預(yù)訓(xùn)練大模型為智能體交互決策提供泛化的可能性與挑戰(zhàn),分享了跨任務(wù)的環(huán)境與策略學(xué)習(xí)、大規(guī)模混合博弈策略學(xué)習(xí)、環(huán)境變化下的在線自適應(yīng)等技術(shù)創(chuàng)新,暢想了決策智能在多智能體游戲AI、生產(chǎn)調(diào)度和機(jī)器人任務(wù)中的無限潛力。
溫穎副教授圍繞多智能體合作和復(fù)雜雙人零和博弈簡要回顧了多智能體深度強(qiáng)化學(xué)習(xí)自2016年來的發(fā)展。他指出,在開放環(huán)境下,現(xiàn)有多智能體強(qiáng)化學(xué)習(xí)算法始終面臨泛化性能十分低下的挑戰(zhàn),包括:任務(wù)的異構(gòu)性與多樣性、合作/競爭博弈學(xué)習(xí)算法以及混合動(dòng)機(jī)博弈的學(xué)習(xí)目標(biāo)對齊。圍繞上述挑戰(zhàn),溫穎副教授分享了其團(tuán)隊(duì)的研究成果。
1. 跨任務(wù)的環(huán)境與策略學(xué)習(xí)
溫穎首先介紹了基于Transformer架構(gòu)的在線/離線策略學(xué)習(xí)。受Decision-Transformer啟發(fā),將多智能體決策也視為一個(gè)序列化決策的過程,用統(tǒng)一的網(wǎng)絡(luò)對所有智能體進(jìn)行序列建模,通過每個(gè)智能體在序列中所處的“位置”對其區(qū)分。這種做法能夠充分利用訓(xùn)練樣本,在提升同構(gòu)智能體訓(xùn)練效率的同時(shí),減小異構(gòu)智能體策略間的互相干擾。該方法保證單調(diào)提升的情況下,允許所有策略同時(shí)訓(xùn)練,極大降低大規(guī)模智能體訓(xùn)練的時(shí)間成本。
進(jìn)一步地,以決策大模型為中心展開泛化決策控制研究,統(tǒng)一決策感知與輸出空間建模,將不同任務(wù)數(shù)據(jù)處理成統(tǒng)一的Token實(shí)現(xiàn)“數(shù)據(jù)模態(tài)統(tǒng)一”,并將所有任務(wù)都轉(zhuǎn)化為序列建模任務(wù)實(shí)現(xiàn)“任務(wù)統(tǒng)一”。其多模態(tài)決策大模型DB1在超過870個(gè)任務(wù)上測試,其中在80%的任務(wù)上性能超過專家性能50%。
面對語言智能體根據(jù)任務(wù)反饋微調(diào)所面臨的學(xué)習(xí)目標(biāo)不匹配和優(yōu)化粒度差異的挑戰(zhàn),溫穎提出基于最大熵正則的詞元層次策略優(yōu)化,將原始最大化獎(jiǎng)勵(lì)目標(biāo)轉(zhuǎn)化為最優(yōu)決策序列的概率建模問題,使用詞元級軟貝爾曼更新以及詞元級策略更新以完成優(yōu)化粒度的對齊。另一方面,利用AlphaZero式的樹搜索改善大型語言模型的解碼過程,通過樹搜索增強(qiáng)LLM的推理能力,為訓(xùn)練集提供改進(jìn)的軌跡。溫穎團(tuán)隊(duì)提出的TS-LLM為LLM訓(xùn)練提供新的范式,通過策略精煉和價(jià)值函數(shù)學(xué)習(xí)進(jìn)一步提升模型性能。
2. 大規(guī)?;旌喜┺牟呗詫W(xué)習(xí)
溫穎首先介紹了混合動(dòng)機(jī)博弈的學(xué)習(xí)目標(biāo)對齊問題,希望對齊個(gè)體與集體獎(jiǎng)勵(lì)。由于個(gè)體損失最小化可能導(dǎo)致個(gè)體之間或個(gè)體與集體目標(biāo)之間的沖突,通過構(gòu)建可微的混合動(dòng)機(jī)博弈DMG,并提出AgA算法,實(shí)現(xiàn)從梯度角度對齊個(gè)體和集體目標(biāo)。該方法在公共利益等混合博弈問題中有出色的表現(xiàn)。
針對團(tuán)隊(duì)博弈的合作相關(guān)均衡與求解,溫穎將傳統(tǒng)1對1的純競爭博弈擴(kuò)展為n對m的合作競爭混合型博弈問題,在該問題中可以把所有智能體考慮成一個(gè)大智能體進(jìn)行求解。然而尋找不可利用的CTME均衡具有很高的計(jì)算復(fù)雜性,一旦有智能體背叛團(tuán)隊(duì),就無法收斂到CTME均衡。于是溫穎提出團(tuán)隊(duì)博弈中合作受限下的不可利用的rCTME均衡,在僅有部分智能體進(jìn)行合作的情況下,利用團(tuán)隊(duì)合作因子衡量團(tuán)隊(duì)合作的強(qiáng)度,從而在個(gè)體納什均衡與CTME均衡之間進(jìn)行權(quán)衡。
3. 環(huán)境變化下的在線自適應(yīng)
溫穎提出關(guān)節(jié)動(dòng)力自適應(yīng)模型ADAPT,利用知識蒸餾的架構(gòu),實(shí)現(xiàn)機(jī)器人自動(dòng)適應(yīng)不同程度的關(guān)節(jié)執(zhí)行器失能的情況,增強(qiáng)復(fù)雜環(huán)境中四足機(jī)器人對自身執(zhí)行器狀態(tài)的魯棒性;對于即時(shí)合作或零樣本協(xié)作問題,充分利用離線數(shù)據(jù)訓(xùn)練即時(shí)協(xié)作智能體,直接學(xué)習(xí)任意對手的最佳應(yīng)對,并在線不斷修正?;诹銟颖緩?qiáng)化學(xué)習(xí)的思路,將不同的對手視為不同的狀態(tài)-獎(jiǎng)勵(lì)分布,從而得到不同的獎(jiǎng)勵(lì)函數(shù)編碼。在訓(xùn)練階段,從離線數(shù)據(jù)中挑選分布不同的若干組軌跡作為獎(jiǎng)勵(lì)函數(shù)先驗(yàn),訓(xùn)練編解碼器和強(qiáng)化學(xué)習(xí)策略。在在線部署時(shí),僅需進(jìn)行零樣本或少樣本的交互即可在測試中取得優(yōu)秀的效果。
溫穎指出,多模態(tài)預(yù)訓(xùn)練大模型為智能體交互決策提供了泛化的可能性與基礎(chǔ)。AIGA的關(guān)鍵在于A(Action),可以降本增效并廣泛應(yīng)用在復(fù)雜的現(xiàn)實(shí)生產(chǎn)活動(dòng)中,為更廣泛、更動(dòng)態(tài)和更復(fù)雜的任務(wù)給出最優(yōu)策略。決策智能在多智能體游戲AI、生產(chǎn)調(diào)度和機(jī)器人任務(wù)中的都有無限潛力。以ChatGPT為代表的產(chǎn)品將成為人類大腦的延伸,提供更智能、高效、自然的與人交互的方式,同時(shí)還能通過工具的使用幫助人類更好地與世界互動(dòng)。
#報(bào)告4
開放環(huán)境智能博弈:大規(guī)模智能體策略的魯棒性和泛化性學(xué)習(xí)
報(bào)告人:彭佩璽
北京大學(xué)助理教授
報(bào)告要點(diǎn):
? 報(bào)告分析了大規(guī)模智能體策略學(xué)習(xí)的面臨的魯棒性和泛化性兩個(gè)難點(diǎn)。
? 針對魯棒性難題,報(bào)告分享了基于中心化優(yōu)化的分布式策略學(xué)習(xí)框架,通過逐步優(yōu)化,可以實(shí)現(xiàn)策略的穩(wěn)步提升,學(xué)習(xí)性能達(dá)到了SOTA的中心化學(xué)習(xí)方法的水平,并遠(yuǎn)超其他分布式學(xué)習(xí)方法。
? 針對泛化性難題,報(bào)告分享了智能體學(xué)習(xí)中的潛在變量推理假設(shè),并通過實(shí)踐驗(yàn)證了其在跨場景遷移方面的優(yōu)勢。
彭佩璽助理教授首先提出了大規(guī)模智能體策略學(xué)習(xí)的兩個(gè)難點(diǎn):一是魯棒性。對于每一個(gè)智能體而言,其狀態(tài)轉(zhuǎn)移和獎(jiǎng)勵(lì)函數(shù)與其他智能體相關(guān),在同樣觀測下做出同樣的動(dòng)作可能會(huì)收到不同的獎(jiǎng)勵(lì)和狀態(tài)轉(zhuǎn)移。對于神經(jīng)網(wǎng)絡(luò)來說,相當(dāng)于一個(gè)樣本有不同甚至完全相反的標(biāo)簽,這會(huì)讓學(xué)習(xí)變得非常不穩(wěn)定。二是泛化性。大規(guī)模智能體策略訓(xùn)練代價(jià)極大,不僅消耗算力,還會(huì)對實(shí)際社會(huì)產(chǎn)生很大風(fēng)險(xiǎn),因此需要訓(xùn)練好的策略模型能在未訓(xùn)練環(huán)境下具有一定的泛化性。
為解決大規(guī)模智能體策略的魯棒性學(xué)習(xí)問題,彭佩璽提出了基于中心化優(yōu)化的分布式策略學(xué)習(xí)框架。該框架通過中心化優(yōu)化的方式來求解策略,并借鑒反事實(shí)推理建模每個(gè)智能體的分布式策略。中心化優(yōu)化使得策略更加魯棒,而分布式策略使得神經(jīng)網(wǎng)絡(luò)能夠更容易地學(xué)習(xí)?;谶@一思想,通過仿真或者價(jià)值網(wǎng)絡(luò)進(jìn)行中心化的態(tài)勢價(jià)值估計(jì),再使用中心化優(yōu)化算法,求解中心化策略。中心化的策略作為一個(gè)標(biāo)簽反饋給分布式的策略網(wǎng)絡(luò),策略網(wǎng)絡(luò)再在仿真環(huán)境進(jìn)行自博弈,產(chǎn)生新的博弈價(jià)值。
根據(jù)博弈類型的不同,彭佩璽分別為混合策略博弈和純策略博弈提出了不同的優(yōu)化算法。對于混合策略博弈,提出多智能體動(dòng)態(tài)不后悔策略,希望策略在評估的過程中后悔值趨近0。由于無法在多項(xiàng)式復(fù)雜度的時(shí)間內(nèi)求解該問題,于是對多智能體的不后悔策略進(jìn)行近似求解。在每次更新時(shí)固定其他智能體策略,利用單智能體不后悔策略求解算法更新當(dāng)前智能體的不后悔策略,進(jìn)行迭代式逼近。對于純策略博弈問題,由于中心化優(yōu)化算法無法在多項(xiàng)式內(nèi)時(shí)間內(nèi)進(jìn)行求解,彭佩璽提出從全局最優(yōu)求解退化為納什均衡求解。使用最優(yōu)反應(yīng)算法,在每次迭代中固定其他智能體動(dòng)作,求解當(dāng)前智能體的最優(yōu)動(dòng)作。在理想情況下,基于策略網(wǎng)絡(luò)自博弈的狀態(tài)價(jià)值大于或等于基于專家知識的狀態(tài)價(jià)值,實(shí)現(xiàn)策略的穩(wěn)步提升。
雖然基于中心化優(yōu)化的分布式策略學(xué)習(xí)取得了成功,但在智能體數(shù)目增加時(shí),中心化優(yōu)化算法卻顯示出了極大弊端。為此,彭佩璽進(jìn)一步分享了僅靠分布式學(xué)習(xí)的基于動(dòng)態(tài)信念學(xué)習(xí)的分布式智能體學(xué)習(xí)機(jī)制。受人類決策時(shí)的信念通路與決策通路啟發(fā),彭佩璽團(tuán)隊(duì)嘗試讓智能體去預(yù)測其他智能體的行為,將預(yù)測當(dāng)做貝葉斯先驗(yàn)以指導(dǎo)學(xué)習(xí)。再進(jìn)一步借鑒Transformer的Q-K-V過程挖掘出適合訓(xùn)練動(dòng)態(tài)信念的樣本用于輔助訓(xùn)練。該方法的學(xué)習(xí)性能達(dá)到了SOTA的中心化學(xué)習(xí)方法的水平,并遠(yuǎn)超其分他布式學(xué)習(xí)方法。
為進(jìn)一步提高大規(guī)模智能體策略學(xué)習(xí)的泛化性,基于上述信念學(xué)習(xí)的模型,彭佩璽團(tuán)隊(duì)嘗試把小規(guī)模的訓(xùn)練場景遷移到大規(guī)模的場景。
在大規(guī)模智能體學(xué)習(xí)中,每個(gè)智能體有單獨(dú)的狀態(tài)轉(zhuǎn)移、獎(jiǎng)勵(lì)和策略函數(shù),構(gòu)成了策略泛化的難點(diǎn)之一。為了提升泛化性,彭佩璽團(tuán)隊(duì)提出智能體學(xué)習(xí)中的潛在變量推理。假設(shè)存在一潛在變量代表智能體特性,在推理過程中,利用智能體的軌跡對智能體的特性進(jìn)行推理。由于傳統(tǒng)策略函數(shù)只利用當(dāng)前觀測作為輸入,無法建模智能體本身的特性,因此會(huì)造成策略模型難以泛化,而把每個(gè)智能體的特性用潛在變量表示,從而把共性的部分用函數(shù)來建模,就能提升策略模型的泛化性。此外,潛在變量不但可以提升模型的泛化性,還可以平衡開發(fā)與探索,與內(nèi)在獎(jiǎng)勵(lì)相結(jié)合提升模型的魯棒性。該方法在濟(jì)南、杭州、深圳和紐約等城市的交通燈控制任務(wù)上遠(yuǎn)超傳統(tǒng)優(yōu)化類方法和強(qiáng)化學(xué)習(xí)方法,同時(shí)在杭州訓(xùn)練的模型可以直接遷移到其他城市,做到跨場景遷移性能下降最小。
最后,彭佩璽分享了以神經(jīng)網(wǎng)絡(luò)群體進(jìn)化算法為基礎(chǔ)的混合博弈聯(lián)盟訓(xùn)練的實(shí)際應(yīng)用,并對多模態(tài)強(qiáng)化學(xué)習(xí)以及類腦博弈與脈沖強(qiáng)化等方向成果進(jìn)行了概述,暢想大規(guī)模智能體策略魯棒性學(xué)習(xí)和泛化性學(xué)習(xí)的無限未來。
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:智能決策微信群、自動(dòng)駕駛微信群、ChatGPT微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
微信聯(lián)盟:智能決策微信群、自動(dòng)駕駛微信群、ChatGPT微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
我要收藏
個(gè)贊
評論排行