會展賽培壇

推好自動化科技觀察：第二屆智能決策論壇 | 報告回顧（上）：業(yè)內(nèi)專家分享決策智能研究最新進展！

時間：2022-07-06 08:31:25 發(fā)布：自動化網(wǎng) 來源：中國科學院自動化研究所搜狐網(wǎng) 第一對焦：智能決策

【推好自動化科技觀察】：聚焦決策智能研究最新進展，促進前沿技術的應用落地。6月18日，第二屆智能決策論壇正式召開，吸引超十萬人次線上實時觀看互動！論壇邀請了七位領域知名學者做學術報告，分享決策智能領域研究的前沿成果。本系列文章將對嘉賓帶來的精彩報告進行回顧梳理，歡迎各位讀者一同討論交流！
決策智能是新一代人工智能的重要發(fā)展方向之一，具有廣闊的研究和應用前景。為聚焦決策智能研究最新進展，促進前沿技術的應用落地，第二屆智能決策論壇于6月18日正式召開，吸引超10萬人線上參與。本次論壇由中國科學院自動化研究所主辦，中科南京人工智能創(chuàng)新研究院承辦。

第二屆智能決策論壇 | 報告回顧（上）：業(yè)內(nèi)專家分享決策智能研究最新進展！

決策智能是新一代人工智能的重要發(fā)展方向之一，具有廣闊的研究和應用前景。為聚焦決策智能研究最新進展，促進前沿技術的應用落地，第二屆智能決策論壇于6月18日正式召開，吸引超10萬人線上參與。本次論壇由中國科學院自動化研究所主辦，中科南京人工智能創(chuàng)新研究院承辦。

01

智能決策和學習中的挑戰(zhàn)

洪奕光

同濟大學教授

來自同濟大學上海自主智能無人系統(tǒng)科學中心的洪奕光教授帶來了《智能決策和學習中的挑戰(zhàn)》主題報告。洪奕光教授首先從群體智能決策的背景和現(xiàn)狀出發(fā)，提出了目前智能決策發(fā)展的三個方向：“高”，即將不同層次的決策和控制融合在一起；“寬”，即擴大問題規(guī)模、將問題網(wǎng)絡化；“深”，即針對特定問題的研究不斷深入。

從當前智能決策的相關發(fā)展，可以看出“智能”既給我們帶來了強有力的工具，也帶來了新的挑戰(zhàn)。洪奕光教授分別從分布式?jīng)Q策、層次化集成設計和決策學習中的非線性這三個方面介紹了當前智能決策和學習中所面臨的挑戰(zhàn)。

● 分布式?jīng)Q策

洪奕光教授認為，分布式?jīng)Q策可以表示為：“分布式?jīng)Q策 = 決策(優(yōu)化/博弈) + 多智能體系統(tǒng)”。相比于集中式?jīng)Q策，分布式?jīng)Q策則是將優(yōu)化目標函數(shù)分為多個，交由多個智能體進行優(yōu)化，并且這些智能體在優(yōu)化過程中通過交互中間變量，從而實現(xiàn)整體最優(yōu)。同時，針對決策中優(yōu)化和博弈間的關系，洪奕光教授認為優(yōu)化可以是博弈的特例，而博弈也可以說是優(yōu)化的推廣，這在一定程度上統(tǒng)一了兩者的研究。

接著，報告以實際問題為例，介紹了當前分布式?jīng)Q策中可能遇到的挑戰(zhàn)。如在“分布式資源分配”中，目標函數(shù)是非光滑函數(shù)、資源分配的不等式約束、含不確定性的多種約束等都是這類問題中常見的難點。洪奕光教授在研究分布式的在線優(yōu)化學習時，提出了基于“全信息反饋”和“Bandit反饋”兩種方式的算法，并取得了與現(xiàn)有結果同等量級時間復雜度的效果。而從分布式凸優(yōu)化出發(fā)，實際上其許多推廣問題，如非凸優(yōu)化、在線或魯棒優(yōu)化、矩陣優(yōu)化、動態(tài)優(yōu)化等，均有待進一步研究。對于分布式對抗博弈的研究，其挑戰(zhàn)性則主要體現(xiàn)在博弈種類多、不完全信息等方面。

● 層次化集成設計

在層次化集成設計方面所遇到的挑戰(zhàn)，報告則主要從信息層和物理層兩個角度進行介紹。其中，信息層主要負責決策，而物理層則主要負責控制。洪奕光教授提到，決策與控制實際上在一開始就關系密切，隨著過去幾十年決策與控制的研究獨立發(fā)展并趨于成熟，當今高科技給出了新機遇——控制和決策的綜合成了必然。

然而，決策優(yōu)化通常都是離散的，而真實的物理控制則是連續(xù)的，因此當進行上下層一體化設計時，整個問題變成了一個混雜系統(tǒng)的優(yōu)化，相比之下變得更加復雜。報告從無人機的協(xié)同和Euler-Lagrange系統(tǒng)的優(yōu)化這兩個例子出發(fā)，簡單展示了數(shù)學理論是如何將決策與控制結合在一起的，并給出了一般系統(tǒng)的設計框架：先做預處理、再做優(yōu)化設計、最后跟蹤控制。根據(jù)代價函數(shù)是否顯示表達，決策與控制的結合可以分為兩種情況：離線和在線。其中離線情況下，先將決策“離線”分布式得到，隨后設計集中式的跟蹤控制；而在線情況下，先將決策和跟蹤控制器分別設計，再進行“在線”一體化耦合。目前洪奕光教授采用閉環(huán)集成的方式實現(xiàn)優(yōu)化決策和物理系統(tǒng)的結合，但仍有更多更復雜的挑戰(zhàn)。同時，洪奕光教授還給出了與決策和控制集成相關的一些研究架構，如圖1所示。

圖1 決策和控制集成相關研究架構

● 決策學習中的非線性

最后，洪奕光教授討論了決策學習中的非線性。雖然非線性會給問題帶來很多復雜的現(xiàn)象，但是如果能利用好它，那么也可以帶來好處、提高效率。決策設計中非線性出現(xiàn)的場合非常多，如：指標函數(shù)、約束條件、算法設計的輔助項、切換拓撲等。在本次討論中，洪奕光教授以非光滑映射、低維的流形兩個典型例子為例，介紹了他在智能決策中的相關工作。

在一個非光滑問題中，其難點主要為：一般凸（解不唯一）、具有非光滑的代價函數(shù)和非光滑的集合約束，這使得算法設計中解的存在性和算法的收斂性證明比較困難。但是在聚合博弈中，洪奕光教授通過引入非光滑，使該問題的方程少一階，從而減少問題的不確定性并保證了算法的收斂性，這在一定程度上體現(xiàn)了非光滑映射的好處。

而在低維流形方面的相關研究中，洪奕光教授通過研究并利用流形中的結構（尤其是負曲率），對在線梯度下降算法進行改進，并與當前歐氏空間中最好的結果相比取得了更好的結果。另外，在基于流形匹配多模態(tài)數(shù)據(jù)整合的研究中，洪奕光教授根據(jù)集合拓撲結構給出優(yōu)化指標，提出了單細胞多模態(tài)全局流形整合的方法；而在處理模態(tài)數(shù)據(jù)集間只有一部分細胞類型的情況下，洪奕光教授基于局部Gromv-Wasserstein的最優(yōu)傳輸框架，提出了單細胞多模態(tài)局部流形整合的方法。

在結尾部分，報告總結了智能系統(tǒng)的廣泛應用，認為它現(xiàn)在雖然可以解決很多復雜問題，但仍有很大的研究探索空間。同時，隨著研究的不斷進展，跨學科、跨領域的知識融合，對于智能決策的相關研究也有非常大的推動作用。

02

合作型多智能體強化學習的應用探索

李厚強

中國科學技術大學教授

來自中國科學技術大學的李厚強教授從多智能體強化學習角度展開，首先向我們介紹了多智能體強化學習的背景知識。智能體通過傳感器感知環(huán)境，然后通過執(zhí)行器作用于環(huán)境，而多智能體系統(tǒng)是一個在環(huán)境中交互的多個智能體組成的系統(tǒng)。多智能體強化學習實際上是一個序貫決策問題（當前的動作不僅影響即時收益，還會影響后續(xù)環(huán)境狀態(tài)和未來收益）。根據(jù)智能體之間的利益關系，多智能體系統(tǒng)還可以分為合作型多智能體系統(tǒng)、競爭性多智能體系統(tǒng)和混合型多智能體系統(tǒng)。

而根據(jù)訓練范式的不同，又可以分為中心化訓練中心化執(zhí)行、分布式訓練去中心化式執(zhí)行和中心化訓練去中心化執(zhí)行。

接著，李厚強教授從狀態(tài)表征、信用分配、任務分工、異常處理等多個角度出發(fā)，向我們分享了合作型多智能體強化學習的研究熱點。

● 狀態(tài)表征

由于實際的原始問題輸入的狀態(tài)規(guī)模爆炸，導致強化學習性能提升慢、訓練開銷大，如何從高維輸入狀態(tài)中抽取出任務有關信息的隱狀態(tài)是實現(xiàn)高效強化學習的關鍵。李厚強教授提出了一種隨機遮擋順序輸入表征學習的訓練范式，通過恢復遮擋輸入的隱狀態(tài)和對比損失函數(shù)優(yōu)化網(wǎng)絡實現(xiàn)高效地學習。

● 信用分配

多智能體問題中環(huán)境往往只給出了整體性團隊回報，但是僅有團隊獎勵作為評價標準可能會引起Lazy Agent問題，使有些智能體在訓練時不處理，表現(xiàn)消極，僅由部分智能體發(fā)揮作用。李厚強教授提出，利用信用分配，從團隊獎勵中分解出每個智能體的貢獻，引導其形成積極的。有利于團隊的策略。目前的主流信用分配方法有使用聚合Individual Q函數(shù)的方式實現(xiàn)隱式信用分配，但分配機制仍是黑盒，作用機制仍不明確。李厚強教授提出，對QMIX的聚合方式進一步簡化，并在原有損失函數(shù)上加入熵正則項有利于提高QMIX的勝率。

● 任務分工

一個復雜的協(xié)作多智能體問題往往可以分解成多個子任務，不同子任務對應不同的工作職責，如在足球比賽中，有擔任前鋒、中鋒、后衛(wèi)和門將這些不同的職位。像中心化訓練去中心化執(zhí)行這種共享網(wǎng)絡參數(shù)的訓練方式確實有利于降低訓練復雜度，但是不利于智能體行為多樣性。一種折中的方法是將系統(tǒng)問題分為多個不同的子任務，不同的子任務之間可以共享網(wǎng)絡參數(shù)。

用這種思想在SMAC等多個場景中測試，勝率和訓練速度方面都要優(yōu)于baseline。

● 異常處理

經(jīng)典的多智能體強化學習默認智能體可以一直正常運行，但是實際上，在訓練過程中有些智能體會出現(xiàn)崩潰，導致訓練所得策略無法適配。針對這種情況，李厚強教授提出可以通過調(diào)整出錯率進行隨機采樣來決定智能體是否崩潰，然后針對不同的出錯率采用不同的策略進行調(diào)整。

最后，李厚強教授分享了實驗室正在開展包括配電網(wǎng)電力調(diào)度、智能交通燈控制、游戲AI和主動視覺目標跟蹤等領域的研究，并指出強化結合博弈、超大規(guī)模擴展、模型可解釋性、專家知識引導等均是多智能體強化學習問題研究中極具前景的方向。

向公眾號后臺發(fā)送“01 ” 即可獲取PPT

03

多智能體系統(tǒng)中的稀疏交互

高陽

南京大學教授

來自南京大學計算機軟件新技術國家重點實驗室的高陽教授帶來了《多智能體系統(tǒng)中的稀疏交互》主題報告。

● 智能決策與多智能體系統(tǒng)

高陽教授首先對智能決策和多智能體系統(tǒng)做了比較全面的介紹，智能決策技術從最初的基于規(guī)則一步步發(fā)展到現(xiàn)在基于博弈，總體來看是從定性到定量，從單體到協(xié)同的過程。以混合型多智能體系統(tǒng)中的布雷斯悖論為例，高陽老師強調(diào)了隨著多智能體系統(tǒng)中的Agent數(shù)目增多，在Agent之間存在相互影響的情況下，決策從單體轉(zhuǎn)向群體時會產(chǎn)生一種相變。這種相變產(chǎn)生的原因、機理以及解決方法就是多智能體系統(tǒng)研究中的一個核心問題。

● 多智能體系統(tǒng)交互的稀疏性

高陽教授認為，以游戲為研究對象的多智能體系統(tǒng)均屬于緊交互系統(tǒng)；而在實際情況中，隨著智能體數(shù)目的增多，緊交互的現(xiàn)象并不是處處存在的，于是把這種全局隨機但是局部聚集的系統(tǒng)認為是稀疏交互系統(tǒng)，比如高速公路上的車輛。進一步地，可以將稀疏交互分為時間上的交互稀疏性（比如機器人控制、足球、籃球等場景）以及空間上的交互稀疏性（只有少數(shù)智能體在局部時空上緊交互，而在全局上呈現(xiàn)稀疏交互特性，比如電力網(wǎng)絡、交通網(wǎng)絡等場景）。

多智能體系統(tǒng)的建模采用馬爾科夫博弈(MarkovGame），對這個問題求解的學習方法和思路（學習范式）有四種：單智能體學習、多智能體聯(lián)合學習（集中式思想）、對手建模和最佳反應學習以及基于博弈均衡的學習。高陽老師主要討論了這四種范式之間能否建立聯(lián)系的問題。在基于博弈均衡的多智能體強化學習中，算法構造思路是：首先綜合每個Agent的初始認知（值函數(shù)），在每個狀態(tài)構成n維的博弈矩陣，然后根據(jù)某種博弈選擇均衡動作（伴隨一定的隨機性），獲得經(jīng)驗和反饋，修改認知，最后根據(jù)延遲的反饋，回退修改歷史認知。當情況擴展到大規(guī)模群體博弈決策時，目前仍然面臨著兩大挑戰(zhàn)：大規(guī)模博弈結構的歸納推理以及均衡計算。

● 利用交互稀疏性的博弈約簡

考慮到多智能體系統(tǒng)中不僅存在緊交互，還存在稀疏交互，因此想到來利用這種特性對大規(guī)模博弈中面臨的挑戰(zhàn)進行一些簡化。

在這一部分，首先需要關注的問題是如何知道在一個多智能體系統(tǒng)中出現(xiàn)了交互，即交互檢測問題。環(huán)境動態(tài)性的測量方法包括基于先驗的協(xié)同圖構造、基于統(tǒng)計的因動態(tài)性增大導致的狀態(tài)訪問頻率增加、基于學習的測量獎賞值或值函數(shù)（N步回報獎賞，NSR）。高陽教授團隊構造了一個NSR模型來實現(xiàn)博弈約簡和學習，首先在NSR模型中判斷是否存在交互，如果不存在交互則采用分布式獨立學習，如果存在交互則采用聯(lián)合學習，在得到聯(lián)合動作后和環(huán)境進行交互。

第二個問題是如何學習智能體之間的交互關系。可以采用圖神經(jīng)網(wǎng)絡（用邊和權重反映智能體之間的交互關系），通過注意力機制方法進行學習。高陽教授團隊采用兩階段注意力機制：在硬注意力機制中確定是否存在交互關系。采用雙向LSTM得到孤立子圖，使用Gumbel-Softmax函數(shù)進行梯度反向傳播；在軟注意力機制中來計算子圖中邊的權重。

在報告最后高陽教授總結道，稀疏交互是多智能體系統(tǒng)的本質(zhì)，這種稀疏交互包括時間和空間上的，可以通過一些顯式的方法對這種交互進行檢測，或者來學習這種交互關系，也可以去度量其中的相似性。有了相似性之后就可以實現(xiàn)單智能體向多智能體，或者多智能體向多智能體之間的策略遷移。

04

個體決策中心理與行為要素的建模與求參

趙琳

西南財經(jīng)大學教授

西南財經(jīng)大學趙琳教授帶來了題為《個體決策中心理與行為要素的建模與求參》的報告。

● 可歸因結構化建模

趙琳教授首先從經(jīng)濟學與管理學角度介紹了經(jīng)濟管理研究決策的一般方法——可歸因結構化建模。該方法首先在行為方面做出少量且清晰的初始假設。該假設需要能夠清晰地體現(xiàn)行為特點，并且具有可解釋性，之后使用邏輯鏈推導出該假設的行為表現(xiàn)。其中可歸因體現(xiàn)在后面的行為表現(xiàn)一定是由該假設導致的，結構化體現(xiàn)在非線性的結果是由邏輯推理與優(yōu)化理論導出，具有可解釋性。

過去的研究假設研究對象是完全理性的，但實際中研究對象的決策往往會受到智力限制、計算力等的限制，進而不滿足完全理性假設，而這又進一步導致了模型與實際決策的不符。而這些非理性假設往往難以使用數(shù)學工具進行建模。

針對該問題趙琳教授介紹了數(shù)學建模非理性因素的方法，該方法使得決策過程能夠符號化地表達出來，方便之后使用程序化的方法進行自動化求解。方法首先從決策過程的生理學、心理學以及腦科學機制出發(fā)，抽象出行為規(guī)律的符號化數(shù)學模型。之后針對模型中未知的參數(shù)，使用行為運籌與參數(shù)估計的方法利用真實數(shù)據(jù)進行估計，在得出準確參數(shù)之后利用該已知的參數(shù)模型對實際決策過程進行描述，實現(xiàn)自動決策。

● 建模示例

報告采用來自娛樂消費、體育賽事和零售運營領域的三個示例展示了對心理與行為要素的建模與求參過程。

第一個案例是以消費為背景，研究音樂消費中的飽和效應。音樂消費是一種精神消費，因此需要考慮精神活動本身的生理學機制。其中飽和效應是消費中一種非常重要的現(xiàn)象。該現(xiàn)象是兩重邊際效應遞減，第一重邊際效應遞減是敏感性隨著數(shù)量的增加而不斷降低，第二重邊際效應遞減是隨著時間的推移，敏感性會逐漸增加。為了對飽和效應進行建模，報告首先從飽和效應的生理學機制出發(fā)，建立飽和效應的數(shù)學模型。音樂產(chǎn)生的刺激可以被視為一種小球。而大腦處理音樂刺激的感受器可以被視為一種容納小球的信道。接受音樂信號的刺激可以類比為將小球打入到信道中。而處理神經(jīng)信號的速率是一定的，即信道排出小球的速率有限的，因此如果頻繁的接受音樂信號的刺激會使得信道內(nèi)的小球堆積起來。如果原有的刺激沒有完全地處理掉，那么就無法處理新的刺激?；谝陨戏治?，趙琳教授建立了飽和效應的數(shù)學模型。并以利用實際數(shù)據(jù)求出該模型中的位置參數(shù)。之后利用混合整數(shù)非線性規(guī)劃進行對音樂進行選擇、排序和時間調(diào)節(jié)，以避免飽和效應的負面影響，制定出合適的歌單。

在第二個案例中，報告介紹了心理與行為要素的建模在體育競賽中的應用。通過對運動員疲勞現(xiàn)象的建模合理規(guī)劃訓練與比賽時間。該案例同樣從疲勞的生理機制出發(fā)構建數(shù)學模型。當運動時肌肉會消耗大量的葡萄糖分子，但消耗葡萄糖的有氧通道是有限的，因此無法通過有氧通道消耗的葡萄糖會通過無氧呼吸產(chǎn)生乳酸，進而導致疲勞感的產(chǎn)生。因此可以將該問題建模為一個限流排隊問題。該模型中包含五個參數(shù)，分別是疲勞恢復速度、效率消減速度、肌肉最大力量、初始能量，能量再生速率。根據(jù)實際數(shù)據(jù)可以擬合出這五個參數(shù)估計值從而指導運動實踐?；谠撃Ｐ涂梢赃M行對體育競賽的優(yōu)化，在最短的時間內(nèi)克服疲勞阻力獲得最好的競賽效果。由于建模的準確性，該方法對數(shù)據(jù)量的要求并不高。

在第三個案例中，報告以零售運營中的后悔現(xiàn)象為例介紹了一種不同的心理與行為要素建模方式。零售業(yè)運營者往往會在訂貨時受到后悔情緒的影響而使得自己的決策偏離最優(yōu)決策。而這可以通過實際腦電波數(shù)據(jù)來對描述情緒的模型進行參數(shù)估計，進而利用該模型實現(xiàn)自動決策。

趙琳教授總結，隨著認知科學的發(fā)展，我們可以從心理學、生理學和腦科學中找到微觀行為機制，通過這些微觀行為機制我們可以對行為因素進行精確地數(shù)學建模，同時明確收集數(shù)據(jù)的方向，避免了對大數(shù)據(jù)與大算力的要求，并提高了模型的可解釋性。