【ZiDongHua 之會展賽培壇收錄關(guān)鍵詞:大模型 人工智能 機(jī)器人 機(jī)器學(xué)習(xí) 無人機(jī)
  
  第三屆智能決策論壇回顧 | 主旨報告:大模型、群體智能與強(qiáng)化學(xué)習(xí)最新進(jìn)展
  
  人工智能作為當(dāng)前最具革命性的技術(shù)之一,正在從感知向認(rèn)知、決策的縱深方向發(fā)展。中國科學(xué)院自動化研究所長期堅(jiān)持“智能科學(xué)與技術(shù)”研究,確立了“自主進(jìn)化智能”的核心發(fā)展目標(biāo),將“博弈決策智能系統(tǒng)”作為主攻方向之一。2024年4月13至14日,自動化所舉辦“第三屆智能決策論壇”,聚焦大模型、群體智能、強(qiáng)化學(xué)習(xí)等前沿學(xué)術(shù)領(lǐng)域,探討決策智能的未來發(fā)展之路。本系列文章將分專題對論壇報告進(jìn)行梳理。今天,我們會詳細(xì)回顧論壇三大主旨報告,歡迎學(xué)界、業(yè)界同仁及人工智能愛好者共同交流探討。
 
  
  #報告1
  
  大模型與具身智能
  
  報告人:張民 
  
  哈爾濱工業(yè)大學(xué)(深圳)教授
  
  報告要點(diǎn):
  
  ? 大模型和具身智能技術(shù)若能實(shí)現(xiàn)突破,有望全面提升機(jī)器人和人工智能系統(tǒng)的感知、認(rèn)知、決策和行動能力,為智能經(jīng)濟(jì)和智慧社會的建設(shè)提供有力支撐。
  
  ? 張民教授團(tuán)隊(duì)在文本大模型、多模態(tài)大模型以及大模型賦能具身智能等方面都取得了重要突破,有望孕育重大應(yīng)用。
 
  
  張民教授首先回顧了人工智能發(fā)展的三大流派:符號主義、連接主義和行為主義,它們分別從知識表示、神經(jīng)網(wǎng)絡(luò)和感知-動作的角度對智能進(jìn)行了探索。在定義大模型時,張教授強(qiáng)調(diào)了其規(guī)模性、涌現(xiàn)性和通用性的特點(diǎn),并介紹了從單一文本模態(tài)到多模態(tài)大模型的發(fā)展過程。將大模型與人形機(jī)器人結(jié)合,發(fā)展具身人工智能,是一個前沿方向。這需要在代碼策略、端到端訓(xùn)練、語言模型規(guī)劃等方面取得進(jìn)一步突破。大模型和具身智能技術(shù)若能實(shí)現(xiàn)突破,有望全面提升機(jī)器人和人工智能系統(tǒng)的感知、認(rèn)知、決策和行動能力,為智能經(jīng)濟(jì)和智慧社會的建設(shè)提供有力支撐。
  
  張民教授重點(diǎn)介紹了其團(tuán)隊(duì)在文本大模型、多模態(tài)大模型及賦能具身智能方面取得的進(jìn)展。
  
  在文本大模型研究中,團(tuán)隊(duì)采用了預(yù)訓(xùn)練、監(jiān)督學(xué)習(xí)、指令微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)等技術(shù),極大地提升了模型的語言理解和生成能力。預(yù)訓(xùn)練階段利用海量無標(biāo)注數(shù)據(jù),讓模型學(xué)習(xí)語言的基本規(guī)律和常識性知識;再用標(biāo)注數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí),使模型掌握具體任務(wù)的完成方法;指令微調(diào)讓模型進(jìn)一步適應(yīng)指令形式的輸入,增強(qiáng)其對任務(wù)意圖的理解;RLHF技術(shù)則讓模型可以根據(jù)反饋不斷優(yōu)化其輸出,以更好地滿足需求。上述工作使文本大模型在問答、對話、寫作等方面展現(xiàn)出接近甚至超越人類的水平,并在教育、金融、醫(yī)療等領(lǐng)域得到應(yīng)用。
  
  在多模態(tài)大模型研究中,團(tuán)隊(duì)已初步完成了一個融合文本、圖像、視頻、語音等多種模態(tài)信息的大模型,能夠在視覺問答、視頻描述、語音識別等跨模態(tài)任務(wù)上取得優(yōu)異表現(xiàn)。多模態(tài)大模型讓機(jī)器能像人一樣理解和交互復(fù)雜的現(xiàn)實(shí)世界信息,將進(jìn)一步拓展人工智能的應(yīng)用邊界。
  
  在大模型賦能具身智能方面,張民教授強(qiáng)調(diào),大模型和具身智能技術(shù)可以廣泛應(yīng)用于工業(yè)制造、服務(wù)業(yè)等領(lǐng)域。他以團(tuán)隊(duì)研發(fā)的智能機(jī)器人自主制作餐食為例,展示了大模型賦能下機(jī)器人的靈活性和多功能性。得益于多模態(tài)大模型的融合學(xué)習(xí),機(jī)器人能夠處理多樣化的輸入(來料),執(zhí)行多樣化的原子操作,生產(chǎn)出多樣化的輸出(成品)。未來具身機(jī)器人有望在更廣闊的應(yīng)用場景中大顯身手,極大提升生產(chǎn)和服務(wù)效率。
  
  人工智能的發(fā)展不僅需要智能還需要智慧。面對新一輪科技革命和產(chǎn)業(yè)變革,高校要勇于探索、敢于創(chuàng)新,在基礎(chǔ)理論、關(guān)鍵技術(shù)和應(yīng)用示范等方面取得新的突破。
  
  #報告2
  
  面向復(fù)雜系統(tǒng)的自適應(yīng)通用群體智能
  
  報告人:吳文峻
  
  北京航空航天大學(xué)教授
  
  報告要點(diǎn):
  
  ? 報告重點(diǎn)介紹了群體智能技術(shù)的發(fā)展歷程、大模型技術(shù)賦能群體智能的基本思路和關(guān)鍵技術(shù)。
  
  ? 以面向復(fù)雜軟件系統(tǒng)的微服務(wù)群體智能和面向復(fù)雜物理環(huán)境的群體化具身智能為代表的自適應(yīng)通用群體智能系統(tǒng)已成為研究熱點(diǎn)。
 
  
  吳文峻教授首先回顧了群體智能發(fā)展的三個階段:群體智能1.0(2016年之前)主要采用多智能體系統(tǒng)、群智眾包/開源等技術(shù),系統(tǒng)形態(tài)以相對簡單的AI Agent群體為主;群體智能2.0(2016年至2022年)引入了深度強(qiáng)化學(xué)習(xí)、聯(lián)邦學(xué)習(xí)等技術(shù),形成了具有一定適應(yīng)能力的專用Agent群體;群體智能3.0(2023年至今)基于生成式AI,利用大模型賦能通用Agent,并融合認(rèn)知協(xié)作、社會群體智能等方法,形成具有自適應(yīng)性的通用化Agent群體。
  
  接下來,吳文峻教授分析了大模型(如大語言模型LLM、多模態(tài)大模型VLM等)為群體智能帶來的機(jī)遇,可以顯著提升智能體(Agent)的感知、認(rèn)知、決策等能力,使其具備跨領(lǐng)域的通用智能?;诖竽P偷腁gent可以分為軟件智能體和具身智能體兩類。軟件智能體通過LLM與信息系統(tǒng)交互,如微服務(wù)系統(tǒng)中的服務(wù)發(fā)現(xiàn)Agent、服務(wù)規(guī)劃Agent等。具身智能體通過LLM與物理環(huán)境交互,如無人機(jī)集群、機(jī)器人團(tuán)隊(duì)等。吳文峻教授指出,要構(gòu)建真正的群體智能系統(tǒng),智能體必須能夠與環(huán)境進(jìn)行實(shí)時交互,根據(jù)反饋不斷優(yōu)化和適應(yīng)。
  
  為構(gòu)建自適應(yīng)通用群智系統(tǒng),吳文峻教授攻關(guān)了系列關(guān)鍵技術(shù):一是基于檢索增強(qiáng)的多模態(tài)預(yù)訓(xùn)練模型,引入外部知識檢索機(jī)制,提升模型在多模態(tài)問答等任務(wù)上的性能;二是多模型協(xié)作框架,通過認(rèn)知模塊、交互模塊的協(xié)同,賦能具身智能體靈活應(yīng)對復(fù)雜環(huán)境;三是內(nèi)嵌數(shù)理的群智學(xué)習(xí)方法,將環(huán)境數(shù)學(xué)模型嵌入強(qiáng)化學(xué)習(xí)過程,引導(dǎo)智能體學(xué)習(xí)高效安全的群體策略;四是群體化具身智能框架,以VLM實(shí)現(xiàn)環(huán)境感知,以LLM實(shí)現(xiàn)任務(wù)規(guī)劃,提升無人集群的協(xié)同作業(yè)能力。
  
  為了展示上述技術(shù)的實(shí)際效果,報告列舉了兩個群智系統(tǒng)應(yīng)用案例:一是基于多智能體的服務(wù)軟件系統(tǒng),通過引入服務(wù)發(fā)現(xiàn)、規(guī)劃、調(diào)用等多個LLM Agent,實(shí)現(xiàn)高度智能化的服務(wù)組合和運(yùn)維管理;二是污染源監(jiān)測搜索,利用內(nèi)嵌物理知識的強(qiáng)化學(xué)習(xí)算法,指導(dǎo)無人機(jī)集群高效搜索污染源,并能根據(jù)在線反饋實(shí)時優(yōu)化策略。
  
  隨著大模型等技術(shù)的發(fā)展,群體智能已進(jìn)入全新階段,從領(lǐng)域?qū)S弥饾u走向通用化。自適應(yīng)的通用群智系統(tǒng)成為研究熱點(diǎn),代表性的有面向復(fù)雜軟件系統(tǒng)的微服務(wù)群智和面向復(fù)雜物理環(huán)境的群體化具身智能。未來,構(gòu)建面向復(fù)雜場景的科學(xué)群智系統(tǒng),需要綜合考慮以上兩類系統(tǒng)的關(guān)鍵要素。
  
  #報告3
  
  強(qiáng)化學(xué)習(xí)及其在無人系統(tǒng)中的應(yīng)用
  
  報告人:孫健
  
  北京理工大學(xué)教授
  
  報告要點(diǎn):
  
  ? 強(qiáng)化學(xué)習(xí)為無人系統(tǒng)在復(fù)雜動態(tài)環(huán)境下的自適應(yīng)決策控制提供了有效手段。
  
  ? 面向?qū)嶋H應(yīng)用中樣本效率低、策略不穩(wěn)定、安全性難保證等挑戰(zhàn),孫健教授團(tuán)隊(duì)開展了系統(tǒng)性研究并實(shí)現(xiàn)技術(shù)突破。
  
  ? 未來強(qiáng)化學(xué)習(xí)要進(jìn)一步向高效、魯棒、安全、可解釋的方向發(fā)展,并加速從實(shí)驗(yàn)室走向工程應(yīng)用的步伐。
  
  孫健教授首先介紹了強(qiáng)化學(xué)習(xí)的基本概念和發(fā)展歷程。強(qiáng)化學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)范式,旨在使智能體通過與環(huán)境的持續(xù)交互,根據(jù)即時獎勵和長期累積回報不斷優(yōu)化決策策略,從而實(shí)現(xiàn)特定目標(biāo)。從上世紀(jì)50年代圖靈提出機(jī)器學(xué)習(xí)思想,到2016年谷歌DeepMind的AlphaGo擊敗圍棋世界冠軍,強(qiáng)化學(xué)習(xí)經(jīng)歷了從啟發(fā)式探索到深度強(qiáng)化學(xué)習(xí)的重要發(fā)展階段,并呈現(xiàn)出從虛擬環(huán)境走向現(xiàn)實(shí)應(yīng)用的趨勢。
  
  強(qiáng)化學(xué)習(xí)為無人系統(tǒng)在復(fù)雜動態(tài)環(huán)境下的自適應(yīng)決策控制提供了有效手段,但在實(shí)際應(yīng)用中仍面臨樣本效率低、策略不穩(wěn)定、安全性難保證等挑戰(zhàn)。針對以上問題,孫健教授團(tuán)隊(duì)開展了系統(tǒng)性研究,取得了一系列原創(chuàng)性成果。
  
  一是提出了基于Transformer的世界模型強(qiáng)化學(xué)習(xí)方法。借鑒Transformer在復(fù)雜序列建模中的優(yōu)勢,通過構(gòu)建高維環(huán)境動力學(xué)模型和獎勵函數(shù)模型,指導(dǎo)智能體高效探索未知環(huán)境,顯著提升了樣本利用效率和策略學(xué)習(xí)速度。
  
  二是發(fā)展了基于極大值原理的強(qiáng)化學(xué)習(xí)軌跡規(guī)劃算法。該算法以cumulative information collection為約束,將無人系統(tǒng)的軌跡優(yōu)化問題重塑為馬爾可夫決策過程,在保證信息收集的同時最小化任務(wù)完成時間。
  
  三是針對無人系統(tǒng)連續(xù)控制輸入的特點(diǎn),提出了分解離散策略-連續(xù)評價的強(qiáng)化學(xué)習(xí)控制算法。通過將連續(xù)動作空間映射為低維離散子空間,有效規(guī)避了動作維度災(zāi)難,實(shí)現(xiàn)了高效穩(wěn)定的多維控制。
  
  四是發(fā)展了基于A搜索的無人機(jī)分段B樣條路徑規(guī)劃方法。該方法首先利用A*算法規(guī)劃安全飛行走廊,再基于強(qiáng)化學(xué)習(xí)生成局部B樣條曲線,實(shí)現(xiàn)了對飛行軌跡的整體約束,大幅提升了強(qiáng)化學(xué)習(xí)策略的安全性和魯棒性。
  
  五是提出了面向無人機(jī)激進(jìn)飛行的深度強(qiáng)化學(xué)習(xí)方法。通過對環(huán)境特征的端到端學(xué)習(xí)以及獎勵函數(shù)的精細(xì)化設(shè)計,該方法實(shí)現(xiàn)了無人機(jī)在障礙環(huán)境下的高速穿越和緊急規(guī)避,充分發(fā)揮了無人平臺的飛行性能。
  
  未來,強(qiáng)化學(xué)習(xí)要進(jìn)一步向高效、魯棒、安全、可解釋的方向發(fā)展,并加速從實(shí)驗(yàn)室走向工程應(yīng)用的步伐。這不僅需要從環(huán)境建模、策略優(yōu)化、知識融合等方面突破算法瓶頸,更需要面向任務(wù)需求開展系統(tǒng)集成設(shè)計。