宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興：《具身智能指明了實(shí)現(xiàn)AGI的方向》

時間：2024-11-01 11:35:18 發(fā)布：tgy 來源：中國電子學(xué)會第一對焦：宇樹科技

　　【ZiDongHua 之品牌自定位收錄關(guān)鍵詞：宇樹科技人工智能機(jī)器人激光雷達(dá)】

　　【W(wǎng)RC大咖論道】宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興：《具身智能指明了實(shí)現(xiàn)AGI的方向》

　　2024世界機(jī)器人大會以“共育新質(zhì)生產(chǎn)力共享智能新未來”為主題，為期三天的主論壇和26場專題論壇上，416位國內(nèi)外頂尖科學(xué)家、國際組織代表、院士和企業(yè)家聚焦前沿技術(shù)、產(chǎn)業(yè)動向和創(chuàng)新成果，深入研討人工智能與機(jī)器人技術(shù)深度融合帶來的新趨勢、新機(jī)遇，共同打造了一場十分精彩的機(jī)器人領(lǐng)域前沿觀點(diǎn)盛宴！

　　在8月24日下午的主論壇上，宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官王興興以《具身智能指明了實(shí)現(xiàn)AGI的方向》為主題發(fā)表演講。

　　數(shù)說2024世界機(jī)器人大會

　　論壇

　　26 家國際支持機(jī)構(gòu)

　　3 大主題 26 場專題論壇

　　416 名國內(nèi)外頂尖科學(xué)家、國際組織代表、院士和企業(yè)家

　　74 位國外嘉賓及港澳臺嘉賓參會

　　線上線下聽眾達(dá) 160萬人次

　　展覽

　　27 款人形機(jī)器人集中亮相

　　首發(fā)新品 60 余款

　　近 170 家參展企業(yè) 600 余件參展產(chǎn)品

　　參觀人數(shù)近 25萬人次

　　大賽

　　全球 10 余個國家和地區(qū)的 7000 余支賽隊

　　13000 余名參賽選手

　　每天參賽人數(shù) 4000 余人

　　媒體關(guān)注

　　近 400 家國內(nèi)外媒體

　　短視頻平臺話題播放量達(dá) 2.9億

　　以下是對話內(nèi)容實(shí)錄

　　王興興（宇樹科技創(chuàng)始人、首席執(zhí)行官兼首席技術(shù)官）

　　各位領(lǐng)導(dǎo)，各位專家，各位學(xué)者大家下午好，很榮幸在此分享。在展開這個話題之前想分享一個小故事。Marc Raibert先生，我當(dāng)時差不多10歲讀小學(xué)就看到過您做的小的雙足機(jī)器人包括還有后空翻機(jī)器人。這當(dāng)時是在中國引進(jìn)的科技紀(jì)錄片里，算算時間現(xiàn)在差不多20幾年了，時間真的很快。我們公司2016年成立到現(xiàn)在也有8年時間，最近幾年具有身智能很熱，所以我主要分享具身智能和AGI的方向。

　　OpenAI最早的目標(biāo)就是實(shí)現(xiàn)AGI，并且早些年他們也投入不少人做機(jī)器人方向，但是后來GPT發(fā)展速度更快，所以他們反而在機(jī)器人發(fā)展方向投入資源比較少。但是我反而堅信，目前具身智能反而是更好的實(shí)現(xiàn)AGI的方向。我們公司最早2013年到2015、2016年的時候我個人讀碩期間做的Xdog這款機(jī)器人。做的初衷比較簡單，我一個學(xué)生沒有那么多的資源做很大的機(jī)器人，所以一直想能不能用簡單方法就能實(shí)現(xiàn)低成本，運(yùn)動性能很好的方案？

　　所以當(dāng)時就想用盤式無刷電機(jī)再加上自己開發(fā)的電機(jī)驅(qū)動板，實(shí)現(xiàn)了Xdog方案。這個方案當(dāng)時整個研發(fā)投入大概只有1-2萬元人民幣，2015年還用這個機(jī)器人參加了上海的比賽拿了二等獎。這個機(jī)器人當(dāng)時在我畢業(yè)的時候還幫我賺了幾萬快獎金。也是成為2016年注冊公司時的啟動資金。后續(xù)產(chǎn)品大家可能比較熟，我們主要做高性能四足機(jī)器人，去年年初也開始做高性能人形機(jī)器人以及別的附屬產(chǎn)品。目前四足機(jī)器人主要是兩款，一款是小一點(diǎn)的Go2型號，它主要搭載了自己開發(fā)的3D激光雷達(dá)。并且去年就搭載了OpenAI的GPT接口，你可以直接語音和它對話，讓它執(zhí)行底層動作。并且試過集成了OpenAI的多模態(tài)接口，你問它前面有什么東西，它也可以回答。

　　但是開發(fā)過程中我們發(fā)現(xiàn)目前語言模型、多模態(tài)模型對機(jī)器人應(yīng)用非常不足，它對空間、物理世界理解個模型本身對機(jī)器人本體理解遠(yuǎn)遠(yuǎn)不夠，這也推動了我們未來一直希望有更好的機(jī)器人模型誕生。當(dāng)然這可能不能指望我們公司，還是需要全球共同實(shí)驗(yàn)室，所有科技公司一起推動。

　　另外一款也是去年發(fā)布的B2型號，是大一點(diǎn)的工業(yè)級四足機(jī)器人。最大特點(diǎn)是負(fù)載能力和續(xù)航能力非常非常強(qiáng)。基本大部分工業(yè)場景包括室內(nèi)室外的還有地下管廊或者其他環(huán)境都能使用，也是目前主力型號。

　　人形機(jī)器人這塊，目前發(fā)展也非常非?？?，最早2009年我讀大一的時候寒假就做過小的人形機(jī)器人，當(dāng)時用得非常非常便宜，就200塊錢做了小的人形機(jī)器人。但是做好以后非常非常失望，因?yàn)槲也粌H對自己感到失望，也對當(dāng)時全球范圍內(nèi)整個人形機(jī)器人科技發(fā)展速度感到失望，在2010年時。所以過去很多年當(dāng)時好幾年以前，很多人問我，我們公司做不做人形機(jī)器人？我當(dāng)時非常堅決地說我們公司不做人形機(jī)器人。因?yàn)楦杏X目前我們技術(shù)包括全球商業(yè)化沒辦法很好地推動人形機(jī)器人。但是過去幾年，很多實(shí)驗(yàn)室都用我們機(jī)器狗做了很多AI開發(fā)，我們也肉眼可見地看到強(qiáng)化學(xué)習(xí)在四足機(jī)器人里飛速的進(jìn)展，非常非常好。

　　并且2022年底的時候GPT出來了，整個AI真正點(diǎn)燃了整個全球范圍內(nèi)AI對機(jī)器人領(lǐng)域大家的信心。所以2023年初，開始做高性能人形機(jī)器人，這款是去年第一款人形機(jī)器人H1，這款機(jī)器人最大特點(diǎn)是動力性能非常非常強(qiáng)，基本算是目前同類型電驅(qū)動人形機(jī)器人，動力性能最強(qiáng)的之一。

　　這是公司開發(fā)的第二款人形機(jī)器人G1，今年5月份發(fā)布，第一款工程機(jī)前幾天也發(fā)布了量產(chǎn)版本樣子。這款結(jié)合了過去幾年對四足機(jī)器人、人形機(jī)器人整個硬件設(shè)計、軟件工業(yè)設(shè)計要求，所以大家可以看到。雖然這款機(jī)器人稍微小一點(diǎn)，大概只有1.3米，但是無論外觀、動力性能、關(guān)節(jié)靈活性、產(chǎn)品完成度都非常非常高。我們也非常有信心，最近已經(jīng)快完成整個量產(chǎn)化的設(shè)計改造，年底可以大規(guī)模量產(chǎn)。這個關(guān)節(jié)布置相對來說非常流暢和漂亮。

　　分享一個小故事，這種關(guān)節(jié)布置對于動力控制并不是最優(yōu)的，但是為什么現(xiàn)在敢這么做？原因就是AI技術(shù)進(jìn)步讓很多原本不容易控制的機(jī)器人反而變得容易控制。不然這種機(jī)器人其實(shí)腿有點(diǎn)重且不方便控制。但是目前AI反而讓難控制的機(jī)器人成為可能性。

　　這是5月份我們剛發(fā)布時展示的運(yùn)動性能，里面用了傳統(tǒng)控制算法，但是大部分還是用了深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)。這款產(chǎn)品相對來說目前產(chǎn)品完成度還是非常非常高的，關(guān)節(jié)靈活度也非常好，可以實(shí)現(xiàn)很多人實(shí)現(xiàn)不了的動作。

　　這款是H1，年初的時候差不多實(shí)現(xiàn)了全球第一款純電機(jī)驅(qū)動的人形機(jī)器人空翻，動力性能非常強(qiáng)勁，也是用了模仿學(xué)習(xí)加強(qiáng)化學(xué)習(xí)算法。這種機(jī)器人還是太過于不好控制，用傳統(tǒng)算法很難實(shí)現(xiàn)空翻。包括我們用模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了奔跑以及跳舞等動作，這也是好幾個月之前的。這次展會現(xiàn)場，有長時間演示技術(shù)，穩(wěn)定性非常好。AI技術(shù)相對于別的技術(shù)最大的點(diǎn)在于它對硬件和機(jī)器人泛用性非常好。哪怕機(jī)器人硬件有一點(diǎn)點(diǎn)偏差還是可以很穩(wěn)定地控制。

　　這是基于深度相機(jī)端到端深度強(qiáng)化學(xué)習(xí)，更復(fù)雜的地型也可以訓(xùn)練。包括四足機(jī)器人本身也可以兩條腿走路，這是展示了連續(xù)空翻，也是基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的，這個我們在展會現(xiàn)場也有演示，大家有興趣可以試一下，而且穩(wěn)定性比較不錯。這個功能其實(shí)在早幾個月，我們已經(jīng)OTA升級給全球客戶使用。

　　這是我們前段時間基于搖操作的一個數(shù)據(jù)采集系統(tǒng)，因?yàn)榇蠹一谀壳暗腁I技術(shù)，基本上都是數(shù)據(jù)驅(qū)動的，有多少數(shù)據(jù)就有多少AI，本身對于人形機(jī)器人的數(shù)據(jù)采集是非常剛需的需求，所以我們做了一套比較簡單的輕量化的數(shù)據(jù)采集系統(tǒng)，這還是需要更加完善。

　　這也是我們前段時間搞的，基于模仿學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)做的身體性動作。大家可能覺得目前像我們機(jī)器人已經(jīng)做的很不錯了，但實(shí)際上在我的想象中，要做的事情還非常多，舉個最簡單的例子，目前這些動作基本上是每個動作單獨(dú)做AI訓(xùn)練的，單獨(dú)訓(xùn)練有一個很不好的地方，很多場景下大家還是希望一臺機(jī)器人可以自動的切換所有的動作，而不需要人為去切換動作，這也是大家希望的方向，一個AI所有的事情都能做，這是通用AI大家希望達(dá)到的目標(biāo)，這也是用了它的深度相機(jī)來做端到端的訓(xùn)練。

　?。úシ乓曨l）

　　我覺得目前人形機(jī)器人強(qiáng)化學(xué)習(xí)能做的事情，最主要的還是在比較復(fù)雜的地形下，它可以任意的適應(yīng)各種的地形，并且運(yùn)動。相對來說另外一點(diǎn)就是它的手部能操作比較精細(xì)化的零件，大家也知道現(xiàn)在包括全球范圍內(nèi)用模仿學(xué)習(xí)其實(shí)在一些比較大的物體，比如說一個水杯，從什么地方拿到什么地方，這其實(shí)都是可以實(shí)現(xiàn)的，但是更精細(xì)一點(diǎn)的事情其實(shí)目前做不好，比如說焊個電路，包括打一個結(jié)，這種更細(xì)小的事情我覺得都是非常值得做的。

　　另外一點(diǎn)，這里稍微岔開一下話題，好高騖遠(yuǎn)一下，說一些更遠(yuǎn)的，我覺得更加激動人心的一些事情。具身智能一直是實(shí)現(xiàn)世界模型的方向，當(dāng)然這可能不是我們公司目前能做的，還是希望全球都能推動這個事情，我覺得這是未來最激動人心的時刻。

　　最大的點(diǎn)就是世界模型對于機(jī)器人本身包括對物理世界的理解，其實(shí)大家也知道現(xiàn)在的AI技術(shù)其實(shí)對機(jī)器人自己的身體和對自己的世界理解是完全不夠的，比如說對重力的理解，對摩擦力和接觸的理解是非常差的，如果有更好的AI能把本身自我的認(rèn)知和理解以及對環(huán)境的理解能做出來，我覺得可以大大推動整個機(jī)器人行業(yè)的進(jìn)步。

　　而且我覺得世界模型本身就是AGI的方向，沒準(zhǔn)就是真正實(shí)現(xiàn)AGI的。大家知道AGI最大的點(diǎn)就是大部分人能做的事情都能做，包括開車、洗衣做飯、工廠，世界模型如果對世界本身有很好的建模，這個本身目標(biāo)就差不多實(shí)現(xiàn)了。

　　而且像特斯拉的FSD，某種意義上就是世界模型，對整個車輛和它的周邊環(huán)境都會有建模，包括對前面一輛車的速度、撞擊，一些未來的動作也會有好的建模和理解，我覺得世界模型是最大的可能性。

　　另外最主要的是很多現(xiàn)在做AI的，包括OpenAI，大家對大腦的重視都非常高，我最近一直在分享和強(qiáng)調(diào)，其實(shí)身體才是最重要的一件事情，大腦和身體兩部分是分不開的。舉個最簡單的例子，這也是從小非常困擾我的問題，我做夢的時候?yàn)槭裁磿蝗桓杏X從懸崖上往下掉，或者我在夢里為什么跑不快，這個問題我想了十幾年，差不多在本科的時候我才把這個問題想通。

　　其實(shí)原因也非常簡單，就是人在睡覺的時候，人的大腦跟身體的感知是完全斷開的，你不能感知到身體的皮膚，你也不能控制你的肌肉，所以你的大腦本身是沒有物理世界連接的。

　　在我們原本的認(rèn)知里面，我跑步，我每跑一步都是要跟地面有接觸的，接觸以后大腦知道我接觸到地面了，我要邁另外一個腳，但是在我們做夢的時候，由于跟物理世界脫離了關(guān)系，你的大腦其實(shí)不知道你已經(jīng)踩到地面了，所以你永遠(yuǎn)感覺你的腳輕飄飄的，跑不快，沒辦法使力，所以這也是體現(xiàn)了目前大腦、身體的重要性。

　　包括為什么會覺得從懸崖上往下面掉，因?yàn)槟阍诟眢w斷開連接的時候，你其實(shí)并不知道你的身體跟床是接觸的，你覺得你是懸空的，所以你往下掉。

　　回答了一個非常簡單的問題，為什么現(xiàn)在大語言模型會有一個幻覺的感覺，簡單說就是所有的目前大語言模型都活在夢里，它對物理世界是脫離連接的，它不能感知到自己的身體，也不能看到，也不能眨眼睛，它跟物理世界的連接是斷開的，所有的大語言模型都是活在夢里，它是非常虛擬的，所以說它會有很多幻覺，不真實(shí)，他自己都不知道做的夢真不真。

　　原因也很簡單，比如說有一個人在說夢話，你如果跟他說一句話，他也回答你的問題，但是所有說夢話的人說的話都是稀里糊涂的，沒有邏輯可言，所以說這也是為什么體現(xiàn)了身體的重要性。

　　另外分享一個比較好玩的實(shí)驗(yàn)，這也是我小時候非常喜歡思考的實(shí)驗(yàn)，人為什么比一些動物聰明，簡單的思維實(shí)驗(yàn)，如果我把我的大腦放到一個狗的里面或者我把人的大腦放到豬的里面，或者把豬的大腦放到人的身體里面，到底哪種結(jié)構(gòu)可以誕生更多的智能情況。

　　后來我一直反思，我個人感覺其實(shí)多方面的原因限制的，而且可能物理限制還會更多。簡單說，我很懷疑如果把一個猴子的大腦放到人的身體里面，它照樣是可以說話的，但是為什么猴子不能說話呢？其實(shí)原因也非常簡單，就是它的喉嚨和聲帶不支持它說話。

　　舉一個最簡單的例子，像鸚鵡，它的神經(jīng)元其實(shí)是比較少的，比較聰明能說話的鸚鵡大概只要20到30萬的神經(jīng)元，但是猴子的神經(jīng)元跟它差不多，甚至猩猩的神經(jīng)元比它更多，但是為什么猩猩說不了話，而且只能發(fā)一些低級的聲音，我大概猜測是它聲帶的原因。

　　鸚鵡為什么能說話呢？因?yàn)樗芟矚g吃堅果，吃堅果的過程中，它的喉嚨和舌頭鍛煉的非常靈活，所以它是沒有物理限制在里面的。這也是很大層面上一些高等動物，包括一些海豚、鯨魚，很大概率是它的聲帶限制了它的發(fā)聲。

　　總結(jié)一下，整個AGI的實(shí)現(xiàn)除了純粹的AI還需要有身體，包括對視覺和身體的感知都非常重要，包括對實(shí)時的數(shù)據(jù)采集。對物理世界的了解，包括對一些碰撞、重力、摩擦力、各種環(huán)節(jié)包括光學(xué)的一些理解。

　　另外再分享一個觀點(diǎn)，事實(shí)上目前從人來說，數(shù)據(jù)的輸出能力是非常弱的，人的數(shù)據(jù)輸入能力非常強(qiáng)，因?yàn)槿擞醒劬?，看一張或者視頻的時候，數(shù)據(jù)的輸入量非常大，至少每秒鐘幾百或幾千KB的數(shù)據(jù)量是有的。但是人輸出數(shù)據(jù)的能力非常弱，只能通過說話或者敲鍵盤，最頂尖的人體敲鍵盤的速度大概也就一秒幾個字而已，所以它的比特流是非常低的。

　　如果有一種人機(jī)接口可以把人的數(shù)據(jù)輸出能力大大提升，這樣對人本身智能的提升，包括干活的效率也會有非常大的提升，而且我覺得這個技術(shù)不需要用大腦植入式的設(shè)備，只要在表皮能連接上一些神經(jīng)元就可以實(shí)現(xiàn)這個功能。

　　如果在座的有一些神經(jīng)學(xué)或者生物醫(yī)療相關(guān)的朋友，沒準(zhǔn)可以試試這個方向，為什么分享這個方向呢？因?yàn)槲覜]有能力去做，有能力做的朋友可以做一下或者叫我一下，我非常有興趣去參與一下這個事情。

　　再分享一個小故事，我小時候看一些電視劇，大家也發(fā)現(xiàn)有些武林高手都是可以動的，他的肌肉可以控制耳朵動，但是普通人實(shí)現(xiàn)不了你自己去控制你的耳朵動，其實(shí)這也是可以鍛煉出來的。

　　為什么呢？舉個最簡單的例子，有一次上高中的英語課，因?yàn)槲矣⒄Z很差，一直分心，我當(dāng)時想控制我腦子殼上面一塊肌肉的運(yùn)動，我自己鍛煉了好幾天，突然有一天我就能控制那塊肌肉了，那塊肌肉我原本是沒辦法控制的，但突然我用自己的想法去控制這塊肌肉，這塊肌肉就能被我的意志控制了，所以我的意思是沒準(zhǔn)用外部的一些腦機(jī)接口直接連接一些皮表的神經(jīng)元，去鍛煉一下，我們就能做一個很好的人機(jī)接口的輸出。

　　另外分享一個比較有意思的觀點(diǎn)，比人更高級的智能形態(tài)是什么樣子，大家也知道現(xiàn)在的神經(jīng)AI網(wǎng)絡(luò)都是模仿人類的，但是模仿又不完全跟人類一樣，跟飛機(jī)一樣，飛機(jī)的飛行原理是參考了鳥的飛行原理，但是跟鳥又不是完全一樣的工作原理。我們目前計算機(jī)能實(shí)現(xiàn)的智能形態(tài)跟人的智能形態(tài)多少還是有差異的，具體差異是什么，大家回頭可以想想。

　　我覺得AGI的黎明快到來了，今年年初的時候我就預(yù)估在明年年底之前，在全球至少有一家實(shí)驗(yàn)室或者公司可以把通用型的機(jī)器人AI模型做出來，當(dāng)然我不知道是哪一家，有可能是中國，有可能是美國那邊的公司或者實(shí)驗(yàn)室。

　　另外盡可能相信AI，我覺得這是當(dāng)下過去人類整個歷史上最激動人心的時刻，我覺得我每天都在浪費(fèi)時間。我們可以做更小的人形機(jī)器人，也可以做更大的人形機(jī)器人。

　　謝謝大家！

　?。ū疚母鶕?jù)錄音整理）