騰訊劉澍泉對(duì)話元戎啟行周光:智能汽車是打開(kāi)物理世界通用人工智能的鑰匙
【ZiDongHua 之駕駛自動(dòng)化收錄關(guān)鍵詞: 智能汽車 人工智能 自動(dòng)駕駛 機(jī)器人 傳感器】
騰訊劉澍泉對(duì)話元戎啟行周光:智能汽車是打開(kāi)物理世界通用人工智能的鑰匙
隨著人工智能浪潮的發(fā)展,端到端模型在自動(dòng)駕駛領(lǐng)域嶄露頭角,通過(guò)將感知、規(guī)劃、決策等關(guān)鍵模塊整合到統(tǒng)一的神經(jīng)網(wǎng)絡(luò)之中,讓自動(dòng)駕駛更像人類司機(jī)一樣駕駛,進(jìn)一步推動(dòng)了高階智駕的量產(chǎn)進(jìn)程。同時(shí),也隨之催生了對(duì)數(shù)據(jù)、算力等底層基礎(chǔ)設(shè)施的新需求。
近期,元戎啟行CEO周光邀請(qǐng)騰訊智慧出行副總裁劉澍泉,在北京市區(qū)道路上體驗(yàn)了雙方合作打造的業(yè)內(nèi)首個(gè)僅使用導(dǎo)航地圖的高階智能駕駛量產(chǎn)方案,并圍繞自動(dòng)駕駛量產(chǎn)、人工智能2.0時(shí)代等話題展開(kāi)了一場(chǎng)精彩對(duì)話。
周光認(rèn)為,智能汽車是打開(kāi)物理世界通用人工智能的鑰匙。智能汽車是人類首個(gè)達(dá)到千萬(wàn)級(jí)數(shù)據(jù)體量的機(jī)器人,對(duì)物理世界形成了海量共識(shí)的理解,將沉淀形成一個(gè)物理世界的基礎(chǔ)模型,未來(lái)也會(huì)更容易遷移到其他機(jī)器人場(chǎng)景。
周光表示,元戎啟行一直順應(yīng)人工智能的發(fā)展,在端到端、大語(yǔ)言模型、生成式AI為核心的人工智能2.0時(shí)代,元戎啟行能夠早于行業(yè)多數(shù)人意識(shí)到并發(fā)掘這個(gè)事情,是一種來(lái)自于技術(shù)上的直覺(jué)。
面向自動(dòng)駕駛領(lǐng)域,騰訊扮演的是一個(gè)比較純粹的數(shù)字助手角色。劉澍泉表示,騰訊面向行業(yè)提供自動(dòng)駕駛云、合規(guī)云以及地圖相關(guān)的服務(wù)。騰訊希望和眾多的合作伙伴,把整套的云加端的架構(gòu)打通,從而通過(guò)高速的迭代、數(shù)據(jù)訓(xùn)練不斷優(yōu)化算法。
在今年1月份的CES期間,元戎啟行與騰訊宣布在地圖領(lǐng)域達(dá)成合作,推出了行業(yè)首個(gè)僅使用導(dǎo)航地圖數(shù)據(jù)的高階智駕量產(chǎn)方案,預(yù)計(jì)將于今年投入消費(fèi)者市場(chǎng)。
以下是雙方對(duì)話節(jié)選:
智能汽車是
打開(kāi)物理世界通用人工智能的鑰匙
劉澍泉:
今年越來(lái)越多有智能駕駛功能的車上市,而且價(jià)格在不斷的下探,迭代在加快,整體的這個(gè)技術(shù)路線、方案路線慢慢開(kāi)始趨同了,我想聽(tīng)聽(tīng)你的看法。
周光:
經(jīng)歷了一年“無(wú)圖”的方案,我覺(jué)得已經(jīng)形成了行業(yè)的共識(shí)了,我們的這個(gè)方案是業(yè)內(nèi)首個(gè)僅使用導(dǎo)航地圖的自動(dòng)駕駛方案,能夠提供非常優(yōu)質(zhì)的城市NOA自動(dòng)駕駛體驗(yàn)。
我們做了泛化測(cè)試,涉及了大概數(shù)十個(gè)城市,整體來(lái)說(shuō),我覺(jué)得騰訊地圖的數(shù)據(jù)的質(zhì)量還是挺高的。但可能在一些個(gè)別的城市,我們還是會(huì)有一些更新的問(wèn)題,一些像二線、三線城市,它們修路的速度比較快,它的道路拓?fù)浣Y(jié)構(gòu)改變了,這種可能還需要做一些更新。但我相信隨著高階自動(dòng)駕駛量產(chǎn),有了實(shí)時(shí)的反饋,地圖的更新也會(huì)更快。
劉澍泉:
其實(shí)這就是騰訊所謂的云圖一體嘛。通過(guò)這種云加端的架構(gòu),當(dāng)車輛發(fā)現(xiàn)物理世界的差異,實(shí)時(shí)地把這種差異傳回到云端,我們?cè)僮龈碌貓D下發(fā)下來(lái)。
要怎么理解,智能汽車是打開(kāi)物理世界通用人工智能的鑰匙呢?
周光:
其實(shí)更早一點(diǎn)的自動(dòng)駕駛系統(tǒng),是經(jīng)典機(jī)器人,都有感知決策定位模塊。這些模塊都是特殊針對(duì)這個(gè)場(chǎng)景所設(shè)計(jì)的,缺乏了實(shí)際上的通用性。而端到端的智能駕駛系統(tǒng)是由神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的,包含感知模塊、決策模塊,通過(guò)神經(jīng)網(wǎng)絡(luò)、向量矩陣直聯(lián),并沒(méi)有預(yù)先定義好的接口,所以它也是適用于機(jī)器人的。
我認(rèn)為人類首個(gè)能達(dá)到千萬(wàn)級(jí)數(shù)據(jù)積累的機(jī)器人就是智能車,其他的機(jī)器人是不可能有這么多海量數(shù)據(jù)的。當(dāng)你有了千萬(wàn)級(jí)的海量數(shù)據(jù)之后,慢慢地你會(huì)對(duì)物理世界形成一些共識(shí)的理解,你會(huì)對(duì)這個(gè)物理世界有一個(gè)基礎(chǔ)模型,以后把這個(gè)模型遷移到其他機(jī)器人場(chǎng)景是更加容易的。
劉澍泉:
元戎啟行是準(zhǔn)備怎么達(dá)成這樣的目標(biāo)呢?
周光:
這不是一步就能達(dá)到,其實(shí)我們也前前后后經(jīng)歷了非常多的階段,第一個(gè)階段就是多傳感器前融合,而且做了點(diǎn)云渲染。
但是在那個(gè)時(shí)間點(diǎn)上,其實(shí)還沒(méi)有想到居然會(huì)成為端到端的一個(gè)環(huán)節(jié)。比如說(shuō)今天我們這個(gè)車有七個(gè)攝像頭,一個(gè)激光雷達(dá)。在前融合階段之前,它需要有不同的七個(gè)算法,都去負(fù)責(zé)感知,然后做后端的融合,再去開(kāi)這個(gè)車。做前融合實(shí)際上是把所有的東西放在一個(gè)坐標(biāo)系里面,用統(tǒng)一的算法來(lái)做感知識(shí)別。
前融合是第一步,第二步是去高精地圖。高精地圖其實(shí)是能幫助我們做高級(jí)的語(yǔ)義判斷,比如說(shuō)像今天我們開(kāi)車,不僅僅只是要看周圍的100米,可能你需要知道這個(gè)路的曲率等比較難的任務(wù),都是交給這個(gè)地圖了。
隨著人工智能的發(fā)展,我們意識(shí)到,下一步其實(shí)我們是可以通過(guò)神經(jīng)網(wǎng)絡(luò)把靜態(tài)元素、道路拓?fù)淙慷紡?fù)現(xiàn),就有了這個(gè)“無(wú)圖”的方案。
元戎啟行從2020年初期開(kāi)始的,前前后后經(jīng)歷過(guò)兩年的時(shí)間,在2022年首次達(dá)到了一個(gè)相對(duì)還可以的效果,在2023年我們就把所有的動(dòng)靜態(tài)的感知放在同一個(gè)神經(jīng)網(wǎng)絡(luò)里面做。但是在那個(gè)點(diǎn)上我們就意識(shí)到了我們一直都要做減法。于是我們又做了下一件事:用數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)決策系統(tǒng)。整個(gè)系統(tǒng)形成了兩個(gè)模塊,感知大模型以及規(guī)劃決策大模型。
在去年年初的時(shí)候我們意識(shí)到,這兩個(gè)模型其實(shí)通過(guò)這個(gè)神經(jīng)網(wǎng)絡(luò)直聯(lián),就是一個(gè)信息無(wú)減損的端到端結(jié)構(gòu)。因此去年8月份就跑通了端到端,到今年3月份的時(shí)候,在NVIDIA的GTC大會(huì)上,我們對(duì)外官宣。
為智能駕駛量產(chǎn)提供底層“加速器”
周光:
剛才聊了很多關(guān)于元戎的端到端的技術(shù),我現(xiàn)在也想問(wèn)一下騰訊作為一個(gè)云商也是一個(gè)圖商,怎么去面對(duì)這個(gè)賽道?騰訊的優(yōu)勢(shì)在于哪里?
劉澍泉:
首先我們的戰(zhàn)略定位是非常清晰的。騰訊做的是一個(gè)比較純粹的數(shù)字助手角色,面向行業(yè)去提供自動(dòng)駕駛云、合規(guī)云以及導(dǎo)航、地圖相關(guān)的一些服務(wù)。
我覺(jué)得有幾個(gè)比較有特色的服務(wù):首先,剛才提到,我要有一個(gè)端到端的網(wǎng)絡(luò),但是在這個(gè)過(guò)程中你必須要有一個(gè)更精準(zhǔn)的導(dǎo)航服務(wù),它需要更精準(zhǔn)的車道級(jí)的連接性,像騰訊從去年開(kāi)始做的,也是雙方把導(dǎo)航的能力和元戎端到端的大模型算法結(jié)合起來(lái),去達(dá)到最好的調(diào)優(yōu)狀態(tài)。
第二點(diǎn),自動(dòng)駕駛相關(guān)的業(yè)務(wù)它是一個(gè)強(qiáng)數(shù)據(jù)驅(qū)動(dòng)類的業(yè)務(wù),所以它一定會(huì)需要更高的算力,更高的存儲(chǔ)以及更廣泛的網(wǎng)絡(luò)覆蓋,這一塊是騰訊云的強(qiáng)項(xiàng)。我們把網(wǎng)絡(luò)、存儲(chǔ)、計(jì)算統(tǒng)一,能夠做到更高的性價(jià)比,在這個(gè)方面也有一些優(yōu)秀案例:例如和NVIDIA的合作、和博世的合作,當(dāng)然也包括和元戎的合作,形成整體的一個(gè)數(shù)據(jù)閉環(huán)。
我們特別希望和眾多的合作伙伴,把整套的云加端的一個(gè)架構(gòu)打通,從而通過(guò)高速的迭代、數(shù)據(jù)的訓(xùn)練再去finetune我們的算法。
順應(yīng)人工智能2.0時(shí)代
端到端讓自動(dòng)駕駛更“有人味”
劉澍泉:
實(shí)際上自動(dòng)駕駛端到端的模型,它是把感知規(guī)控一體化的輸入進(jìn)來(lái),最后得到一個(gè)更像人的一個(gè)決策結(jié)果,所以這個(gè)過(guò)程是一個(gè)偶然嗎?還是說(shuō)從一個(gè)學(xué)術(shù)發(fā)展也好,或者說(shuō)技術(shù)演進(jìn)里面有這樣一個(gè)預(yù)判?有這樣一個(gè)推導(dǎo)嗎?
周光:
我覺(jué)得是有這種感覺(jué):就是說(shuō)從一開(kāi)始做融合、做BEV,都是你感覺(jué)這樣是對(duì)的,但是你其實(shí)不知道終局的。因?yàn)楫?dāng)時(shí)那個(gè)點(diǎn)上還有這個(gè)高精度地圖之爭(zhēng)、后融合前融合之爭(zhēng),但是直到你看懂了端到端的時(shí)候你會(huì)發(fā)現(xiàn),其實(shí)你所有的鋪墊都是為了最后這一步——做一套端到端系統(tǒng)DeepRoute IO。
我們最大的優(yōu)勢(shì)就是我們一直順應(yīng)了人工智能的發(fā)展,尤其是人工智能2.0時(shí)代,2.0時(shí)代就是端到端、大語(yǔ)言模型、生成式,分別針對(duì)了語(yǔ)言的、數(shù)字生成式的以及這個(gè)機(jī)器人物理實(shí)踐,我們能夠早于行業(yè)多數(shù)人去意識(shí)到、去發(fā)掘到這個(gè)事情,然后去開(kāi)始去投入布局??梢哉f(shuō)這是一種來(lái)自于技術(shù)上的直覺(jué)。
劉澍泉:
你提到了一個(gè)很重要的點(diǎn),就是今天感知的模型規(guī)控模型之間的這個(gè)直通,在這一塊的話你有什么可分享的技巧嗎?
周光:
我們做一個(gè)生物學(xué)的解剖:我們?nèi)四X肯定是一個(gè)神經(jīng)網(wǎng)絡(luò),但是它也會(huì)分為感知、視覺(jué)和語(yǔ)言中樞各種模塊。今天的端到端它也是由不同功能的模塊構(gòu)成的,只不過(guò)都是通過(guò)直聯(lián),這個(gè)直聯(lián)其實(shí)牽涉到你的訓(xùn)練方法、你的訓(xùn)練步驟、你的數(shù)據(jù),這個(gè)其實(shí)是今天的核心競(jìng)爭(zhēng)力,真的不是那些網(wǎng)絡(luò)。
劉澍泉:
今天我們有了一個(gè)端到端的大模型,但是模型參數(shù)太多了,模型太大了,我們今天算力是受限的。怎么能夠把它去合理的“減脂”,把它部署到車上呢?
周光:
今天的端到端大模型它也并不是一個(gè)完全Transformer-based,所以說(shuō)它對(duì)算力的需求相對(duì)來(lái)說(shuō)沒(méi)有那么大,另外來(lái)講,一個(gè)端到端系統(tǒng)它并不意味著它一定就是大,像我們這次的產(chǎn)品叫DeepRoute IO,IO就是input、output(輸入、輸出),它只是講你是input,然后我有output,中間沒(méi)有人類編程而已。
端到端跟大模型是兩碼事,會(huì)根據(jù)你數(shù)據(jù)的情況、你的網(wǎng)絡(luò)的容量情況以及你要達(dá)到的場(chǎng)景情況,去選合理選擇你的模型大小。當(dāng)然你基本的這些模型優(yōu)化裁剪,這就是一些基本功了。
劉澍泉:
自動(dòng)駕駛過(guò)程中經(jīng)常遇到一些特殊場(chǎng)景,要面對(duì)車流、行人、自行車等等大量不確定的因素,像這種情況元戎有什么自己的獨(dú)門絕技嗎?
周光:
之前的這種預(yù)測(cè)都是基于速度推斷的,就是做一個(gè)勻速的假設(shè)或者做一些速度的二階導(dǎo),這是比較初級(jí)的做法,基于數(shù)據(jù)驅(qū)動(dòng)的、基于端到端的這個(gè)預(yù)測(cè),會(huì)是更加豐富的一個(gè)預(yù)測(cè)場(chǎng)景。比如說(shuō)在一個(gè)安全島上的一個(gè)人,可能你的預(yù)測(cè)是他不太會(huì)亂跳下來(lái),但是在路口的一個(gè)人他可能就竄出來(lái)概率比較高,它會(huì)考慮整個(gè)場(chǎng)景的前后表現(xiàn),這樣車子開(kāi)起來(lái)就很“有人味”。
劉澍泉:
剛才,周光博士提到了打造物理世界通用人工智能大門這樣的一個(gè)愿景,騰訊也有一個(gè)愿景:做好數(shù)字化助手、做好底層的云服務(wù)、做好底層的地圖服務(wù)、做好大模型的基礎(chǔ)設(shè)施,我們共同打造整體的一個(gè)合作伙伴體系,共同去打開(kāi)物理世界的大門,我認(rèn)為是我們的共同的一個(gè)偉大的目標(biāo)。
周光:
我覺(jué)得我們?cè)谡麄€(gè)的這個(gè)產(chǎn)業(yè)鏈、生態(tài)鏈、還要繼續(xù)攜手,然后一起共贏,向著目標(biāo)前進(jìn)。
作為國(guó)際領(lǐng)先的人工智能企業(yè),深圳元戎啟行科技有限公司致力于研發(fā)和應(yīng)用高階智能駕駛技術(shù)。隨著數(shù)據(jù)的積累及技術(shù)的迭代,元戎啟行將打造物理世界的通用人工智能,為人類帶來(lái)全新生產(chǎn)力。
元戎啟行擁有深厚的技術(shù)儲(chǔ)備及豐富的行業(yè)經(jīng)驗(yàn),長(zhǎng)期投入前沿技術(shù)研發(fā)。2024年4月,元戎啟行率先推出基于端到端模型的新一代智駕平臺(tái)DeepRoute IO;2023年3月,元戎啟行推出國(guó)內(nèi)首款基于導(dǎo)航地圖、可實(shí)現(xiàn)全域點(diǎn)到點(diǎn)功能的高階智能駕駛解決方案DeepRoute-Driver 3.0;2021年12月,元戎啟行推出國(guó)內(nèi)首個(gè)可量產(chǎn)的智能駕駛前裝解決方案DeepRoute-Driver 2.0 ,打破自動(dòng)駕駛量產(chǎn)壁壘。
元戎啟行已與多家車企達(dá)成智能駕駛汽車量產(chǎn)合作,搭載端到端模型的多款量產(chǎn)車型將于2024年陸續(xù)推向消費(fèi)者市場(chǎng)。
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:智能汽車微信群、人工智能微信群、自動(dòng)駕駛微信群、機(jī)器人微信群、傳感器微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂(lè)液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
微信聯(lián)盟:智能汽車微信群、人工智能微信群、自動(dòng)駕駛微信群、機(jī)器人微信群、傳感器微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測(cè)解決方案
西凱昂:SMC氣動(dòng)元件、力士樂(lè)液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識(shí)別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
我要收藏
個(gè)贊
評(píng)論排行