李想是真懂自動(dòng)駕駛細(xì)節(jié)
李想是真懂自動(dòng)駕駛細(xì)節(jié)
2024年6月8日,李想在重慶作了關(guān)于理想汽車自動(dòng)駕駛技術(shù)突破的脫稿演講,李想專門強(qiáng)調(diào)了是自動(dòng)駕駛,不是智能駕駛,不是輔助駕駛。
李想講的內(nèi)容核心框架實(shí)際上和理想汽車智能駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬2024年3月底在英偉達(dá)GTC 2024上講的內(nèi)容是完全一致的。
脫稿+舉的例子不一樣表明了李想是完全搞懂了自動(dòng)駕駛技術(shù)路線核心框架的。
李想提到基于現(xiàn)有的計(jì)算平臺,有監(jiān)督的L3級別自動(dòng)駕駛100%可實(shí)現(xiàn),最早今年年底,最晚明天年初就會(huì)全量推送,無監(jiān)督的L4自動(dòng)駕駛?cè)陜?nèi)一定可以實(shí)現(xiàn)。
理想汽車的自動(dòng)駕駛路線核心思路是用一顆Orin X芯片用于端到端,一顆Orin X用于VLM,端到端為系統(tǒng)一,處理所有的正常的自動(dòng)駕駛,VLM為系統(tǒng)二,來解決兜底和泛化的能力。
軟件2.0與1.0最大的區(qū)別是1.0本質(zhì)是具備功能,2.0是具備能力。功能是通過測試和實(shí)驗(yàn)來驗(yàn)證,而理想汽車通過生成式的世界模型來對自動(dòng)駕駛能力進(jìn)行考試。
李想脫稿演講原視頻:
李想脫稿演講全文:
今天跟大家分享做的一個(gè)重要的技術(shù)的一個(gè)突破,是關(guān)于自動(dòng)駕駛的技術(shù)的突破。我這里強(qiáng)調(diào)一下,我講的是四個(gè)字是自動(dòng)駕駛。對,然后不是智能駕駛,也不是輔助駕駛,我覺得這是最關(guān)鍵的。那我們自己我們自己內(nèi)部是從去年的九月份開始,來思考一個(gè)問題,并專門建立了一個(gè)用于自動(dòng)駕駛研究的一個(gè)團(tuán)隊(duì)。就是一個(gè)最簡單的一個(gè)問題,人類開車為什么不涉及學(xué)習(xí)corner case?如果我們不能解決這個(gè)問題,所有的自動(dòng)駕駛團(tuán)隊(duì)每天干的活都是靠人工去調(diào)試各種各樣的corner case。而且放的人越多,corner case越多,然后合作真正的自動(dòng)駕駛就越遙遠(yuǎn)。
這里邊最核心的一個(gè)原因是,當(dāng)人工智能技術(shù)在不斷的發(fā)展的時(shí)候,我們會(huì)發(fā)現(xiàn)其實(shí)人類開車的方式不是我們過去的這么多年里,用了自動(dòng)駕駛的研發(fā)的一個(gè)方式,這是一個(gè)根本的一個(gè)不同。因?yàn)槿碎_車沒那么辛苦,沒那么累。不需要養(yǎng)幾千人的團(tuán)隊(duì)去搞corner case,而且團(tuán)隊(duì)越多corner case又越多。所以這時(shí)候我們就從理論和技術(shù)的兩個(gè)角度去研究。人類到底怎么開車的。新的技術(shù)如何解決人類開車的解決自動(dòng)駕駛自動(dòng)駕駛開車的問題。
首先其實(shí)從理論的角度,我們先是從一本書里得到了一個(gè)啟示,這本書叫《思考快與慢》。思考快一慢來講述了其實(shí)我們?nèi)粘5臅r(shí)候,大腦在工作的時(shí)候是分為系統(tǒng)一和系統(tǒng)二。然后系統(tǒng)一來處理一些直覺,快速響應(yīng)的事情。事情其實(shí)就像我們在開車,很多時(shí)候我們在開車開了10分鐘、20分鐘、30分鐘,其實(shí)腦子里在想別的事情。但是我們?nèi)匀荒軌蛟谔幚砺飞系母鞣N的路況,甚至開到家的時(shí)候忘記了,過去這半個(gè)小時(shí)我們是怎么去工作的。其實(shí)這時(shí)候就意味著我們在用系統(tǒng)一在工作。
其實(shí)并不是我們的大腦并沒有不在工作,是我們大腦以一種它獨(dú)有的方式,低能耗的方式在工作。當(dāng)當(dāng)我們?nèi)サ揭粋€(gè)復(fù)雜的,比如一個(gè)十字路口卡死了,或者我開到一個(gè)地方遇到一個(gè)水坑,那這時(shí)候我就會(huì)調(diào)用自己的大腦系統(tǒng)二來工作,他來處理這種要復(fù)雜的邏輯的推演的這樣的一個(gè)能力。但是他對大腦的消耗是比較大的,所以大家不會(huì)一直用系統(tǒng)二的方式來進(jìn)行開車。但是解決各種復(fù)雜路況,解決泛化的問題,解決未知的問題,然后大腦會(huì)啟用系統(tǒng)二來工作。所以正常的話,如果我們看我們開車的話,基本上90%時(shí)間在使用系統(tǒng)一,5%的時(shí)間在使用系統(tǒng)二。
所以這么的話,人腦每天并不需要很多的工號,然后人也不需要學(xué)習(xí)corner case,就能學(xué)會(huì)開車。那這時(shí)候我們在想,如果是這樣的人類的一個(gè)工作方式,那自動(dòng)駕駛應(yīng)該怎么工作呢?什么是自動(dòng)駕駛的系統(tǒng)一,什么是自動(dòng)駕駛的系統(tǒng)二?那我們自己隨著對各種技術(shù)的研究,自動(dòng)駕駛的系統(tǒng)一其實(shí)就是今天很多的自動(dòng)駕駛團(tuán)隊(duì)都在做的端到端的這樣的一個(gè)技術(shù)。端到端就意味著其實(shí)我們把完整的訓(xùn)練片段放進(jìn)來,最后產(chǎn)生的結(jié)果是輸入直接產(chǎn)生輸出。而不是像過往的一個(gè)感知的模塊,一個(gè)規(guī)劃的模塊,一個(gè)決策的模塊,一個(gè)執(zhí)行的模塊,那這樣的效率更高。但是他的挑戰(zhàn)也來了,也不需要各類各種人類的規(guī)則在里邊,也不會(huì)發(fā)揮作用了。
它的挑戰(zhàn)主要來自于三個(gè)方面。第一個(gè)你要有真正會(huì)做端到端,也包含這方面的數(shù)據(jù)訓(xùn)練的人才。第二個(gè)需要真正高質(zhì)量的數(shù)據(jù)。我覺得第三個(gè)是需要足夠多的算力。因?yàn)槎说蕉藢τ谒懔Φ男枨蠛鸵酝亲兊猛耆灰粯恿恕?/div>
我們在端到端方面的做的過去在做的整個(gè)研究的測試,是我們大概放入了100萬的clips,用于端到端的訓(xùn)練,大概只需要做大概十輪左右的,就一個(gè)月10輪左右的訓(xùn)練,卡要足夠多,基本上就可以完成一個(gè)無圖Noa相同的一個(gè)上限的水平。所以我覺得這是第一點(diǎn)。但是面對中國的復(fù)雜路況,其實(shí)只有端到端是不夠的。我們要去思考什么是系統(tǒng)二。系統(tǒng)二的啟發(fā)在于什么呢?系統(tǒng)二的啟發(fā)在于其實(shí)解決各種各樣的corner case和各種的泛化的這樣的一個(gè)問題。然后人類并不是通過學(xué)習(xí)corner case的。
這里邊最明顯的一個(gè)案例,一個(gè)啟發(fā)什么呢?是我的愛人,我愛人剛學(xué)會(huì)開車很長的一段時(shí)間,連續(xù)好多年。其實(shí)她不停的剮蹭,你跟她分析下一次怎么不再剮蹭,其實(shí)沒有用。但下一次還是是剮蹭,我們就在想是不是因?yàn)槲屹I的車,這個(gè)車的個(gè)頭太大了,一輛寶馬X6,所以我換一輛小的車,換一輛高爾夫GTI仍然去剮蹭。那怎么說其實(shí)都會(huì)剮蹭。這時(shí)候我們會(huì)發(fā)現(xiàn),其實(shí)學(xué)習(xí)corner case沒有用。我們能不能通過提升能力的方式?
所以當(dāng)時(shí)我做了一個(gè)挺重要的一個(gè)判斷是給我愛人,然后報(bào)什么呢?報(bào)寶馬駕駛培訓(xùn)的初級班。對,然后寶馬駕駛培訓(xùn)初級班一整天其實(shí)通過各種各樣的方式只教了兩個(gè)。第一個(gè)是無論是你在賽道上過彎,還是你在繞樁,還是在處理環(huán)形的這個(gè)路面的時(shí)候,你在打轉(zhuǎn)向之前,你的眼睛看往哪里,不是看你要通過的路口,而是看對你接下來要去的地方。這是用各種各樣的方式來教我們在開車的時(shí)候如何去看路。
另外一方面,寶馬的駕駛培訓(xùn)班還交了另外一個(gè)能力,就是在各種復(fù)雜的場景里如何把剎車踩到底。包含在濕滑的路面,在轉(zhuǎn)彎的路面,在一半鋼板一半道路的路面,如何能夠把剎車踩到底,從而提升一個(gè)人對于整個(gè)剎車能力的認(rèn)知。所以整個(gè)的寶馬駕駛培訓(xùn)的初級班,一整天的時(shí)間只教了兩個(gè)事情。第一個(gè)是教你看路的能力,第二個(gè)是教你剎車的能力。對他沒有教任何的corner。
只經(jīng)過這么一天的訓(xùn)練,然后我愛人就徹底和剮蹭告別了。在接下來的十幾年里邊,沒有出現(xiàn)過任何的剮蹭。所以我說這是人類其實(shí)學(xué)習(xí)的一個(gè)方式。
我們再考慮說如何把這樣的能力給到車上。然后我們看到一個(gè)很重要的一個(gè)技術(shù)是VLM,就是視覺語言模型。為什么不是視覺大語言模型?是視覺語言模型是因?yàn)槲覀儧]有辦法把一個(gè)大模型在云端讓車來使用。因?yàn)檫@個(gè)響應(yīng)速度就會(huì)車毀人亡了。所以我們還是其實(shí)如何把一個(gè)世界大語言模型進(jìn)行足夠的壓縮,然后最后能夠放到車上去。它能夠再面對一個(gè)沒有紅綠燈的左轉(zhuǎn)路口,提前做出預(yù)判。然后來知道我這個(gè)路口如何進(jìn)行特殊的處理,進(jìn)行復(fù)雜的處理。
它還有另外一個(gè)重要的功能,就是告別高精地圖,也告別所有的輕圖在內(nèi)的方式。為什么呢?因?yàn)橐曈X的語言模型還有一個(gè)最重要的功能,是能夠像人類一樣去讀懂導(dǎo)航地圖。包含導(dǎo)航地圖的橫向縱向速度,然后時(shí)間還要包含紅綠燈的,哪怕有車輛的遮擋,其實(shí)紅綠燈也不會(huì)再成為問題。所以我們會(huì)發(fā)現(xiàn)其實(shí)可以有效的通過世界語言模型,來解決系統(tǒng)二的問題。一方面為端到端進(jìn)行一個(gè)兜底,另外一方面能解決各種各樣的泛化的問題。所以我們就發(fā)現(xiàn)非常有意思。我們的車的AD max有兩個(gè)芯片,有兩顆Orin X的芯片,正好一顆Orin X芯片可以跑端到端,另外一顆Orin X芯片可以跑可以來運(yùn)行。一個(gè)壓縮到大概20億規(guī)模的一個(gè)VLM的模型。
那整個(gè)的結(jié)果,我們的驗(yàn)證的一個(gè)結(jié)果其實(shí)是非常興奮的。我們認(rèn)為最早在今年年底,最晚在明年的上半年,真正的這種L3,我對L3的定義是有監(jiān)督的自動(dòng)駕駛,就可以批量向用戶交付了,而不是只是用于在做實(shí)驗(yàn)。
解決這兩個(gè)問題以后,其實(shí)還有第三個(gè)問題。對,因?yàn)槎说蕉耸莻€(gè)黑盒子,然后VLM其實(shí)也是黑盒子。它跟過去的時(shí)候我們在做智能駕駛,做輔助駕駛一個(gè)很大的不同是它不再是功能,它是能力。我覺得AI最大的差別是能力。而過去的編程體系最重要的是功能,功能是要通過測試和實(shí)驗(yàn)來驗(yàn)證的。但是能力一個(gè)黑盒子怎么拿測試和實(shí)驗(yàn)來驗(yàn)證是不可能的。所以這時(shí)候的一個(gè)新的挑戰(zhàn)就是我們用什么樣的技術(shù)方式來驗(yàn)證能力。
這時(shí)候我們又找到了一個(gè)新的一個(gè)方式,其實(shí)主要的這個(gè)原理是來自于Sora,就是我們用Diffusion Transform的方式來構(gòu)建一個(gè)重要的一個(gè)小型的世界模型,會(huì)拿這個(gè)世界模型,然后讓我們的車在里邊進(jìn)行考試。所以這么著其實(shí)我們模擬人的一套真正的工作原理就開始呈現(xiàn)了。然后端到端來承載人的系統(tǒng)一,然后VLM來承載人的系統(tǒng)二,系統(tǒng)一來解決所有的正常的自動(dòng)駕駛。這些反應(yīng),這些駕駛的能力,然后系統(tǒng)二來解決兜底和泛化的這種能力,并應(yīng)用生成式的這種小的世界模型來進(jìn)行考試。這是我們在過去的一段時(shí)間里,做的最重要的一個(gè)技術(shù)性的一個(gè)突破。而且我們的研究團(tuán)隊(duì)已經(jīng)完全通過了正常的研究的驗(yàn)證。那接下來的我們會(huì)怎么樣呢?
我們會(huì)在三季度正式推我們的全國的無圖Noa的時(shí)候,也會(huì)向我們的測試用戶來推。我們大概通過300萬的clips來訓(xùn)練出來的。剛才的然后端到端加VLM,然后這樣他一套的我認(rèn)為是監(jiān)督型的自動(dòng)駕駛的體系。我們認(rèn)為其實(shí)最早的話會(huì)在今年的年底,最晚明年年初,我們會(huì)大概推出通過超過1000萬的clips的訓(xùn)練,端到端加VLM的整個(gè)的帶有監(jiān)督的自動(dòng)駕駛的體系。我們認(rèn)為這套VLM加有端到端加VLM,再加這種生成式的驗(yàn)證系統(tǒng),也會(huì)是未來的整個(gè)物理世界機(jī)器人最重要的技術(shù)架構(gòu)和技術(shù)體系。在接下來的一段時(shí)間里,包含最近本月還有下月的幾個(gè)關(guān)鍵的AI方面的技術(shù)論壇里。我們的這個(gè)技術(shù)研究的同事也會(huì)向整個(gè)的行業(yè)來分享我們對這方面的所有的研究。這里邊的原理和實(shí)際的結(jié)果,能夠把我們進(jìn)行的一些探索,能夠與同行們進(jìn)行有效的一個(gè)分享。
另外一方面就是說我剛才講的,我們會(huì)在七月份到最早年底,最晚明年年初,把這樣的技術(shù)帶給真正的用戶。通過這樣的技術(shù),我們可以確定的堅(jiān)信一件事情,就在現(xiàn)有的計(jì)算平臺上,帶有監(jiān)督的L3級別的輔助駕駛,L3級別的自動(dòng)駕駛是百分之百可以實(shí)現(xiàn)的。而且隨著這套技術(shù)的演進(jìn),算力的增強(qiáng),模型的加大,對我認(rèn)為無監(jiān)督的L4自動(dòng)駕駛也會(huì)在至少三年內(nèi)一定可以實(shí)現(xiàn)。
好,謝謝大家。
如果你希望深度交流理想長期基本面,加微信,進(jìn)理想群。不是車友群。
咨詢詳情:如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請加微信:ZiDongHuaX 。
微信聯(lián)盟:理想汽車微信群、人工智能微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
微信聯(lián)盟:理想汽車微信群、人工智能微信群、機(jī)器人微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測儀器、智慧農(nóng)業(yè)在線監(jiān)測儀器 金葉儀器: 氣體/顆粒物/煙塵在線監(jiān)測解決方案
西凱昂:SMC氣動(dòng)元件、力士樂液壓元件、倍加福光電產(chǎn)品等 山東諾方: 顆粒物傳感器、粉塵濃度傳感器
深圳金瑞銘:RFID射頻識別、智能傳感器等物聯(lián)網(wǎng)解決方案 北京英諾艾智: 容錯(cuò)服務(wù)器、邊緣計(jì)算解決方案
我要收藏
個(gè)贊
評論排行