三年片在线观看免费观看高清电影,美女网站免费福利视频

時(shí)間：2024-06-11 17:16:15 發(fā)布：tgy 來源：理想TOP2 第一對焦：自動(dòng)駕駛

　　【ZiDongHua 之駕駛自動(dòng)化收錄關(guān)鍵詞：自動(dòng)駕駛理想汽車人工智能機(jī)器人】

　　李想是真懂自動(dòng)駕駛細(xì)節(jié)

　　2024年6月8日，李想在重慶作了關(guān)于理想汽車自動(dòng)駕駛技術(shù)突破的脫稿演講，李想專門強(qiáng)調(diào)了是自動(dòng)駕駛，不是智能駕駛，不是輔助駕駛。

　　李想講的內(nèi)容核心框架實(shí)際上和理想汽車智能駕駛技術(shù)研發(fā)負(fù)責(zé)人賈鵬2024年3月底在英偉達(dá)GTC 2024上講的內(nèi)容是完全一致的。

　　脫稿+舉的例子不一樣表明了李想是完全搞懂了自動(dòng)駕駛技術(shù)路線核心框架的。

　　李想提到基于現(xiàn)有的計(jì)算平臺，有監(jiān)督的L3級別自動(dòng)駕駛100%可實(shí)現(xiàn)，最早今年年底，最晚明天年初就會(huì)全量推送，無監(jiān)督的L4自動(dòng)駕駛?cè)陜?nèi)一定可以實(shí)現(xiàn)。

　　理想汽車的自動(dòng)駕駛路線核心思路是用一顆Orin X芯片用于端到端，一顆Orin X用于VLM,端到端為系統(tǒng)一，處理所有的正常的自動(dòng)駕駛，VLM為系統(tǒng)二，來解決兜底和泛化的能力。

　　軟件2.0與1.0最大的區(qū)別是1.0本質(zhì)是具備功能，2.0是具備能力。功能是通過測試和實(shí)驗(yàn)來驗(yàn)證，而理想汽車通過生成式的世界模型來對自動(dòng)駕駛能力進(jìn)行考試。

　　李想脫稿演講原視頻：

　　李想脫稿演講全文：

　　今天跟大家分享做的一個(gè)重要的技術(shù)的一個(gè)突破，是關(guān)于自動(dòng)駕駛的技術(shù)的突破。我這里強(qiáng)調(diào)一下，我講的是四個(gè)字是自動(dòng)駕駛。對，然后不是智能駕駛，也不是輔助駕駛，我覺得這是最關(guān)鍵的。那我們自己我們自己內(nèi)部是從去年的九月份開始，來思考一個(gè)問題，并專門建立了一個(gè)用于自動(dòng)駕駛研究的一個(gè)團(tuán)隊(duì)。就是一個(gè)最簡單的一個(gè)問題，人類開車為什么不涉及學(xué)習(xí)corner case？如果我們不能解決這個(gè)問題，所有的自動(dòng)駕駛團(tuán)隊(duì)每天干的活都是靠人工去調(diào)試各種各樣的corner case。而且放的人越多，corner case越多，然后合作真正的自動(dòng)駕駛就越遙遠(yuǎn)。

　　這里邊最核心的一個(gè)原因是，當(dāng)人工智能技術(shù)在不斷的發(fā)展的時(shí)候，我們會(huì)發(fā)現(xiàn)其實(shí)人類開車的方式不是我們過去的這么多年里，用了自動(dòng)駕駛的研發(fā)的一個(gè)方式，這是一個(gè)根本的一個(gè)不同。因?yàn)槿碎_車沒那么辛苦，沒那么累。不需要養(yǎng)幾千人的團(tuán)隊(duì)去搞corner case，而且團(tuán)隊(duì)越多corner case又越多。所以這時(shí)候我們就從理論和技術(shù)的兩個(gè)角度去研究。人類到底怎么開車的。新的技術(shù)如何解決人類開車的解決自動(dòng)駕駛自動(dòng)駕駛開車的問題。

　　首先其實(shí)從理論的角度，我們先是從一本書里得到了一個(gè)啟示，這本書叫《思考快與慢》。思考快一慢來講述了其實(shí)我們?nèi)粘５臅r(shí)候，大腦在工作的時(shí)候是分為系統(tǒng)一和系統(tǒng)二。然后系統(tǒng)一來處理一些直覺，快速響應(yīng)的事情。事情其實(shí)就像我們在開車，很多時(shí)候我們在開車開了10分鐘、20分鐘、30分鐘，其實(shí)腦子里在想別的事情。但是我們?nèi)匀荒軌蛟谔幚砺飞系母鞣N的路況，甚至開到家的時(shí)候忘記了，過去這半個(gè)小時(shí)我們是怎么去工作的。其實(shí)這時(shí)候就意味著我們在用系統(tǒng)一在工作。

　　其實(shí)并不是我們的大腦并沒有不在工作，是我們大腦以一種它獨(dú)有的方式，低能耗的方式在工作。當(dāng)當(dāng)我們?nèi)サ揭粋€(gè)復(fù)雜的，比如一個(gè)十字路口卡死了，或者我開到一個(gè)地方遇到一個(gè)水坑，那這時(shí)候我就會(huì)調(diào)用自己的大腦系統(tǒng)二來工作，他來處理這種要復(fù)雜的邏輯的推演的這樣的一個(gè)能力。但是他對大腦的消耗是比較大的，所以大家不會(huì)一直用系統(tǒng)二的方式來進(jìn)行開車。但是解決各種復(fù)雜路況，解決泛化的問題，解決未知的問題，然后大腦會(huì)啟用系統(tǒng)二來工作。所以正常的話，如果我們看我們開車的話，基本上90%時(shí)間在使用系統(tǒng)一，5%的時(shí)間在使用系統(tǒng)二。

　　所以這么的話，人腦每天并不需要很多的工號，然后人也不需要學(xué)習(xí)corner case，就能學(xué)會(huì)開車。那這時(shí)候我們在想，如果是這樣的人類的一個(gè)工作方式，那自動(dòng)駕駛應(yīng)該怎么工作呢？什么是自動(dòng)駕駛的系統(tǒng)一，什么是自動(dòng)駕駛的系統(tǒng)二？那我們自己隨著對各種技術(shù)的研究，自動(dòng)駕駛的系統(tǒng)一其實(shí)就是今天很多的自動(dòng)駕駛團(tuán)隊(duì)都在做的端到端的這樣的一個(gè)技術(shù)。端到端就意味著其實(shí)我們把完整的訓(xùn)練片段放進(jìn)來，最后產(chǎn)生的結(jié)果是輸入直接產(chǎn)生輸出。而不是像過往的一個(gè)感知的模塊，一個(gè)規(guī)劃的模塊，一個(gè)決策的模塊，一個(gè)執(zhí)行的模塊，那這樣的效率更高。但是他的挑戰(zhàn)也來了，也不需要各類各種人類的規(guī)則在里邊，也不會(huì)發(fā)揮作用了。

　　它的挑戰(zhàn)主要來自于三個(gè)方面。第一個(gè)你要有真正會(huì)做端到端，也包含這方面的數(shù)據(jù)訓(xùn)練的人才。第二個(gè)需要真正高質(zhì)量的數(shù)據(jù)。我覺得第三個(gè)是需要足夠多的算力。因?yàn)槎说蕉藢τ谒懔Φ男枨蠛鸵酝亲兊猛耆灰粯恿恕?/div>

　　我們在端到端方面的做的過去在做的整個(gè)研究的測試，是我們大概放入了100萬的clips，用于端到端的訓(xùn)練，大概只需要做大概十輪左右的，就一個(gè)月10輪左右的訓(xùn)練,卡要足夠多，基本上就可以完成一個(gè)無圖Noa相同的一個(gè)上限的水平。所以我覺得這是第一點(diǎn)。但是面對中國的復(fù)雜路況，其實(shí)只有端到端是不夠的。我們要去思考什么是系統(tǒng)二。系統(tǒng)二的啟發(fā)在于什么呢？系統(tǒng)二的啟發(fā)在于其實(shí)解決各種各樣的corner case和各種的泛化的這樣的一個(gè)問題。然后人類并不是通過學(xué)習(xí)corner case的。

　　這里邊最明顯的一個(gè)案例，一個(gè)啟發(fā)什么呢？是我的愛人，我愛人剛學(xué)會(huì)開車很長的一段時(shí)間，連續(xù)好多年。其實(shí)她不停的剮蹭，你跟她分析下一次怎么不再剮蹭，其實(shí)沒有用。但下一次還是是剮蹭，我們就在想是不是因?yàn)槲屹I的車，這個(gè)車的個(gè)頭太大了，一輛寶馬X6，所以我換一輛小的車，換一輛高爾夫GTI仍然去剮蹭。那怎么說其實(shí)都會(huì)剮蹭。這時(shí)候我們會(huì)發(fā)現(xiàn)，其實(shí)學(xué)習(xí)corner case沒有用。我們能不能通過提升能力的方式？

　　所以當(dāng)時(shí)我做了一個(gè)挺重要的一個(gè)判斷是給我愛人，然后報(bào)什么呢？報(bào)寶馬駕駛培訓(xùn)的初級班。對，然后寶馬駕駛培訓(xùn)初級班一整天其實(shí)通過各種各樣的方式只教了兩個(gè)。第一個(gè)是無論是你在賽道上過彎，還是你在繞樁，還是在處理環(huán)形的這個(gè)路面的時(shí)候，你在打轉(zhuǎn)向之前，你的眼睛看往哪里，不是看你要通過的路口，而是看對你接下來要去的地方。這是用各種各樣的方式來教我們在開車的時(shí)候如何去看路。

　　另外一方面，寶馬的駕駛培訓(xùn)班還交了另外一個(gè)能力，就是在各種復(fù)雜的場景里如何把剎車踩到底。包含在濕滑的路面，在轉(zhuǎn)彎的路面，在一半鋼板一半道路的路面，如何能夠把剎車踩到底，從而提升一個(gè)人對于整個(gè)剎車能力的認(rèn)知。所以整個(gè)的寶馬駕駛培訓(xùn)的初級班，一整天的時(shí)間只教了兩個(gè)事情。第一個(gè)是教你看路的能力，第二個(gè)是教你剎車的能力。對他沒有教任何的corner。

　　只經(jīng)過這么一天的訓(xùn)練，然后我愛人就徹底和剮蹭告別了。在接下來的十幾年里邊，沒有出現(xiàn)過任何的剮蹭。所以我說這是人類其實(shí)學(xué)習(xí)的一個(gè)方式。

　　我們再考慮說如何把這樣的能力給到車上。然后我們看到一個(gè)很重要的一個(gè)技術(shù)是VLM，就是視覺語言模型。為什么不是視覺大語言模型？是視覺語言模型是因?yàn)槲覀儧]有辦法把一個(gè)大模型在云端讓車來使用。因?yàn)檫@個(gè)響應(yīng)速度就會(huì)車毀人亡了。所以我們還是其實(shí)如何把一個(gè)世界大語言模型進(jìn)行足夠的壓縮，然后最后能夠放到車上去。它能夠再面對一個(gè)沒有紅綠燈的左轉(zhuǎn)路口，提前做出預(yù)判。然后來知道我這個(gè)路口如何進(jìn)行特殊的處理，進(jìn)行復(fù)雜的處理。

　　它還有另外一個(gè)重要的功能，就是告別高精地圖，也告別所有的輕圖在內(nèi)的方式。為什么呢？因?yàn)橐曈X的語言模型還有一個(gè)最重要的功能，是能夠像人類一樣去讀懂導(dǎo)航地圖。包含導(dǎo)航地圖的橫向縱向速度，然后時(shí)間還要包含紅綠燈的，哪怕有車輛的遮擋，其實(shí)紅綠燈也不會(huì)再成為問題。所以我們會(huì)發(fā)現(xiàn)其實(shí)可以有效的通過世界語言模型，來解決系統(tǒng)二的問題。一方面為端到端進(jìn)行一個(gè)兜底，另外一方面能解決各種各樣的泛化的問題。所以我們就發(fā)現(xiàn)非常有意思。我們的車的AD max有兩個(gè)芯片，有兩顆Orin X的芯片，正好一顆Orin X芯片可以跑端到端，另外一顆Orin X芯片可以跑可以來運(yùn)行。一個(gè)壓縮到大概20億規(guī)模的一個(gè)VLM的模型。

　　那整個(gè)的結(jié)果，我們的驗(yàn)證的一個(gè)結(jié)果其實(shí)是非常興奮的。我們認(rèn)為最早在今年年底，最晚在明年的上半年，真正的這種L3,我對L3的定義是有監(jiān)督的自動(dòng)駕駛,就可以批量向用戶交付了，而不是只是用于在做實(shí)驗(yàn)。

　　解決這兩個(gè)問題以后，其實(shí)還有第三個(gè)問題。對，因?yàn)槎说蕉耸莻€(gè)黑盒子，然后VLM其實(shí)也是黑盒子。它跟過去的時(shí)候我們在做智能駕駛，做輔助駕駛一個(gè)很大的不同是它不再是功能，它是能力。我覺得AI最大的差別是能力。而過去的編程體系最重要的是功能，功能是要通過測試和實(shí)驗(yàn)來驗(yàn)證的。但是能力一個(gè)黑盒子怎么拿測試和實(shí)驗(yàn)來驗(yàn)證是不可能的。所以這時(shí)候的一個(gè)新的挑戰(zhàn)就是我們用什么樣的技術(shù)方式來驗(yàn)證能力。

　　這時(shí)候我們又找到了一個(gè)新的一個(gè)方式，其實(shí)主要的這個(gè)原理是來自于Sora，就是我們用Diffusion Transform的方式來構(gòu)建一個(gè)重要的一個(gè)小型的世界模型，會(huì)拿這個(gè)世界模型，然后讓我們的車在里邊進(jìn)行考試。所以這么著其實(shí)我們模擬人的一套真正的工作原理就開始呈現(xiàn)了。然后端到端來承載人的系統(tǒng)一，然后VLM來承載人的系統(tǒng)二，系統(tǒng)一來解決所有的正常的自動(dòng)駕駛。這些反應(yīng)，這些駕駛的能力，然后系統(tǒng)二來解決兜底和泛化的這種能力，并應(yīng)用生成式的這種小的世界模型來進(jìn)行考試。這是我們在過去的一段時(shí)間里，做的最重要的一個(gè)技術(shù)性的一個(gè)突破。而且我們的研究團(tuán)隊(duì)已經(jīng)完全通過了正常的研究的驗(yàn)證。那接下來的我們會(huì)怎么樣呢？

　　我們會(huì)在三季度正式推我們的全國的無圖Noa的時(shí)候，也會(huì)向我們的測試用戶來推。我們大概通過300萬的clips來訓(xùn)練出來的。剛才的然后端到端加VLM，然后這樣他一套的我認(rèn)為是監(jiān)督型的自動(dòng)駕駛的體系。我們認(rèn)為其實(shí)最早的話會(huì)在今年的年底，最晚明年年初，我們會(huì)大概推出通過超過1000萬的clips的訓(xùn)練，端到端加VLM的整個(gè)的帶有監(jiān)督的自動(dòng)駕駛的體系。我們認(rèn)為這套VLM加有端到端加VLM，再加這種生成式的驗(yàn)證系統(tǒng)，也會(huì)是未來的整個(gè)物理世界機(jī)器人最重要的技術(shù)架構(gòu)和技術(shù)體系。在接下來的一段時(shí)間里，包含最近本月還有下月的幾個(gè)關(guān)鍵的AI方面的技術(shù)論壇里。我們的這個(gè)技術(shù)研究的同事也會(huì)向整個(gè)的行業(yè)來分享我們對這方面的所有的研究。這里邊的原理和實(shí)際的結(jié)果，能夠把我們進(jìn)行的一些探索，能夠與同行們進(jìn)行有效的一個(gè)分享。

　　另外一方面就是說我剛才講的，我們會(huì)在七月份到最早年底，最晚明年年初，把這樣的技術(shù)帶給真正的用戶。通過這樣的技術(shù)，我們可以確定的堅(jiān)信一件事情，就在現(xiàn)有的計(jì)算平臺上，帶有監(jiān)督的L3級別的輔助駕駛，L3級別的自動(dòng)駕駛是百分之百可以實(shí)現(xiàn)的。而且隨著這套技術(shù)的演進(jìn)，算力的增強(qiáng)，模型的加大，對我認(rèn)為無監(jiān)督的L4自動(dòng)駕駛也會(huì)在至少三年內(nèi)一定可以實(shí)現(xiàn)。

　　好，謝謝大家。

　　如果你希望深度交流理想長期基本面，加微信，進(jìn)理想群。不是車友群。