要聞

理想汽車(chē)推送OTA 8.0版本，李想稱(chēng)公司輔助駕駛開(kāi)始“全面領(lǐng)先”，VLA優(yōu)于世界模型？

每日經(jīng)濟(jì)新聞 2025-09-12 18:04:40

近日，理想汽車(chē)推送OTA8.0版本車(chē)機(jī)系統(tǒng)，輔助駕駛等迎來(lái)升級(jí)。其中，自研的VLA司機(jī)大模型向理想MEGA和理想L系列AD Max車(chē)型全量推送，但李想坦言推送的是“殘血版”。該模型能看得懂道路、聽(tīng)得懂指揮、記得住習(xí)慣。清華大學(xué)顏宏偉等專(zhuān)家認(rèn)為，VLA模型優(yōu)勢(shì)在于一體化及更強(qiáng)泛化性。專(zhuān)家表示，VLA與世界模型不矛盾，輔助駕駛技術(shù)架構(gòu)未來(lái)2-3年還將迭代。

每經(jīng)記者｜孫磊每經(jīng)編輯｜裴健如

“理想汽車(chē)的輔助駕駛和智能座艙，從‘局部領(lǐng)先’進(jìn)入‘全面領(lǐng)先’。”在理想汽車(chē)于近日推送OTA8.0版本車(chē)機(jī)系統(tǒng)后，理想汽車(chē)董事長(zhǎng)李想在社交媒體上如此表示。

圖片來(lái)源：新浪微博（@李想）

近日，理想汽車(chē)OTA8.0版本車(chē)機(jī)系統(tǒng)正式開(kāi)啟推送，輔助駕駛、智能座艙和智能電動(dòng)迎來(lái)升級(jí)。其中，理想汽車(chē)自研的新一代輔助駕駛技術(shù)架構(gòu)——VLA（Vision-Language-Action Model，視覺(jué)語(yǔ)言行動(dòng)模型）司機(jī)大模型向理想MEGA和理想L系列AD Max車(chē)型全量推送。

李想表示，VLA司機(jī)大模型是理想汽車(chē)的第三代輔助駕駛技術(shù)（第一代是規(guī)則，第二代是端到端，第三代是VLA），而VLA之所以被命名為司機(jī)大模型，是因?yàn)樗?ldquo;看得懂道路狀況，聽(tīng)得懂人類(lèi)指揮，記得住車(chē)主習(xí)慣”，更像一個(gè)真人版的私人司機(jī)。

“推送的VLA為‘殘血版’”

在推送VLA司機(jī)大模型的同時(shí)，李想也坦言，“因?yàn)榉N種原因，今天全量推送的VLA還是‘殘血版’（一個(gè)廣受好評(píng)的功能暫時(shí)沒(méi)推）”。值得一提的是，此前有消息稱(chēng)，理想汽車(chē)的VLA遠(yuǎn)程召喚功能被舉報(bào)，理想汽車(chē)被迫暫停這項(xiàng)功能的推送。

對(duì)此，理想汽車(chē)方面告訴《每日經(jīng)濟(jì)新聞》記者：“自發(fā)布VLA輔助駕駛技術(shù)架構(gòu)以來(lái)，我們受到了行業(yè)及各界的廣泛關(guān)注和討論，公司深感責(zé)任重大，始終以審慎負(fù)責(zé)的態(tài)度推進(jìn)各項(xiàng)新功能的上線進(jìn)程。”

“9月10日開(kāi)始，VLA司機(jī)大模型及相關(guān)功能將陸續(xù)推送到所有配備AD Max高級(jí)輔助駕駛系統(tǒng)的理想L系列和MEGA車(chē)型上，各項(xiàng)輔助駕駛功能包括輔助泊車(chē)都將得到提升。具體功能我們將依據(jù)相關(guān)法律法規(guī)推送。”理想汽車(chē)方面補(bǔ)充道。

圖片來(lái)源：理想汽車(chē)官微

在9月11日，李想在社交媒體發(fā)文稱(chēng)，現(xiàn)在網(wǎng)絡(luò)上對(duì)9月10日開(kāi)始推送的OTA8.0版本的理想VLA司機(jī)大模型出現(xiàn)“殘血版”原因的分析，大多是不實(shí)信息。

據(jù)理想汽車(chē)方面介紹，憑借VLA司機(jī)大模型對(duì)環(huán)境、導(dǎo)航的理解和推理能力，輔助駕駛功能在通過(guò)主輔路切換、高架匝道等復(fù)雜路口時(shí)，選路更加精準(zhǔn)。此外，VLA司機(jī)大模型具備車(chē)速記憶能力，能夠記住用戶(hù)在特定道路的車(chē)速偏好，用戶(hù)只需要通過(guò)對(duì)話(huà)就可以設(shè)定車(chē)速，未來(lái)再次通過(guò)該路段時(shí)，模型將自動(dòng)調(diào)用記憶并調(diào)整為記憶過(guò)的車(chē)速。

理想汽車(chē)方面還表示，VLA泊車(chē)則擁有自主尋路、漫游找車(chē)位、導(dǎo)航終點(diǎn)靠邊停車(chē)等功能，實(shí)現(xiàn)任意車(chē)位到任意車(chē)位的輔助駕駛體驗(yàn)。

VLA可被視為端到端的“智能增強(qiáng)版”

除理想汽車(chē)外，元戎啟行、小鵬汽車(chē)等也在VLA領(lǐng)域進(jìn)行布局。元戎啟行于8月26日正式發(fā)布自研VLA大模型，推出名為DeepRoute IO 2.0的新平臺(tái)，確定將在5款車(chē)型上使用；9月4日，小鵬汽車(chē)宣布，小鵬G7 Ultra開(kāi)啟首次OTA推送，其中就包含融合全場(chǎng)景VLA大模型的導(dǎo)航輔助駕駛功能。多家車(chē)企競(jìng)相布局，正是希望借這一模型之力，打通端到端方案的瓶頸。

值得一提的是，傳統(tǒng)規(guī)則與端到端模型都卡在同一道“坎”：一旦遇到訓(xùn)練集里沒(méi)見(jiàn)過(guò)的場(chǎng)景，系統(tǒng)就“發(fā)懵”，只能事后打補(bǔ)丁。但現(xiàn)實(shí)路況千變?nèi)f化，沒(méi)有辦法在數(shù)據(jù)中窮舉所有的可能，因此長(zhǎng)尾場(chǎng)景一直是自動(dòng)駕駛最大的挑戰(zhàn)。“VLA能夠更好地解決上述問(wèn)題。”清華大學(xué)車(chē)輛與運(yùn)載學(xué)院助理研究員顏宏偉認(rèn)為，VLA模型的主要優(yōu)勢(shì)在于模型一體化及更強(qiáng)的泛化性，即應(yīng)對(duì)復(fù)雜場(chǎng)景的能力。

據(jù)悉，VLA相較端到端具有諸多優(yōu)勢(shì)，可被視為端到端的“智能增強(qiáng)版”。VLA中的V指的是感知，A是執(zhí)行，中間的L則是語(yǔ)言模型（Language Model）。V負(fù)責(zé)感知環(huán)境，A負(fù)責(zé)動(dòng)作執(zhí)行，中間的L的作用類(lèi)似于“中臺(tái)”，將V的內(nèi)容，也就是感知的內(nèi)容轉(zhuǎn)譯成A執(zhí)行的規(guī)劃和決策。“VLA是多模態(tài)大模型驅(qū)動(dòng)的智能體架構(gòu)，其核心突破在于引入思維鏈，通過(guò)語(yǔ)言模型實(shí)現(xiàn)對(duì)環(huán)境理解與決策推理的可解釋性。”顏宏偉說(shuō)。

元戎啟行CEO周光認(rèn)為：“VLA模型融合了語(yǔ)言模型，具備強(qiáng)大的思維鏈能力，能擺脫傳統(tǒng)端到端模型的黑盒難題，并將信息串聯(lián)、分析，從而推理出因果關(guān)系。此外，它天然集成海量知識(shí)庫(kù)，泛化能力更強(qiáng)，能夠更好地適應(yīng)復(fù)雜多變的真實(shí)道路環(huán)境。”

圖片來(lái)源：元戎啟行官微

理想汽車(chē)自動(dòng)駕駛研發(fā)負(fù)責(zé)人郎咸朋也表示：“（VLA）真正發(fā)揮作用的是背后推理的長(zhǎng)思維鏈。如果沒(méi)有強(qiáng)大的L，再好的V和A都無(wú)法發(fā)揮出來(lái)。這跟人與動(dòng)物的區(qū)別很相似。論視覺(jué)能力人比不過(guò)鷹，論行動(dòng)速度比不過(guò)獵豹，但人之所以能夠稱(chēng)霸地球，靠的是強(qiáng)大的認(rèn)知和理解能力。而這個(gè)認(rèn)知和理解能力就來(lái)自于人類(lèi)特有的語(yǔ)言能力。”

此外，郎咸朋還強(qiáng)調(diào)，“L”指代語(yǔ)言學(xué)習(xí)能力，它并不是簡(jiǎn)單地用語(yǔ)言做顯示的文字推理，而是用語(yǔ)言提供的數(shù)據(jù)學(xué)習(xí)隱式的邏輯推理。

“當(dāng)語(yǔ)言模型與輔助駕駛相遇，一切都變得簡(jiǎn)單了。盡管VLA模型的表現(xiàn)目前處于持續(xù)提升階段，但VLA模型的下限已超過(guò)端到端上限，未來(lái)會(huì)越來(lái)越好。”周光還表示。

VLA與世界模型不沖突

有企業(yè)重點(diǎn)布局VLA領(lǐng)域，有企業(yè)則不認(rèn)同該技術(shù)路徑。比如，華為智能汽車(chē)解決方案BU CEO靳玉志就表示：“我們不會(huì)走向VLA的路徑。這樣的路徑看似取巧，其實(shí)并不是走向真正自動(dòng)駕駛的路徑。”

“華為更看重WA（世界行為模型），也就是World Action，中間省掉Language這個(gè)環(huán)節(jié)……直接通過(guò)Vision這樣的信息輸入控車(chē)，而不是把各種各樣的信息轉(zhuǎn)成語(yǔ)言，再通過(guò)語(yǔ)言大模型來(lái)控制車(chē)。”靳玉志進(jìn)一步解釋稱(chēng)，華為乾崑自研的WEWA架構(gòu)包含云端的世界引擎（WE）與車(chē)端的世界行為模型（WA）。其中，WE負(fù)責(zé)海量數(shù)據(jù)訓(xùn)練與場(chǎng)景生成，WA則實(shí)現(xiàn)車(chē)端的實(shí)時(shí)環(huán)境推理與擬人化決策。

靳玉志提到的這種“世界模型”源自人類(lèi)對(duì)環(huán)境的認(rèn)知機(jī)制，指的是AI系統(tǒng)通過(guò)感知數(shù)據(jù)構(gòu)建一個(gè)對(duì)物理世界的內(nèi)部模擬，從而具備預(yù)測(cè)、推理和生成合理行為鏈的能力。在輔助駕駛中，它不再只是“看見(jiàn)”世界，而是理解世界，預(yù)測(cè)未來(lái)可能發(fā)生的情況，并提前做出決策。例如，它不僅能識(shí)別前方有一輛自行車(chē)，還能預(yù)測(cè)它是否會(huì)突然變道，從而提前減速或避讓。除華為外，蔚來(lái)、商湯等企業(yè)也都在此技術(shù)路線上進(jìn)行布局。

需要注意的是，盡管不同企業(yè)對(duì)于VLA和世界模型兩種技術(shù)“各執(zhí)一詞”，但兩者并不矛盾，VLA路線也結(jié)合了部分與駕駛數(shù)據(jù)相關(guān)的世界模型。例如，李想提出VLA可以拆解為預(yù)訓(xùn)練、后訓(xùn)練和強(qiáng)化學(xué)習(xí)三個(gè)層面。強(qiáng)化學(xué)習(xí)中最重要的一步就是在世界模型里閉環(huán)學(xué)習(xí)，引入舒適度、碰撞、交通規(guī)則等規(guī)則來(lái)打磨、反饋，讓VLA比人類(lèi)開(kāi)得更好。

此外，世界模型雖然更強(qiáng)調(diào)“海量使用云端模擬的數(shù)據(jù)、來(lái)讓大模型‘理解’世界而學(xué)會(huì)駕駛”，但其最底層的世界模型仍需要Transformer技術(shù)驅(qū)動(dòng)，而Transformer是VLA的底層骨干網(wǎng)絡(luò)。華為此前在和浙大、港科大的相關(guān)科研成果中，多次提到這一點(diǎn)。

“我了解大部分公司兩種技術(shù)都用。世界模型和VLA模型不是一個(gè)維度的東西，而是交錯(cuò)的。我可以有訓(xùn)練，比如說(shuō)基于各種復(fù)雜輸入的事件模型的理念，所以這兩個(gè)東西不矛盾、不沖突。”小馬智行CTO樓天城表示，“我認(rèn)為想要做百輛無(wú)人車(chē)以上，世界模型最關(guān)鍵。對(duì)其他公司（而言），可能做VLA模型賣(mài)車(chē)最關(guān)鍵。大家選擇不同的路線是因?yàn)槟繕?biāo)不同。”

對(duì)于輔助駕駛底層技術(shù)的演進(jìn)，千里科技董事長(zhǎng)印奇認(rèn)為，智駕行業(yè)在3年內(nèi)將迎來(lái)技術(shù)收斂。長(zhǎng)安汽車(chē)智能駕駛高級(jí)總工程師則表示，在未來(lái)2~3年內(nèi)，輔助駕駛的技術(shù)架構(gòu)還將迎來(lái)1至2輪迭代，到2028年有望收斂至相對(duì)穩(wěn)定的狀態(tài)。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

聯(lián)環(huán)藥業(yè)：全資子公司擬購(gòu)買(mǎi)資產(chǎn)，交易價(jià)格為7450萬(wàn)元

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

2025-09-12 18:00每經(jīng)熱榜

相關(guān)文章