劃重點
01智駕行業(yè)正快速迭代,端到端技術(shù)成為新的技術(shù)范式,但谷歌DeepMind推出的VLA模型將端到端與多模態(tài)大模型結(jié)合得更徹底。
02VLA模型最早見于機器人行業(yè),今年10月底,谷歌旗下自動駕駛公司W(wǎng)aymo推出了基于端到端的自動駕駛多模態(tài)模型EMMA。
03事實上,VLA模型可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”,對智駕的演進意義重大。
04然而,VLA模型的上車難度不小,對技術(shù)和車端的芯片算力都有高強度要求,預(yù)計2026年才會出現(xiàn)支持VLA模型上車交付的芯片。
05由于此,后發(fā)制人的機會更加稀少,端到端技術(shù)變奏為車企帶來了更高的挑戰(zhàn)。
以上內(nèi)容由大模型生成,僅供參考
文|李安琪
編輯|李勤
像海鮮市場一樣,智能駕駛行業(yè)技術(shù)浪潮正在快速更迭。“端到端”剛成為新的技術(shù)范式,甚至大量公司還沒來得及完成研發(fā)模式切換,端到端就進入了技術(shù)換代時期。
“端到端”的最新進化方向是,深度融入多模態(tài)大模型。過去兩年,大模型已經(jīng)展現(xiàn)出了讀文、識圖、拍電影的能力,但大模型開車恐怕還是頭一遭。
近期,智駕行業(yè)出現(xiàn)了一個融合了視覺、語言和動作的多模態(tài)大模型范式VLA(Vision-Language-Action Model,即視覺-語言-動作模型),擁有更高的場景推理能力與泛化能力。不少智駕人士都將VLA視為當下“端到端”方案的2.0版本。
事實上,VLA模型最早見于機器人行業(yè)。2023年7月28日,谷歌 DeepMind推出了全球首個控制機器人的視覺語言動作(VLA)模型。
不過這個模型概念正快速擴散到智駕領(lǐng)域。今年10月底,谷歌旗下自動駕駛公司W(wǎng)aymo推出了一個基于端到端的自動駕駛多模態(tài)模型EMMA。有行業(yè)人士表示,這就是一個VLA模型架構(gòu),既有端到端智駕能力,還融合了多模態(tài)大模型。
過去,智能駕駛行業(yè)基于規(guī)則算法,進行了十數(shù)年探索。近兩年,特斯拉引領(lǐng)的“端到端”智能駕駛,成為新的技術(shù)方向,不僅讓智駕具備更擬人的表現(xiàn),也能應(yīng)對城市中海量的復(fù)雜交通場景。
配合“端到端”技術(shù),行業(yè)玩家還會增加大語言模型等來提升智駕能力上限。端到端+VLM(視覺語言模型),就被理想等公司推崇。
但不同于VLM相對獨立、低頻地為端到端提供駕駛建議的模式,VLA架構(gòu)下,端到端與多模態(tài)大模型的結(jié)合會更徹底。就連理想人士也向36氪汽車坦承,“可以把VLA看成是端到端+VLM的合體!
VLA模型,很可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”。
有行業(yè)人士表示,VLA模型對智駕的演進意義重大,讓端到端理解世界的能力更強后,“長遠來看,在L2輔助駕駛到L4自動駕駛的飛躍中,VLA可能會成為關(guān)鍵跳板”。
一些車企智駕玩家已經(jīng)在暗自發(fā)力。此前,理想汽車曾在三季度財報電話會議上表示,內(nèi)部已經(jīng)啟動了L4級別自動駕駛的預(yù)研,在當前的技術(shù)路線基礎(chǔ)上,研發(fā)能力更強的車端VLA模型與云端世界模型相結(jié)合的強化學(xué)習(xí)體系。
智駕公司元戎啟行在獲得長城汽車的7億元注資之后,也表示將進一步布局VLA模型。元戎啟行稱,公司將基于英偉達最新智駕芯片Thor進行VLA模型研發(fā),模型預(yù)計于2025年推出。
但也存有共識,VLA模型的上車難度不小,對技術(shù)和車端的芯片算力都有高強度要求,“能夠支持VLA模型上車交付的芯片,可能在2026年才會出現(xiàn)!
端到端最新方向:融入多模態(tài)大模型
自2023年以來智駕行業(yè)掀起的BEV、端到端技術(shù)浪潮后,智駕正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案,基于AI、數(shù)據(jù)驅(qū)動的“端到端”擁有更高能力天花板。
圖源:元戎啟行
但在“端到端”模型之外,車企們還輔以了大語言模、視覺語言模型等外掛,來提供更強大的環(huán)境理解能力。年中,理想就推出了端到端模型+VLM(視覺語言模型)的方案。VLM模型對復(fù)雜交通環(huán)境具有更強的理解能力,可以給端到端提供相關(guān)駕駛建議。
不過據(jù)36氪汽車了解,理想的端到端模型+VLM模型,是相對獨立的兩個模型!袄硐隫LM占用了一顆Ori芯片算力,目前主要對限速提醒等場景做出駕駛建議!
而VLA模型,是將端到端、VLM兩個模型合二為一。也就是說,多模態(tài)大模型不再作為端到端的外掛,而是成為端到端自生的一種能力。
谷歌Waymo近期發(fā)表的論文中,端到端自動駕駛多模態(tài)模型,不僅將攝像頭的視頻和圖像作為感知輸入,同時還能以谷歌地圖“請在前方第二個匝道右轉(zhuǎn)出匝道”這種指令作為輸入,以及結(jié)合車輛歷史狀態(tài),輸出車輛未來軌跡。
有行業(yè)人士向36氪汽車表示,目前對于一些特殊的復(fù)雜場景,智駕仍然缺少學(xué)習(xí)數(shù)據(jù)樣本。如果融入模態(tài)大模型,就能將大模型學(xué)習(xí)到的知識遷移給智駕系統(tǒng),可以有效應(yīng)對corner case(長尾場景)。
智駕公司元戎啟行CEO周光也認為,VLA模型是端到端的2.0版本。他表示,遇到一些復(fù)雜的交通規(guī)則、潮汐車道、長時序推理等特殊場景時,智駕會比過往理解、應(yīng)對得更好。
比如在推理時長上,傳統(tǒng)rule-base(基于規(guī)則)方案下,智駕只能推理1秒鐘路況信息然后做出決策控制;端到端1.0階段系統(tǒng)能夠推理出未來7秒路況,而VLA能對幾十秒路況進行推理。
“目前基本上大家沿著這條線已經(jīng)預(yù)研1年多了,不過明年想要量產(chǎn)還是有很大難度!庇行袠I(yè)人士表示。
端到端變奏,后發(fā)者的機會更少了
在進入規(guī)模推廣之前,下一代端到端方案還面臨很現(xiàn)實的挑戰(zhàn)。
一方面,現(xiàn)階段車端芯片硬件不足以支撐多模態(tài)大模型的部署落地。有行業(yè)人士向36氪汽車表示,將端到端與VLM模型二合一后,車端模型參數(shù)變得更大,既要有高效實時推理能力,同時還要有大模型認識復(fù)雜世界并給出建議的能力,對車端芯片硬件有相當高要求。
當下,高階智駕的算力硬件基本為2顆英偉達OrinX芯片,算力在508Tops。有行業(yè)人士表示,現(xiàn)在車端的算力很難支撐VLA模型的部署。
而英偉達的最新一代車載AI芯片Thor有望改變這種局面,Thor的單片AI算力達1000Tops,并對AI、大模型等算力都有不錯支持。
不過跟英偉達接觸的人士向36氪汽車表示,明年英偉達Thor芯片大概會延期發(fā)布,上半年最先有望先推出的是700Tops算力版本。但一顆700Tops算力的芯片也可能支撐不了VLA模型,兩片Thor的成本又高出不少。
英偉達的芯片量產(chǎn)時間與成本挑戰(zhàn),橫亙在車企前面。為此,一些自研芯片的新勢力也在緊追芯片進度。據(jù)36氪汽車了解,一家頭部新勢力的VLA模型預(yù)計2026年正式上車。“屆時結(jié)合自研的大算力芯片,VLA的效果會更驚艷!鄙鲜鲂袠I(yè)人士表示。
好在,VLA模型架構(gòu)下,數(shù)據(jù)方面的挑戰(zhàn)沒有驟然提升。
有行業(yè)人士告訴36氪,在端到端基礎(chǔ)上,VLA模型融入了視覺語言模型、動作模型。但多模態(tài)大模型的數(shù)據(jù)并不難獲得,包括已經(jīng)開源的大模型、互聯(lián)網(wǎng)上已有的通用語言,都可能成為智駕多模態(tài)大模型的養(yǎng)料。
更具挑戰(zhàn)的是,如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度交融。這考驗著頭部智駕團隊的模型框架定義能力、模型快速迭代能力。
這些都決定了VLA模型不會太快進入智駕的量產(chǎn)環(huán)節(jié)。
然而,技術(shù)路線的驟然升級與競賽變奏,為還沒發(fā)力端到端的玩家設(shè)置了更高門檻,后發(fā)制人的機會更加稀少。