欧美精品一区区三区在线,亚洲性无码电影免费观看,一本一道av无码中文字幕麻豆

詳解“端到端”下一代模型VLA，通向自動駕駛的關(guān)鍵跳板

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-09 12:55:46 瀏覽：0次

導(dǎo)讀：劃重點01智駕行業(yè)正快速迭代，端到端技術(shù)成為新的技術(shù)范式，但谷歌DeepMind推出的VLA模型將端到端與多模態(tài)大模型結(jié)合得更徹底。02VLA模型最早見于機器人行業(yè)，今年10月底，谷歌旗下自動駕駛公司W(wǎng)aymo推出了基于端到端的自動駕駛多模態(tài)模型EMMA。03事實上，VLA模型可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”，對智駕的演進意義重大。04然而，VLA模型的上車難度不小，對技術(shù)和車 ......

劃重點

01智駕行業(yè)正快速迭代，端到端技術(shù)成為新的技術(shù)范式，但谷歌DeepMind推出的VLA模型將端到端與多模態(tài)大模型結(jié)合得更徹底。

02VLA模型最早見于機器人行業(yè)，今年10月底，谷歌旗下自動駕駛公司W(wǎng)aymo推出了基于端到端的自動駕駛多模態(tài)模型EMMA。

03事實上，VLA模型可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”，對智駕的演進意義重大。

04然而，VLA模型的上車難度不小，對技術(shù)和車端的芯片算力都有高強度要求，預(yù)計2026年才會出現(xiàn)支持VLA模型上車交付的芯片。

05由于此，后發(fā)制人的機會更加稀少，端到端技術(shù)變奏為車企帶來了更高的挑戰(zhàn)。

以上內(nèi)容由大模型生成，僅供參考

文｜李安琪

編輯｜李勤

像海鮮市場一樣，智能駕駛行業(yè)技術(shù)浪潮正在快速更迭。“端到端”剛成為新的技術(shù)范式，甚至大量公司還沒來得及完成研發(fā)模式切換，端到端就進入了技術(shù)換代時期。

“端到端”的最新進化方向是，深度融入多模態(tài)大模型。過去兩年，大模型已經(jīng)展現(xiàn)出了讀文、識圖、拍電影的能力，但大模型開車恐怕還是頭一遭。

近期，智駕行業(yè)出現(xiàn)了一個融合了視覺、語言和動作的多模態(tài)大模型范式VLA（Vision-Language-Action Model，即視覺-語言-動作模型），擁有更高的場景推理能力與泛化能力。不少智駕人士都將VLA視為當下“端到端”方案的2.0版本。

事實上，VLA模型最早見于機器人行業(yè)。2023年7月28日，谷歌 DeepMind推出了全球首個控制機器人的視覺語言動作（VLA）模型。

不過這個模型概念正快速擴散到智駕領(lǐng)域。今年10月底，谷歌旗下自動駕駛公司W(wǎng)aymo推出了一個基于端到端的自動駕駛多模態(tài)模型EMMA。有行業(yè)人士表示，這就是一個VLA模型架構(gòu)，既有端到端智駕能力，還融合了多模態(tài)大模型。

過去，智能駕駛行業(yè)基于規(guī)則算法，進行了十數(shù)年探索。近兩年，特斯拉引領(lǐng)的“端到端”智能駕駛，成為新的技術(shù)方向，不僅讓智駕具備更擬人的表現(xiàn)，也能應(yīng)對城市中海量的復(fù)雜交通場景。

配合“端到端”技術(shù)，行業(yè)玩家還會增加大語言模型等來提升智駕能力上限。端到端+VLM（視覺語言模型），就被理想等公司推崇。

但不同于VLM相對獨立、低頻地為端到端提供駕駛建議的模式，VLA架構(gòu)下，端到端與多模態(tài)大模型的結(jié)合會更徹底。就連理想人士也向36氪汽車坦承，“可以把VLA看成是端到端+VLM的合體�！�

VLA模型，很可能是“端到端+VLM”技術(shù)框架的“終結(jié)者”。

有行業(yè)人士表示，VLA模型對智駕的演進意義重大，讓端到端理解世界的能力更強后，“長遠來看，在L2輔助駕駛到L4自動駕駛的飛躍中，VLA可能會成為關(guān)鍵跳板”。

一些車企智駕玩家已經(jīng)在暗自發(fā)力。此前，理想汽車曾在三季度財報電話會議上表示，內(nèi)部已經(jīng)啟動了L4級別自動駕駛的預(yù)研，在當前的技術(shù)路線基礎(chǔ)上，研發(fā)能力更強的車端VLA模型與云端世界模型相結(jié)合的強化學(xué)習(xí)體系。

智駕公司元戎啟行在獲得長城汽車的7億元注資之后，也表示將進一步布局VLA模型。元戎啟行稱，公司將基于英偉達最新智駕芯片Thor進行VLA模型研發(fā)，模型預(yù)計于2025年推出。

但也存有共識，VLA模型的上車難度不小，對技術(shù)和車端的芯片算力都有高強度要求，“能夠支持VLA模型上車交付的芯片，可能在2026年才會出現(xiàn)�！�

端到端最新方向：融入多模態(tài)大模型

自2023年以來智駕行業(yè)掀起的BEV、端到端技術(shù)浪潮后，智駕正逐步將AI神經(jīng)網(wǎng)絡(luò)融入感知、規(guī)劃、控制等環(huán)節(jié)。比起傳統(tǒng)基于規(guī)則的方案，基于AI、數(shù)據(jù)驅(qū)動的“端到端”擁有更高能力天花板。

詳解“端到端”下一代模型VLA，通向自動駕駛的關(guān)鍵跳板

圖源：元戎啟行

但在“端到端”模型之外，車企們還輔以了大語言模、視覺語言模型等外掛，來提供更強大的環(huán)境理解能力。年中，理想就推出了端到端模型+VLM（視覺語言模型）的方案。VLM模型對復(fù)雜交通環(huán)境具有更強的理解能力，可以給端到端提供相關(guān)駕駛建議。

不過據(jù)36氪汽車了解，理想的端到端模型+VLM模型，是相對獨立的兩個模型�！袄硐隫LM占用了一顆Ori芯片算力，目前主要對限速提醒等場景做出駕駛建議�！�

而VLA模型，是將端到端、VLM兩個模型合二為一。也就是說，多模態(tài)大模型不再作為端到端的外掛，而是成為端到端自生的一種能力。

谷歌Waymo近期發(fā)表的論文中，端到端自動駕駛多模態(tài)模型，不僅將攝像頭的視頻和圖像作為感知輸入，同時還能以谷歌地圖“請在前方第二個匝道右轉(zhuǎn)出匝道”這種指令作為輸入，以及結(jié)合車輛歷史狀態(tài)，輸出車輛未來軌跡。

有行業(yè)人士向36氪汽車表示，目前對于一些特殊的復(fù)雜場景，智駕仍然缺少學(xué)習(xí)數(shù)據(jù)樣本。如果融入模態(tài)大模型，就能將大模型學(xué)習(xí)到的知識遷移給智駕系統(tǒng)，可以有效應(yīng)對corner case（長尾場景）。

智駕公司元戎啟行CEO周光也認為，VLA模型是端到端的2.0版本。他表示，遇到一些復(fù)雜的交通規(guī)則、潮汐車道、長時序推理等特殊場景時，智駕會比過往理解、應(yīng)對得更好。

比如在推理時長上，傳統(tǒng)rule-base（基于規(guī)則）方案下，智駕只能推理1秒鐘路況信息然后做出決策控制；端到端1.0階段系統(tǒng)能夠推理出未來7秒路況，而VLA能對幾十秒路況進行推理。

“目前基本上大家沿著這條線已經(jīng)預(yù)研1年多了，不過明年想要量產(chǎn)還是有很大難度�！庇行袠I(yè)人士表示。

端到端變奏，后發(fā)者的機會更少了

在進入規(guī)模推廣之前，下一代端到端方案還面臨很現(xiàn)實的挑戰(zhàn)。

一方面，現(xiàn)階段車端芯片硬件不足以支撐多模態(tài)大模型的部署落地。有行業(yè)人士向36氪汽車表示，將端到端與VLM模型二合一后，車端模型參數(shù)變得更大，既要有高效實時推理能力，同時還要有大模型認識復(fù)雜世界并給出建議的能力，對車端芯片硬件有相當高要求。

當下，高階智駕的算力硬件基本為2顆英偉達OrinX芯片，算力在508Tops。有行業(yè)人士表示，現(xiàn)在車端的算力很難支撐VLA模型的部署。

而英偉達的最新一代車載AI芯片Thor有望改變這種局面，Thor的單片AI算力達1000Tops，并對AI、大模型等算力都有不錯支持。

不過跟英偉達接觸的人士向36氪汽車表示，明年英偉達Thor芯片大概會延期發(fā)布，上半年最先有望先推出的是700Tops算力版本。但一顆700Tops算力的芯片也可能支撐不了VLA模型，兩片Thor的成本又高出不少。

英偉達的芯片量產(chǎn)時間與成本挑戰(zhàn)，橫亙在車企前面。為此，一些自研芯片的新勢力也在緊追芯片進度。據(jù)36氪汽車了解，一家頭部新勢力的VLA模型預(yù)計2026年正式上車。“屆時結(jié)合自研的大算力芯片，VLA的效果會更驚艷�！鄙鲜鲂袠I(yè)人士表示。

好在，VLA模型架構(gòu)下，數(shù)據(jù)方面的挑戰(zhàn)沒有驟然提升。

有行業(yè)人士告訴36氪，在端到端基礎(chǔ)上，VLA模型融入了視覺語言模型、動作模型。但多模態(tài)大模型的數(shù)據(jù)并不難獲得，包括已經(jīng)開源的大模型、互聯(lián)網(wǎng)上已有的通用語言，都可能成為智駕多模態(tài)大模型的養(yǎng)料。

更具挑戰(zhàn)的是，如何將端到端與多模態(tài)大模型的數(shù)據(jù)與信息作深度交融。這考驗著頭部智駕團隊的模型框架定義能力、模型快速迭代能力。

這些都決定了VLA模型不會太快進入智駕的量產(chǎn)環(huán)節(jié)。

然而，技術(shù)路線的驟然升級與競賽變奏，為還沒發(fā)力端到端的玩家設(shè)置了更高門檻，后發(fā)制人的機會更加稀少。

相關(guān)熱詞： 自動駕駛智能駕駛 vla 汽車黑科技端到端模型李勤

詳解“端到端”下一代模型VLA，通向自動駕駛的關(guān)鍵跳板
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-09 12:55:46 瀏覽：0次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

詳解“端到端”下一代模型VLA，通向自動駕駛的關(guān)鍵跳板 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-11-09 12:55:46 瀏覽：0次