自動(dòng)駕駛的發(fā)展不僅僅是一個(gè)技術(shù)命題,同樣也是一個(gè)商業(yè)命題。從技術(shù)競(jìng)爭(zhēng)為主導(dǎo)的上半場(chǎng),到以商業(yè)化落地為主導(dǎo)的下半場(chǎng),自動(dòng)駕駛技術(shù)的發(fā)展和應(yīng)用需要緊密結(jié)合市場(chǎng)需求,企業(yè)需要探索可行的商業(yè)模式,以實(shí)現(xiàn)技術(shù)的規(guī);彤a(chǎn)業(yè)化落地。
“實(shí)現(xiàn)完全自動(dòng)駕駛之路如同一場(chǎng)馬拉松長(zhǎng)跑”,Mobileye創(chuàng)始人、總裁兼首席執(zhí)行官Amnon Shashua教授在日前公司Driving AI Day活動(dòng)的演講中提到,“這不僅考驗(yàn)著企業(yè)的技術(shù)創(chuàng)新和產(chǎn)品開(kāi)發(fā)能力,還考驗(yàn)著企業(yè)的持續(xù)經(jīng)營(yíng)和盈利能力!
他提到,在Mobileye過(guò)去多年的支出中,每年僅用于研發(fā)自動(dòng)駕駛的投入就高達(dá)6億美元左右。在這場(chǎng)長(zhǎng)跑中,企業(yè)不能僅僅依賴外部資金的注入,更重要的是要找到合適的盈利模式,以保障業(yè)務(wù)的長(zhǎng)期可持續(xù)發(fā)展。
Mobileye創(chuàng)始人、總裁兼首席執(zhí)行官Amnon Shashua教授和首席技術(shù)官Shai Shalev-Shwartz教授
而對(duì)于Mobileye要如何實(shí)現(xiàn)完全自動(dòng)駕駛的規(guī);瘧(zhàn)略,Amnon教授也給出了清晰的回答復(fù)合人工智能系統(tǒng)(CAIS)。
什么是復(fù)合人工智能系統(tǒng)?
復(fù)合人工智能系統(tǒng)(Compound AI Systems)最早是2024年初加州大學(xué)伯克利分校的AI研究實(shí)驗(yàn)室網(wǎng)站上的一篇題為《從模型到復(fù)合人工智能系統(tǒng)的轉(zhuǎn)變》的博客文章中提出的。文章指出,最先進(jìn)的人工智能成果越來(lái)越多地產(chǎn)出于復(fù)雜的多組件復(fù)合系統(tǒng),而非單一大模型。 與傳統(tǒng)的僅依賴單一人工智能模型的系統(tǒng)不同,復(fù)合人工智能系統(tǒng)強(qiáng)調(diào)多種工具和模塊的集成和共同協(xié)作,以高效處理人工智能任務(wù)。 這種集成方法提供了靈活性和適應(yīng)性,允許系統(tǒng)根據(jù)不同的輸入和任務(wù)進(jìn)行調(diào)整。此外,復(fù)合系統(tǒng)通過(guò)不同組件實(shí)現(xiàn)冗余,確保系統(tǒng)的穩(wěn)定性。復(fù)合人工智能系統(tǒng)也更加可解釋和透明,因?yàn)榭梢宰粉櫭總(gè)組件對(duì)最終輸出的貢獻(xiàn)。 Mobileye以攝像頭為中心的復(fù)合人工智能系統(tǒng)
所謂“以攝像頭為中心”,不同于“僅依賴攝像頭”,意味著同時(shí)對(duì)更多類型傳感器的采用也持開(kāi)放態(tài)度。例如,Mobileye內(nèi)部在開(kāi)發(fā)成像雷達(dá),還在“可脫眼”系統(tǒng)中集成了一個(gè)前向激光雷達(dá)。攝像頭和雷達(dá)的成本都相對(duì)較低,“可脫眼”系統(tǒng)配置的一個(gè)前向激光雷達(dá)的成本也很低,只需幾百美元。 所謂“復(fù)合”,是指一方面Mobileye積極采用前沿的AI技術(shù),例如深度學(xué)習(xí)、端到端,同時(shí)也發(fā)揮自己在視覺(jué)算法方面的傳統(tǒng)優(yōu)勢(shì),充分利用各種技術(shù)的優(yōu)勢(shì),達(dá)到安全性和效率的最大化。 Amnon Shashua教授從四大維度深入審視了包括Mobileye自身“以攝像頭為中心的復(fù)合人工智能系統(tǒng)”在內(nèi)的當(dāng)前主流智駕方案技術(shù)路線,這些也是Mobileye為實(shí)現(xiàn)自動(dòng)駕駛下半場(chǎng)商業(yè)落地可行性的重要考量維度。 ●維度一:成本。在智駕的競(jìng)爭(zhēng)中,成本是關(guān)鍵要素。高昂的研發(fā)和生產(chǎn)成本會(huì)直接影響到自動(dòng)駕駛技術(shù)的普及速度和范圍。成本是將Mobileye的技術(shù)路線與以激光雷達(dá)為中心的,配置大量昂貴傳感設(shè)備的技術(shù)方案在未來(lái)商業(yè)落地可行性層面拉開(kāi)差距的主要因素。 ●維度二:模塊化。Mobileye的復(fù)合人工智能系統(tǒng)在模塊化設(shè)計(jì)方面表現(xiàn)出色,這與Mobileye的經(jīng)營(yíng)理念緊密相連 公司的產(chǎn)品組合涵蓋了從輔助駕駛到無(wú)人駕駛出租車(Robotaxi)的各個(gè)類別。而模塊化意味著可以提取系統(tǒng)中的某些模塊,并基于此打造成本更低的智駕或輔助駕駛系統(tǒng),或者增加額外的冗余傳感器,以較小的投資實(shí)現(xiàn)向更高級(jí)別自動(dòng)化的逐步過(guò)渡。通過(guò)模塊化,將能夠更好地適應(yīng)未來(lái)技術(shù)更新和市場(chǎng)需求的變化。 ●維度三:地域可擴(kuò)展性。地域可擴(kuò)展性是指方案擴(kuò)展到其它地域的難易程度。這一點(diǎn)對(duì)于全球化或致力于拓展全球化布局的汽車制造商尤為重要。 ●維度四:平均故障間隔時(shí)間(MTBF)。MTBF即平均行駛多久需要進(jìn)行一次關(guān)鍵性的干預(yù),是衡量系統(tǒng)可靠性的重要指標(biāo)。相較于基于概率做出推斷式?jīng)Q策、不具有可解釋性的端到端技術(shù)路線,Mobileye通過(guò)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)計(jì)算,能夠得出復(fù)合人工智能系統(tǒng)的誤差水平,為實(shí)現(xiàn)可脫眼系統(tǒng)所需的MTBF(Mean time between failures,平均無(wú)故障工作時(shí)間)開(kāi)辟一條更為現(xiàn)實(shí)且可靠的路徑。 端到端熱話題也需冷思考
在Mobileye的復(fù)合人工智能系統(tǒng)中,端到端是重要的組成部分之一。 Mobileye很早就看到了端到端的潛力,在其大規(guī)模流行之前,就開(kāi)始研究其在智駕領(lǐng)域的應(yīng)用,也有積極采用端到端。早在2016年,Mobileye創(chuàng)始人、總裁兼首席執(zhí)行官Amnon Shashua教授和Mobileye首席技術(shù)官Shai Shalev-Shwartz教授就發(fā)表了一篇闡釋端到端系統(tǒng)的論文。 但Mobileye認(rèn)為,端到端應(yīng)作為智駕子系統(tǒng)之一提供冗余,而僅依靠端到端則會(huì)出現(xiàn)問(wèn)題。
端到端方案的兩個(gè)前提及對(duì)應(yīng)的現(xiàn)實(shí)情況 ●先來(lái)看端到端的兩個(gè)前提: ◎第一個(gè)前提:系統(tǒng)內(nèi)部不存在任何粘合代碼,而是由一個(gè)“黑箱”操作的神經(jīng)網(wǎng)絡(luò)構(gòu)成。該神經(jīng)網(wǎng)絡(luò)的輸入端接收來(lái)自攝像頭的傳感信息,輸出端則提供汽車的行駛方向和軌跡,最終輸出的是行動(dòng)決策。系統(tǒng)本身僅作為一個(gè)數(shù)據(jù)通道。隨著越來(lái)越多的數(shù)據(jù)被添加,神經(jīng)網(wǎng)絡(luò)通過(guò)觀察人類駕駛員的行為來(lái)學(xué)習(xí)駕駛技巧。同時(shí),有數(shù)以百萬(wàn)計(jì)的汽車在不斷地發(fā)送行駛數(shù)據(jù)。由于不存在粘合代碼,隨著時(shí)間的推移和數(shù)據(jù)量的增加,系統(tǒng)可以使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練,最終達(dá)到一個(gè)奇點(diǎn)水平,即達(dá)到或超越人類駕駛員的能力。◎但現(xiàn)實(shí)是:盡管號(hào)稱無(wú)粘合代碼,實(shí)際上粘合代碼是確實(shí)存在的,只是以離線方式存在于系統(tǒng)中。在機(jī)器學(xué)習(xí)領(lǐng)域,尤其是在使用Transformer架構(gòu)時(shí),系統(tǒng)的任務(wù)是估算概率,即基于輸入數(shù)據(jù)預(yù)測(cè)行駛軌跡的可能性。這種預(yù)測(cè)更多地關(guān)注可能性的大小,而非預(yù)測(cè)結(jié)果的正確性。因此,神經(jīng)網(wǎng)絡(luò)并不真正了解如何區(qū)分“罕見(jiàn)但正確”與“常見(jiàn)但錯(cuò)誤”之間的區(qū)別。只根據(jù)統(tǒng)計(jì),系統(tǒng)會(huì)更偏向于選擇“常見(jiàn)但錯(cuò)誤”的行為。 因?yàn)槎说蕉讼到y(tǒng)只是估算概率,所以這種情況本質(zhì)上就無(wú)法避免。而我們當(dāng)然不希望自動(dòng)駕駛汽車做出違反交規(guī)的行為。 為了解決這一問(wèn)題,需要在語(yǔ)言模型中引入基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)。對(duì)于端到端系統(tǒng),就是在離線環(huán)境中,通過(guò)篩查和過(guò)濾機(jī)制,識(shí)別并剔除不良的人類駕駛行為,例如粗暴駕駛、魯莽駕駛等。這一過(guò)程需要大量的工程技術(shù)和粘合代碼的支持,但這些工作都在離線環(huán)境中完成,而不是在線實(shí)時(shí)進(jìn)行。 因此,粘合代碼并沒(méi)有消失,而是從在線轉(zhuǎn)移到了離線環(huán)境。這就是所謂的“自動(dòng)駕駛對(duì)齊”問(wèn)題,即需要區(qū)分哪些行為是正確的,哪些是錯(cuò)誤的。 ◎第二個(gè)前提:訓(xùn)練數(shù)據(jù)均為無(wú)監(jiān)督數(shù)據(jù),這意味著僅包含原始圖像,沒(méi)有人對(duì)圖像中的數(shù)據(jù)進(jìn)行過(guò)標(biāo)注。因此,系統(tǒng)必須能夠僅依賴無(wú)監(jiān)督數(shù)據(jù)來(lái)實(shí)現(xiàn)足夠的平均故障間隔時(shí)間。 ◎但現(xiàn)實(shí)是,僅靠無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,端到端方案的準(zhǔn)確率能從0很快地推進(jìn)到95%,但其所需的巨大成本、數(shù)據(jù)量和工程量也不容忽視。以現(xiàn)在的大語(yǔ)言模型和transformer為例,在從095%的階段,能夠?qū)崿F(xiàn)相當(dāng)大的飛躍,但無(wú)法達(dá)到100%準(zhǔn)確,有時(shí)候會(huì)犯一些匪夷所思的錯(cuò)誤。 對(duì)于事關(guān)安全的智駕,試錯(cuò)空間極小,95%的安全性是遠(yuǎn)遠(yuǎn)不夠的。而僅依賴端到端,要想達(dá)到99.999999%的安全性是相當(dāng)難的。 僅靠未經(jīng)標(biāo)注的無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練,會(huì)帶來(lái)諸多問(wèn)題,例如: ●計(jì)算器問(wèn)題:系統(tǒng)無(wú)法學(xué)會(huì)“長(zhǎng)乘法”,因?yàn)橄到y(tǒng)所看到的只是許多數(shù)對(duì)相乘的示例,從這些示例中不足以抽象出長(zhǎng)乘法的概念。因此在大語(yǔ)言模型中,不使用模型本身來(lái)輸出結(jié)果,而是通過(guò)將問(wèn)題轉(zhuǎn)化為Python代碼,由Python代碼直接調(diào)用計(jì)算器,才能解決這一問(wèn)題!坝(jì)算器”的角色,就是智駕系統(tǒng)為端到端注入的“抽象概念”的角色,即將具體的事物或行為抽象化,形成一般性的原則或規(guī)則。 ●捷徑學(xué)習(xí)問(wèn)題:“端到端方法”就是將所有傳感器的數(shù)據(jù)輸入到一個(gè)大型神經(jīng)網(wǎng)絡(luò),然后對(duì)其進(jìn)行訓(xùn)練。而輸入的信息中,因?yàn)橛行┬畔⒌臉颖緩?fù)雜度低,意味著你需要少量的數(shù)據(jù)便可以學(xué)習(xí)到模式,而有的則相反。例如,激光雷達(dá)就是一種低樣本復(fù)雜度的信息源,它是精確的三維傳感器,因此要進(jìn)行泛化,所需的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)少于攝像頭。而攝像頭則是高樣本復(fù)雜度的信息源。 當(dāng)輸入來(lái)自不同的模態(tài)時(shí),樣本復(fù)雜度不同。而端到端隨機(jī)梯度下降很難充分利用所有模態(tài)的優(yōu)勢(shì),誤差達(dá)到一定程度后就很難再下降。 嚴(yán)格意義上倒也不是說(shuō)做不到,但所需要的時(shí)間之長(zhǎng),完全不切實(shí)際。這就是“捷徑學(xué)習(xí)問(wèn)題”。 ●長(zhǎng)尾問(wèn)題:對(duì)于長(zhǎng)尾問(wèn)題有兩種假設(shè),在樂(lè)觀的情況下,有些事件的概率相對(duì)較大,而有些則非常小,覆蓋一些邊緣事件就可以大幅度地減少總體概率質(zhì)量(probability mass)。這意味著少數(shù)關(guān)鍵的邊緣事件可以顯著提升系統(tǒng)性能,進(jìn)而實(shí)現(xiàn)更高的平均故障間隔時(shí)間;在悲觀的情況下,所有罕見(jiàn)的長(zhǎng)尾問(wèn)題其實(shí)概率都一樣非常小,每個(gè)邊緣事件對(duì)概率質(zhì)量的影響非常小。這意味著即使處理了很多邊緣事件,系統(tǒng)的故障率仍然不會(huì)有顯著改善。覆蓋所有這些邊緣情況需要很長(zhǎng)一段時(shí)間,長(zhǎng)到不切實(shí)際。 總體而言,端到端學(xué)習(xí)模型的優(yōu)勢(shì)是顯著的。然而,如果僅依賴無(wú)監(jiān)督數(shù)據(jù),不引入抽象概念,不考慮長(zhǎng)尾問(wèn)題,而只是單純地向系統(tǒng)提供更多數(shù)據(jù),那么是否能夠?qū)崿F(xiàn)平均故障間隔時(shí)間的目標(biāo)確實(shí)是一個(gè)值得探討的問(wèn)題。