智駕網(wǎng) 2024-12-03 15:57

Mobileye復(fù)合人工智能系統(tǒng)（CAIS）—— 規(guī)?；瘜?shí)現(xiàn)全自動(dòng)駕駛的正解

在Mobileye過(guò)去多年的支出中，每年僅用于研發(fā)自動(dòng)駕駛的投入就高達(dá)6億美元左右。在這場(chǎng)長(zhǎng)跑中，企業(yè)不能僅僅依賴外部資金的注入，更重要的是要找到合適的盈利模式，以保障業(yè)務(wù)的長(zhǎng)期可持續(xù)發(fā)展。

自動(dòng)駕駛的發(fā)展不僅僅是一個(gè)技術(shù)命題，同樣也是一個(gè)商業(yè)命題。從技術(shù)競(jìng)爭(zhēng)為主導(dǎo)的上半場(chǎng)，到以商業(yè)化落地為主導(dǎo)的下半場(chǎng)，自動(dòng)駕駛技術(shù)的發(fā)展和應(yīng)用需要緊密結(jié)合市場(chǎng)需求，企業(yè)需要探索可行的商業(yè)模式，以實(shí)現(xiàn)技術(shù)的規(guī)?；彤a(chǎn)業(yè)化落地。

“實(shí)現(xiàn)完全自動(dòng)駕駛之路如同一場(chǎng)馬拉松長(zhǎng)跑”，Mobileye創(chuàng)始人、總裁兼首席執(zhí)行官Amnon Shashua教授在日前公司Driving AI Day活動(dòng)的演講中提到，“這不僅考驗(yàn)著企業(yè)的技術(shù)創(chuàng)新和產(chǎn)品開(kāi)發(fā)能力，還考驗(yàn)著企業(yè)的持續(xù)經(jīng)營(yíng)和盈利能力?！彼岬剑贛obileye過(guò)去多年的支出中，每年僅用于研發(fā)自動(dòng)駕駛的投入就高達(dá)6億美元左右。在這場(chǎng)長(zhǎng)跑中，企業(yè)不能僅僅依賴外部資金的注入，更重要的是要找到合適的盈利模式，以保障業(yè)務(wù)的長(zhǎng)期可持續(xù)發(fā)展。

而對(duì)于Mobileye要如何實(shí)現(xiàn)完全自動(dòng)駕駛的規(guī)模化戰(zhàn)略，Amnon教授也給出了清晰的回答——復(fù)合人工智能系統(tǒng)（CAIS）。

什么是復(fù)合人工智能系統(tǒng)？

復(fù)合人工智能系統(tǒng)（Compound AI Systems）最早是2024年初加州大學(xué)伯克利分校的AI研究實(shí)驗(yàn)室網(wǎng)站上的一篇題為《從模型到復(fù)合人工智能系統(tǒng)的轉(zhuǎn)變》的博客文章中提出的。文章指出，最先進(jìn)的人工智能成果越來(lái)越多地產(chǎn)出于復(fù)雜的多組件復(fù)合系統(tǒng)，而非單一大模型。

與傳統(tǒng)的僅依賴單一人工智能模型的系統(tǒng)不同，復(fù)合人工智能系統(tǒng)強(qiáng)調(diào)多種工具和模塊的集成和共同協(xié)作，以高效處理人工智能任務(wù)。

這種集成方法提供了靈活性和適應(yīng)性，允許系統(tǒng)根據(jù)不同的輸入和任務(wù)進(jìn)行調(diào)整。此外，復(fù)合系統(tǒng)通過(guò)不同組件實(shí)現(xiàn)冗余，確保系統(tǒng)的穩(wěn)定性。復(fù)合人工智能系統(tǒng)也更加可解釋和透明，因?yàn)榭梢宰粉櫭總€(gè)組件對(duì)最終輸出的貢獻(xiàn)。

Mobileye以攝像頭為中心的復(fù)合人工智能系統(tǒng)

所謂“以攝像頭為中心”，不同于“僅依賴攝像頭”，意味著同時(shí)對(duì)更多類(lèi)型傳感器的采用也持開(kāi)放態(tài)度。例如，Mobileye內(nèi)部在開(kāi)發(fā)成像雷達(dá)，還在“可脫眼”系統(tǒng)中集成了一個(gè)前向激光雷達(dá)。攝像頭和雷達(dá)的成本都相對(duì)較低，“可脫眼”系統(tǒng)配置的一個(gè)前向激光雷達(dá)的成本也很低，只需幾百美元。

所謂“復(fù)合”，是指一方面Mobileye積極采用前沿的AI技術(shù)，例如深度學(xué)習(xí)、端到端，同時(shí)也發(fā)揮自己在視覺(jué)算法方面的傳統(tǒng)優(yōu)勢(shì)，充分利用各種技術(shù)的優(yōu)勢(shì)，達(dá)到安全性和效率的最大化。

Amnon Shashua教授從四大維度深入審視了包括Mobileye自身“以攝像頭為中心的復(fù)合人工智能系統(tǒng)”在內(nèi)的當(dāng)前主流智駕方案技術(shù)路線，這些也是Mobileye為實(shí)現(xiàn)自動(dòng)駕駛下半場(chǎng)商業(yè)落地可行性的重要考量維度。

?維度一：成本。在智駕的競(jìng)爭(zhēng)中，成本是關(guān)鍵要素。高昂的研發(fā)和生產(chǎn)成本會(huì)直接影響到自動(dòng)駕駛技術(shù)的普及速度和范圍。成本是將Mobileye的技術(shù)路線與以激光雷達(dá)為中心的，配置大量昂貴傳感設(shè)備的技術(shù)方案在未來(lái)商業(yè)落地可行性層面拉開(kāi)差距的主要因素。

?維度二：模塊化。Mobileye的復(fù)合人工智能系統(tǒng)在模塊化設(shè)計(jì)方面表現(xiàn)出色，這與Mobileye的經(jīng)營(yíng)理念緊密相連 —— 公司的產(chǎn)品組合涵蓋了從輔助駕駛到無(wú)人駕駛出租車(chē)（Robotaxi）的各個(gè)類(lèi)別，而模塊化意味著可以提取系統(tǒng)中的某些模塊，并基于此打造成本更低的智駕或輔助駕駛系統(tǒng)，或者增加額外的冗余傳感器，以較小的投資實(shí)現(xiàn)向更高級(jí)別自動(dòng)化的逐步過(guò)渡。通過(guò)模塊化，將能夠更好地適應(yīng)未來(lái)技術(shù)更新和市場(chǎng)需求的變化。

?維度三：地域可擴(kuò)展性。地域可擴(kuò)展性是指方案擴(kuò)展到其它地域的難易程度。這一點(diǎn)對(duì)于全球化或致力于拓展全球化布局的汽車(chē)制造商尤為重要。

?維度四：平均故障間隔時(shí)間（MTBF）。MTBF即平均行駛多久需要進(jìn)行一次關(guān)鍵性的干預(yù)，是衡量系統(tǒng)可靠性的重要指標(biāo)。相較于基于概率做出推斷式?jīng)Q策、不具有可解釋性的端到端技術(shù)路線，Mobileye通過(guò)嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)計(jì)算，能夠得出復(fù)合人工智能系統(tǒng)的誤差水平，為實(shí)現(xiàn)可脫眼系統(tǒng)所需的MTBF（Mean time between failures，平均無(wú)故障工作時(shí)間）開(kāi)辟一條更為現(xiàn)實(shí)且可靠的路徑。

端到端——熱話題也需冷思考

在Mobileye的復(fù)合人工智能系統(tǒng)中，端到端是重要的組成部分之一。

Mobileye很早就看到了端到端的潛力，在其大規(guī)模流行之前，就開(kāi)始研究其在智駕領(lǐng)域的應(yīng)用，也有積極采用端到端。早在2016年，Mobileye創(chuàng)始人、總裁兼首席執(zhí)行官Amnon Shashua教授和Mobileye首席技術(shù)官Shai Shalev-Shwartz教授就發(fā)表了一篇闡釋端到端系統(tǒng)的論文。

但Mobileye認(rèn)為，端到端應(yīng)作為智駕子系統(tǒng)之一提供冗余，而僅依靠端到端則會(huì)出現(xiàn)問(wèn)題。

▲端到端方案的兩個(gè)前提及對(duì)應(yīng)的現(xiàn)實(shí)情況

先來(lái)看端到端的兩個(gè)前提：

第一個(gè)前提：系統(tǒng)內(nèi)部不存在任何粘合代碼，而是由一個(gè)“黑箱”操作的神經(jīng)網(wǎng)絡(luò)構(gòu)成。該神經(jīng)網(wǎng)絡(luò)的輸入端接收來(lái)自攝像頭的傳感信息，輸出端則提供汽車(chē)的行駛方向和軌跡，最終輸出的是行動(dòng)決策。系統(tǒng)本身僅作為一個(gè)數(shù)據(jù)通道。隨著越來(lái)越多的數(shù)據(jù)被添加，神經(jīng)網(wǎng)絡(luò)通過(guò)觀察人類(lèi)駕駛員的行為來(lái)學(xué)習(xí)駕駛技巧。同時(shí)，有數(shù)以百萬(wàn)計(jì)的汽車(chē)在不斷地發(fā)送行駛數(shù)據(jù)。由于不存在粘合代碼，隨著時(shí)間的推移和數(shù)據(jù)量的增加，系統(tǒng)可以使用更多的數(shù)據(jù)進(jìn)行訓(xùn)練，最終達(dá)到一個(gè)奇點(diǎn)水平，即達(dá)到或超越人類(lèi)駕駛員的能力。

但現(xiàn)實(shí)是：盡管號(hào)稱(chēng)無(wú)粘合代碼，實(shí)際上粘合代碼是確實(shí)存在的，只是以離線方式存在于系統(tǒng)中。在機(jī)器學(xué)習(xí)領(lǐng)域，尤其是在使用Transformer架構(gòu)時(shí)，系統(tǒng)的任務(wù)是估算概率，即基于輸入數(shù)據(jù)預(yù)測(cè)行駛軌跡的可能性。這種預(yù)測(cè)更多地關(guān)注可能性的大小，而非預(yù)測(cè)結(jié)果的正確性。因此，神經(jīng)網(wǎng)絡(luò)并不真正了解如何區(qū)分“罕見(jiàn)但正確”與“常見(jiàn)但錯(cuò)誤”之間的區(qū)別。只根據(jù)統(tǒng)計(jì)，系統(tǒng)會(huì)更偏向于選擇“常見(jiàn)但錯(cuò)誤”的行為。

因?yàn)槎说蕉讼到y(tǒng)只是估算概率，所以這種情況本質(zhì)上就無(wú)法避免。而我們當(dāng)然不希望自動(dòng)駕駛汽車(chē)做出違反交規(guī)的行為。

為了解決這一問(wèn)題，需要在語(yǔ)言模型中引入基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)（RLHF）。對(duì)于端到端系統(tǒng)，就是在離線環(huán)境中，通過(guò)篩查和過(guò)濾機(jī)制，識(shí)別并剔除不良的人類(lèi)駕駛行為，例如粗暴駕駛、魯莽駕駛等。這一過(guò)程需要大量的工程技術(shù)和粘合代碼的支持，但這些工作都在離線環(huán)境中完成，而不是在線實(shí)時(shí)進(jìn)行。

因此，粘合代碼并沒(méi)有消失，而是從在線轉(zhuǎn)移到了離線環(huán)境。這就是所謂的“自動(dòng)駕駛對(duì)齊”問(wèn)題，即需要區(qū)分哪些行為是正確的，哪些是錯(cuò)誤的。

第二個(gè)前提：訓(xùn)練數(shù)據(jù)均為無(wú)監(jiān)督數(shù)據(jù)，這意味著僅包含原始圖像，沒(méi)有人對(duì)圖像中的數(shù)據(jù)進(jìn)行過(guò)標(biāo)注。因此，系統(tǒng)必須能夠僅依賴無(wú)監(jiān)督數(shù)據(jù)來(lái)實(shí)現(xiàn)足夠的平均故障間隔時(shí)間。

但現(xiàn)實(shí)是，僅靠無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練，端到端方案的準(zhǔn)確率能從0很快地推進(jìn)到95%，但其所需的巨大成本、數(shù)據(jù)量和工程量也不容忽視。以現(xiàn)在的大語(yǔ)言模型和transformer為例，在從0—95%的階段，能夠?qū)崿F(xiàn)相當(dāng)大的飛躍，但無(wú)法達(dá)到100%準(zhǔn)確，有時(shí)候會(huì)犯一些匪夷所思的錯(cuò)誤。

對(duì)于事關(guān)安全的智駕，試錯(cuò)空間極小，95%的安全性是遠(yuǎn)遠(yuǎn)不夠的。而僅依賴端到端，要想達(dá)到99.999999%的安全性是相當(dāng)難的。

僅靠未經(jīng)標(biāo)注的無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練，會(huì)帶來(lái)諸多問(wèn)題，例如：

計(jì)算器問(wèn)題：系統(tǒng)無(wú)法學(xué)會(huì)“長(zhǎng)乘法”，因?yàn)橄到y(tǒng)所看到的只是許多數(shù)對(duì)相乘的示例，從這些示例中不足以抽象出長(zhǎng)乘法的概念。因此在大語(yǔ)言模型中，不使用模型本身來(lái)輸出結(jié)果，而是通過(guò)將問(wèn)題轉(zhuǎn)化為Python代碼，由Python代碼直接調(diào)用計(jì)算器，才能解決這一問(wèn)題。“計(jì)算器”的角色，就是智駕系統(tǒng)為端到端注入的“抽象概念”的角色，即將具體的事物或行為抽象化，形成一般性的原則或規(guī)則。

捷徑學(xué)習(xí)問(wèn)題：“端到端方法”就是將所有傳感器的數(shù)據(jù)輸入到一個(gè)大型神經(jīng)網(wǎng)絡(luò)，然后對(duì)其進(jìn)行訓(xùn)練。而輸入的信息中，因?yàn)橛行┬畔⒌臉颖緩?fù)雜度低，意味著你需要少量的數(shù)據(jù)便可以學(xué)習(xí)到模式，而有的則相反。例如，激光雷達(dá)就是一種低樣本復(fù)雜度的信息源，它是精確的三維傳感器，因此要進(jìn)行泛化，所需的數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)少于攝像頭。而攝像頭則是高樣本復(fù)雜度的信息源。

當(dāng)輸入來(lái)自不同的模態(tài)時(shí)，樣本復(fù)雜度不同。而端到端隨機(jī)梯度下降很難充分利用所有模態(tài)的優(yōu)勢(shì)，誤差達(dá)到一定程度后就很難再下降。

嚴(yán)格意義上倒也不是說(shuō)做不到，但所需要的時(shí)間之長(zhǎng)，完全不切實(shí)際。這就是“捷徑學(xué)習(xí)問(wèn)題”。

長(zhǎng)尾問(wèn)題：對(duì)于長(zhǎng)尾問(wèn)題有兩種假設(shè)，在樂(lè)觀的情況下，有些事件的概率相對(duì)較大，而有些則非常小，覆蓋一些邊緣事件就可以大幅度地減少總體概率質(zhì)量（probability mass）。這意味著少數(shù)關(guān)鍵的邊緣事件可以顯著提升系統(tǒng)性能，進(jìn)而實(shí)現(xiàn)更高的平均故障間隔時(shí)間；在悲觀的情況下，所有罕見(jiàn)的長(zhǎng)尾問(wèn)題其實(shí)概率都一樣非常小，每個(gè)邊緣事件對(duì)概率質(zhì)量的影響非常小。這意味著即使處理了很多邊緣事件，系統(tǒng)的故障率仍然不會(huì)有顯著改善。覆蓋所有這些邊緣情況需要很長(zhǎng)一段時(shí)間，長(zhǎng)到不切實(shí)際。

總體而言，端到端學(xué)習(xí)模型的優(yōu)勢(shì)是顯著的。然而，如果僅依賴無(wú)監(jiān)督數(shù)據(jù)，不引入抽象概念，不考慮長(zhǎng)尾問(wèn)題，而只是單純地向系統(tǒng)提供更多數(shù)據(jù)，那么是否能夠?qū)崿F(xiàn)平均故障間隔時(shí)間的目標(biāo)確實(shí)是一個(gè)值得探討的問(wèn)題。

Mobileye的復(fù)合人工智能系統(tǒng)如何破局并降低誤差

說(shuō)到將AI應(yīng)用于汽車(chē)行業(yè)，Mobileye在這方面一直都是先行者。Mobileye一直致力于將最新的AI技術(shù)整合到自身軟件堆棧中。

每項(xiàng)技術(shù)都各有所長(zhǎng)。Mobileye也積極采用包括端到端在內(nèi)的前沿技術(shù)，在下一代軟件中大量利用了端到端和Transformer，但不是拿來(lái)就用，而是會(huì)深入了解其優(yōu)劣勢(shì)，結(jié)合自身的經(jīng)典優(yōu)勢(shì)技術(shù)，取各自之所長(zhǎng)，重成本與效率，將最新的AI技術(shù)以安全和負(fù)責(zé)任的方式整合到產(chǎn)品中。

Mobileye的復(fù)合人工智能系統(tǒng)通過(guò)為端到端系統(tǒng)注入恰到好處的適量抽象概念，如RSS（責(zé)任敏感安全）模型，通過(guò)傳感器冗余、算法冗余，以及高階融合，能夠?qū)⒖傮w誤差降至最低。

“偏差-方差權(quán)衡”以及抽象概念

前文中提到了端到端系統(tǒng)依靠無(wú)監(jiān)督數(shù)據(jù)進(jìn)行訓(xùn)練，按照概率分布做出決策判斷，就好像我們只從身邊的人的言行中學(xué)習(xí)，基于經(jīng)驗(yàn)做出判斷，但是未必清楚核心的規(guī)則和原理。

而所謂“抽象概念”，就是規(guī)范了某些具體的概念、需要遵守的一般性原則或行為準(zhǔn)則，而不僅僅是表面的、具體的模式，讓決策有據(jù)可依，提高規(guī)范性和安全性。

對(duì)于自動(dòng)駕駛，RSS模型，即Mobileye用于為駕駛決策提供安全保障的引擎，就是一種抽象概念。還有感知狀態(tài)，即基于輸入圖像輸出車(chē)輛位置、行人、所有道路使用者、車(chē)道標(biāo)記、交通信號(hào)燈、交通標(biāo)志等等，這都是根據(jù)人類(lèi)的經(jīng)驗(yàn)來(lái)判斷哪些是重要信息，然后獲得相應(yīng)的輸出，這就是我們所說(shuō)的抽象概念。

但抽象概念的注入要適量。為便于理解，這里講一下“偏差-方差”的概念。

▲機(jī)器學(xué)習(xí)中的“偏差-方差”權(quán)衡

偏差，又稱(chēng)“近似誤差”，是指學(xué)習(xí)系統(tǒng)無(wú)法反映現(xiàn)實(shí)的全部?jī)?nèi)容。注入抽象概念的程度稱(chēng)為偏差（Bias）。如果注入的抽象概念過(guò)多，就會(huì)產(chǎn)生近似誤差，也就是說(shuō)，模型的豐富程度以及容量并不能反映現(xiàn)實(shí)的豐富程度，在這種情況下，模型被過(guò)于局限了。過(guò)多的抽象概念、過(guò)多的偏差可能會(huì)因?yàn)榻普`差而導(dǎo)致系統(tǒng)出錯(cuò)，因?yàn)檫@些都限制了系統(tǒng)的容量，神經(jīng)網(wǎng)絡(luò)的容量無(wú)法反映現(xiàn)實(shí)的豐富程度。

方差，也稱(chēng)“泛化誤差”，是指學(xué)習(xí)系統(tǒng)對(duì)觀察到的數(shù)據(jù)過(guò)度擬合，而無(wú)法泛化到從未見(jiàn)過(guò)的例子。如果不注入任何抽象概念，會(huì)產(chǎn)生很高的泛化誤差。隨著注入偏差的增加，也就是注入抽象概念增多時(shí)，泛化誤差會(huì)下降。但凡事過(guò)猶不及，如果注入過(guò)多的抽象概念，系統(tǒng)容量就不足以反映現(xiàn)實(shí)的豐富程度。

學(xué)習(xí)模型的總誤差是近似誤差和泛化誤差的總和。因此，為最大程度減少誤差，需要對(duì)這兩個(gè)誤差進(jìn)行精細(xì)控制?？梢酝ㄟ^(guò)限定學(xué)習(xí)模型必須來(lái)自特定的模型族來(lái)減小泛化誤差，但如果所選擇的模型族無(wú)法反映現(xiàn)實(shí)的全部豐富性，就可能會(huì)引入偏差，因此兩者之間存在權(quán)衡。

因此，就需要注入恰到好處的適量抽象概念，達(dá)到最佳平衡點(diǎn)，使總體誤差最低。

落到Mobileye的具體工作中，其抽象概念是一套“感知-規(guī)控-執(zhí)行”方法論。RSS模型就是一種大型抽象概念，還有運(yùn)行的計(jì)算，分析計(jì)算等等，還有自動(dòng)緊急制動(dòng)（AEB）相關(guān)的“碰撞時(shí)間（TTC）”概念，也是抽象概念，應(yīng)對(duì)長(zhǎng)乘法的計(jì)算器也是，諸如此類(lèi)，不一而足。

冗余設(shè)計(jì)和高階融合：以嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)方式論證誤差

在談到“捷徑學(xué)習(xí)”問(wèn)題時(shí)，提到了端到端無(wú)法真正利用每種傳感器模態(tài)的優(yōu)勢(shì)，這種低階融合無(wú)法達(dá)到理想結(jié)果。

而且端到端本質(zhì)上是一個(gè)黑箱，不具有可解釋性。但自動(dòng)駕駛汽車(chē)的權(quán)衡規(guī)則必須公開(kāi)透明，使社會(huì)能夠通過(guò)監(jiān)管解釋影響所有道路使用者的自動(dòng)駕駛決策。

最好的方式是建立一個(gè)可分解的系統(tǒng)，這樣一來(lái)，當(dāng)出現(xiàn)錯(cuò)誤時(shí)，就可以找出錯(cuò)誤原因并只關(guān)注網(wǎng)絡(luò)出錯(cuò)的那個(gè)區(qū)域，不會(huì)影響到其他地方。

Mobileye的復(fù)合人工智能系統(tǒng)旨在利用所有傳感器模式（包括攝像頭、雷達(dá)和激光雷達(dá)），按每種傳感器對(duì)系統(tǒng)進(jìn)行可分解訓(xùn)練，然后進(jìn)行高級(jí)融合，從而對(duì)駕駛環(huán)境形成更深入、更精確的理解，并更有效地處理各種極端情況，輕松達(dá)到更低的誤差水平，這與完全的端到端系統(tǒng)或基于低階融合的系統(tǒng)相比更具優(yōu)勢(shì)。

高階融合中，有簡(jiǎn)單的部分，也有復(fù)雜的部分。

適用于二元決策的簡(jiǎn)單傳統(tǒng)融合：比如前方有一輛車(chē)，是踩剎車(chē)還是不踩剎車(chē)，這是一個(gè)二元決策。經(jīng)典的處理方式是采用“多數(shù)規(guī)則”，三個(gè)子系統(tǒng)里只要有兩個(gè)得到同樣結(jié)論，就滿足少數(shù)服從多數(shù)。每個(gè)子系統(tǒng)都會(huì)給出1或-1的輸出，即踩剎車(chē)或不踩剎車(chē)的決策。如果每個(gè)子系統(tǒng)犯錯(cuò)的概率為ε，那么采用多數(shù)規(guī)則，會(huì)讓犯錯(cuò)的概率降到ε2，包括漏檢或誤檢的概率都會(huì)降低。這就是傳統(tǒng)融合，屬于簡(jiǎn)單的部分。

適用于非二元決策的PGF（Primary-Guardian-Fallback）高階融合：有很多決策并非是二元的，也就是無(wú)法根據(jù)多數(shù)規(guī)則來(lái)做決策。舉個(gè)例子，在橫向控制情況下，比如說(shuō)車(chē)兩側(cè)各有一輛公交車(chē)，一個(gè)子系統(tǒng)告訴我們前方道路左轉(zhuǎn)，另一個(gè)子系統(tǒng)告訴我們前方道路直行，還有一個(gè)子系統(tǒng)告訴我們前方道路右轉(zhuǎn)。這里沒(méi)有“多數(shù)”的概念，該怎么辦呢？如果做了錯(cuò)誤的決策，就會(huì)和旁側(cè)公交車(chē)發(fā)生碰撞事故。那么，問(wèn)題就來(lái)了：我們?cè)撊绾芜M(jìn)行高階融合以做出非二元決策？

▲無(wú)法根據(jù)多數(shù)規(guī)則來(lái)做決策的非二元情況

概括地講，Mobileye構(gòu)建了三個(gè)子系統(tǒng)，這三個(gè)子系統(tǒng)針對(duì)想要進(jìn)行高階融合的所有組件，不僅僅是攝像頭、雷達(dá)、激光雷達(dá)，而是包含了高階融合的所有方面。

▲構(gòu)建PGF三個(gè)子系統(tǒng)以進(jìn)行高階融合

?“Primary”主系統(tǒng)：用于預(yù)測(cè)，例如預(yù)測(cè)車(chē)道位置

?“Fallback”備用系統(tǒng)：基于不同方法同樣做預(yù)測(cè)

?“Guardian”監(jiān)護(hù)系統(tǒng)：負(fù)責(zé)檢查Primary主系統(tǒng)的預(yù)測(cè)是否正確

例如，前方道路是向右、向左還是直行，端到端網(wǎng)絡(luò)做出了判斷，Guardian監(jiān)護(hù)系統(tǒng)同時(shí)也在執(zhí)行它的檢查工作，每個(gè)系統(tǒng)出錯(cuò)的概率均為ε。

如果Guardian監(jiān)護(hù)系統(tǒng)認(rèn)為Primary主系統(tǒng)的預(yù)測(cè)有效，就按此執(zhí)行；否則會(huì)選擇Fallback備用系統(tǒng)。

經(jīng)證明，系統(tǒng)的總體誤差可以低至與多數(shù)規(guī)則相同的水平。

總的來(lái)說(shuō)，復(fù)合人工智能系統(tǒng)代表了人工智能發(fā)展的一個(gè)重要趨勢(shì)，即從單一模型的優(yōu)化轉(zhuǎn)向構(gòu)建集成多種AI技術(shù)的復(fù)合系統(tǒng)，以實(shí)現(xiàn)更高效和強(qiáng)大的AI應(yīng)用，滿足自動(dòng)駕駛應(yīng)用對(duì)安全性、精確性的高要求。

更多Mobileye的最新技術(shù)創(chuàng)新，請(qǐng)觀看Mobileye Driving AI Day演講視頻回放。

100倍Transformer效率提升

Mobileye的復(fù)合人工智能框架由多個(gè)相互支持的組件構(gòu)成，這些組件專(zhuān)為自動(dòng)駕駛而設(shè)計(jì)，旨在將端到端學(xué)習(xí)模型與專(zhuān)門(mén)算法相結(jié)合，以實(shí)現(xiàn)對(duì)Transformer和生成式AI的高效利用。

為了達(dá)成這一目標(biāo)，Mobileye開(kāi)發(fā)專(zhuān)為自動(dòng)駕駛感知和規(guī)劃而優(yōu)化的Transformer模型。該模型在效率上相較于通用人工智能領(lǐng)域的最先進(jìn)模型提升了100倍，同時(shí)并未降低準(zhǔn)確性。

具體實(shí)現(xiàn)方法為STAT（稀疏注意力），該技術(shù)通過(guò)將token分為不同類(lèi)型，并按類(lèi)型劃分相應(yīng)的矩陣。這一過(guò)程類(lèi)似于將人群分成多個(gè)小組，每個(gè)小組由一位經(jīng)理負(fù)責(zé)，小組成員直接與經(jīng)理溝通，而經(jīng)理之間也進(jìn)行相互交流。通過(guò)這種有序的溝通機(jī)制，STAT技術(shù)顯著提高了整體的工作效率。

EyeQ6H——效率的代名詞

Mobileye提出了能夠科學(xué)地反應(yīng)芯片能力的指標(biāo)——FPS（Frames per second），即每秒能夠處理的畫(huà)面幀數(shù)。相較于TOPS數(shù)值，F(xiàn)PS能夠科學(xué)地體現(xiàn)系統(tǒng)在現(xiàn)實(shí)中解決實(shí)際問(wèn)題的能力，因此可以作為更科學(xué)地衡量效率的指標(biāo)。

Mobileye認(rèn)為重視效率才是技術(shù)能力的體現(xiàn)。基于在計(jì)算機(jī)視覺(jué)算法方面的深厚積累和經(jīng)典傳承，并結(jié)合在AI深度學(xué)習(xí)方面的前沿突破，Mobileye在芯片設(shè)計(jì)上采用完全異構(gòu)的計(jì)算架構(gòu)，針對(duì)卷積和transformer等神經(jīng)網(wǎng)絡(luò)以及視覺(jué)運(yùn)算的不同計(jì)算場(chǎng)景，將適合的運(yùn)算任務(wù)分配到適合的核，提高芯片利用率，實(shí)現(xiàn)整體最有效的加速。相較于上一代EyeQ5H，EyeQ6H 有其2倍的Tops，卻達(dá)到了10倍的FPS。

自動(dòng)化數(shù)據(jù)標(biāo)注，解決現(xiàn)實(shí)世界的數(shù)據(jù)難題

CAIS因?yàn)樽⑷肓顺橄蟾拍?，因此僅需要少量的數(shù)據(jù)進(jìn)行訓(xùn)練，但所需的必須是高質(zhì)量的數(shù)據(jù)。

Mobileye采取的方法是在離線環(huán)境中生成數(shù)據(jù)，無(wú)需占用車(chē)載計(jì)算資源。首先，基于大量的無(wú)監(jiān)督數(shù)據(jù)訓(xùn)練一個(gè)基礎(chǔ)模型，然后通過(guò)監(jiān)督式微調(diào)來(lái)針對(duì)特定問(wèn)題進(jìn)行建模。

Mobileye開(kāi)發(fā)了一種針對(duì)圖像的基礎(chǔ)模型，該模型能夠理解每個(gè)像素的含義，并根據(jù)像素的語(yǔ)義屬性進(jìn)行聚類(lèi)。因此，該模型能夠識(shí)別圖像中每輛車(chē)、每個(gè)車(chē)道標(biāo)記、每根桿子的位置等，最終創(chuàng)建自動(dòng)基準(zhǔn)真值，以完全自動(dòng)化的方式建立對(duì)周?chē)h(huán)境的全面理解，從而能夠獲得非常豐富的現(xiàn)實(shí)表征，基本上能夠了解周?chē)總€(gè)像素的深度信息，然后利用這些高質(zhì)量的數(shù)據(jù)來(lái)訓(xùn)練AI模型，而且生成這些標(biāo)簽的成本為零，因?yàn)檫@一過(guò)程無(wú)需人工干預(yù)。

【題圖：Mobileye創(chuàng)始人、總裁兼首席執(zhí)行官Amnon Shashua教授和首席技術(shù)官Shai Shalev-Shwartz教授】

打賞

相關(guān)標(biāo)簽：

自動(dòng)駕駛

零醬今日芒種

專(zhuān)欄作者|154篇文章

相關(guān)文章全部

7月新能源銷(xiāo)量榜：謗滿天下的理想、比亞迪，占了中國(guó)新能源汽車(chē)半壁江山 2024-08-05 17:25
中國(guó)新能源五月銷(xiāo)量榜：一個(gè)看向全球前十的排名預(yù)演 2024-06-05 13:30
Apollo開(kāi)放平臺(tái)10.0發(fā)布丨單Orin芯片即可支撐L4落地 2024-12-04 14:53