關(guān)注智能駕駛的小伙伴這個(gè)禮拜應(yīng)該都被馬斯克刷屏了,!
億萬(wàn)富翁的單向赴約+FSD V12 Beta版直播實(shí)在太有話題性了,,就算視頻畫(huà)質(zhì)差到掉渣,我還是沒(méi)忍住圍觀了,。
視頻中小馬哥為了展示FSD V12 Beta版的能力,,不惜以身涉險(xiǎn)甚至以身試法,雙手多次離開(kāi)方向盤(pán),,親自舉著渣畫(huà)質(zhì)的“座機(jī)”來(lái)為網(wǎng)友們做直播展示,。雖然沒(méi)有遇到攔截的警察,但他的這番神操作就算在美國(guó),,同樣也是違法行為,,至少需要繳納100美元罰款。大家可不要隨意模仿哦~
但話說(shuō)回來(lái),,這FSD V12 Beta版到底有什么過(guò)人之處,?和我們的城區(qū)領(lǐng)航輔助又有什么區(qū)別呢,?
傳統(tǒng)的智能駕駛,基本都按照感知,、決策,、執(zhí)行分為個(gè)3個(gè)模塊。目前咱們國(guó)內(nèi)的傳統(tǒng)的智能駕駛一般都還是CNN 的主干網(wǎng)絡(luò)來(lái)提供最初的感知結(jié)果,,然后系統(tǒng)會(huì)把感知結(jié)果給到?jīng)Q策部門(mén),,由時(shí)候決策部門(mén)根據(jù)我們已經(jīng)寫(xiě)好的算法規(guī)則來(lái)給出控制策略,最后再由執(zhí)行模塊最終輸出控制車輛的行為,。
就像咱們車上的語(yǔ)音交互,,當(dāng)我們給出指令時(shí),系統(tǒng)會(huì)通過(guò)抓取關(guān)鍵詞,,然后從豐富的答案中匹配一個(gè)最佳的結(jié)果,,如果我換一種說(shuō)法,它就會(huì)變成“人工智障”,。
而特斯拉的FSD V12的端到端,,可能已經(jīng)完全推翻了我們現(xiàn)有在使用的這套智駕邏輯。神經(jīng)網(wǎng)絡(luò)已經(jīng)吞掉了原本的規(guī)則棧,,系統(tǒng)不需要糾結(jié)識(shí)別沒(méi)識(shí)別的問(wèn)題,,只需要把捕捉到的基礎(chǔ)畫(huà)面給到神經(jīng)網(wǎng)絡(luò),系統(tǒng)就會(huì)自己根據(jù)畫(huà)面中物體的位置,、活動(dòng)規(guī)律等信息與之前學(xué)習(xí)過(guò)的畫(huà)面進(jìn)行融合比對(duì)按照經(jīng)驗(yàn)再輸出決策,。整個(gè)過(guò)程完全由神經(jīng)網(wǎng)絡(luò)自己來(lái)完成。
簡(jiǎn)單來(lái)說(shuō)FSD V12這就相當(dāng)于一套可以理解語(yǔ)義的語(yǔ)音交互系統(tǒng),,它可以脫離框架,,直接給出我們要的最佳答案。
以上內(nèi)容,,聽(tīng)起來(lái)或許可能容易理解,。下面我們就直接代入場(chǎng)景,來(lái)看看FSD V12 Beta版的表現(xiàn)究竟如何,?
1.基礎(chǔ)能力
馬斯克公布的視頻中,,F(xiàn)SDBeta版在環(huán)島,、障礙物、紅綠燈識(shí)別上,,整個(gè)直播過(guò)程中大部分場(chǎng)景基本都能處理的很好,遇到行人減速甚至停車,,這樣的基本操作和我們的傳統(tǒng)智駕方案基本都能實(shí)現(xiàn),,但這次直播馬斯克行駛的路段和國(guó)內(nèi)的北京廣州等地對(duì)比起來(lái),,顯然在難度上還是差點(diǎn)意思。
2.失誤場(chǎng)景
在直播的45分鐘里,,唯一的一次失誤是因?yàn)榧t綠燈的識(shí)別導(dǎo)致,,當(dāng)時(shí)是車輛需要直行時(shí)左轉(zhuǎn)燈變綠了,差一點(diǎn)闖紅燈,。咱們的輔助駕駛,,例如小鵬、華為的方案,,目前對(duì)于識(shí)別紅綠燈也都已經(jīng)是基操了,,但偶爾紅綠燈識(shí)別有誤的情況也確實(shí)存在。就比如說(shuō)上次在五城智駕測(cè)試中,,阿維塔11就曾因?yàn)榧t綠燈的位置做了變更,、高精地圖鮮度不夠而導(dǎo)致了一次識(shí)別有誤。雖然原因不同,,但結(jié)果卻是一樣的,,對(duì)于用戶來(lái)說(shuō),二者在體驗(yàn)上其實(shí)沒(méi)有太大的差異,。
3.彩蛋
這次直播FSD V12最讓我驚艷的地方是它多了可以一個(gè)靠邊停車的操作,,這也是目前的FSD、傳統(tǒng)智駕方案中我們所沒(méi)有見(jiàn)過(guò)的,。Ashok在直播中還透露,,將來(lái)的FSD可能還會(huì)增加語(yǔ)音指令的功能,我們可以指揮它如何開(kāi),,也可以告訴它我們要去哪里,。FSD就可以根據(jù)指令分析語(yǔ)義信息并執(zhí)行操作。
既然短期內(nèi)體驗(yàn)上并沒(méi)有顯著差異,,為什么還要做端到端呢,?
傳統(tǒng)智駕方案中感知、融合,、決策,、控制整個(gè)過(guò)程會(huì)有點(diǎn)像流水線,每一步我都要明確輸出一個(gè)結(jié)果,。下一步始終只接收上一個(gè)模塊給到的信息,,除了系統(tǒng)需要處理的數(shù)據(jù)和校驗(yàn)信息量大之外,也需要大量的人力及研發(fā)成本,,而且傳遞信息的過(guò)程可能存在一定的信息損失,。
如果把之前BEV+Transformer的加入比作是我們從數(shù)數(shù)的階段,學(xué)會(huì)了用算盤(pán)這樣的工具,。那么端到端的大模型,,就相當(dāng)于直接用上了計(jì)算器,。在研發(fā)成本、人員,、效率,、信息的準(zhǔn)確性上都能夠得到大幅提升。
寫(xiě)在最后
假設(shè)現(xiàn)在中國(guó)有5萬(wàn)自動(dòng)駕駛研發(fā)的工程師,、10萬(wàn)個(gè)相關(guān)從業(yè)者,、30萬(wàn)個(gè)仿真、數(shù)據(jù)標(biāo)注的工作者,,差不多50萬(wàn)人在做這件事情,。如果端到端真的落地了,AI就可以自己玩了,,那這50萬(wàn)人里面,,95%的人都得失業(yè)。
當(dāng)然,,端到端的落地的難度僅用文字是無(wú)法完全呈現(xiàn)出來(lái)的,。運(yùn)行這一套大模型,參考的維度會(huì)更多,,對(duì)相關(guān)的技術(shù)人員的要求會(huì)更高,,采集的數(shù)據(jù)樣本數(shù)量、質(zhì)量都會(huì)有更多更高的要求,、那么與此同時(shí)計(jì)算平臺(tái)就需要非常強(qiáng)大的硬件配置來(lái)支持,,此外模型訓(xùn)練所需要的龐大資金也會(huì)是一大問(wèn)題。
而且投入這些成本之后,,能達(dá)到什么樣的預(yù)期效果究竟會(huì)是什么樣的,?這就很難評(píng)了。但可以預(yù)見(jiàn)的結(jié)果是,,端到端這條路我們一定會(huì)走,,但當(dāng)下顯然還不是最好的時(shí)候。