關(guān)注智能駕駛的小伙伴這個禮拜應(yīng)該都被馬斯克刷屏了,!
億萬富翁的單向赴約+FSD V12 Beta版直播實在太有話題性了,,就算視頻畫質(zhì)差到掉渣,我還是沒忍住圍觀了。
視頻中小馬哥為了展示FSD V12 Beta版的能力,,不惜以身涉險甚至以身試法,,雙手多次離開方向盤,親自舉著渣畫質(zhì)的“座機(jī)”來為網(wǎng)友們做直播展示,。雖然沒有遇到攔截的警察,,但他的這番神操作就算在美國,同樣也是違法行為,,至少需要繳納100美元罰款,。大家可不要隨意模仿哦~
但話說回來,這FSD V12 Beta版到底有什么過人之處,?和我們的城區(qū)領(lǐng)航輔助又有什么區(qū)別呢,?
傳統(tǒng)的智能駕駛,基本都按照感知,、決策,、執(zhí)行分為個3個模塊。目前咱們國內(nèi)的傳統(tǒng)的智能駕駛一般都還是CNN 的主干網(wǎng)絡(luò)來提供最初的感知結(jié)果,,然后系統(tǒng)會把感知結(jié)果給到?jīng)Q策部門,,由時候決策部門根據(jù)我們已經(jīng)寫好的算法規(guī)則來給出控制策略,最后再由執(zhí)行模塊最終輸出控制車輛的行為,。
就像咱們車上的語音交互,,當(dāng)我們給出指令時,系統(tǒng)會通過抓取關(guān)鍵詞,,然后從豐富的答案中匹配一個最佳的結(jié)果,,如果我換一種說法,它就會變成“人工智障”,。
而特斯拉的FSD V12的端到端,,可能已經(jīng)完全推翻了我們現(xiàn)有在使用的這套智駕邏輯。神經(jīng)網(wǎng)絡(luò)已經(jīng)吞掉了原本的規(guī)則棧,,系統(tǒng)不需要糾結(jié)識別沒識別的問題,,只需要把捕捉到的基礎(chǔ)畫面給到神經(jīng)網(wǎng)絡(luò),系統(tǒng)就會自己根據(jù)畫面中物體的位置,、活動規(guī)律等信息與之前學(xué)習(xí)過的畫面進(jìn)行融合比對按照經(jīng)驗再輸出決策,。整個過程完全由神經(jīng)網(wǎng)絡(luò)自己來完成。
簡單來說FSD V12這就相當(dāng)于一套可以理解語義的語音交互系統(tǒng),,它可以脫離框架,,直接給出我們要的最佳答案。
以上內(nèi)容,,聽起來或許可能容易理解,。下面我們就直接代入場景,,來看看FSD V12 Beta版的表現(xiàn)究竟如何?
1.基礎(chǔ)能力
馬斯克公布的視頻中,F(xiàn)SDBeta版在環(huán)島,、障礙物,、紅綠燈識別上,整個直播過程中大部分場景基本都能處理的很好,,遇到行人減速甚至停車,,這樣的基本操作和我們的傳統(tǒng)智駕方案基本都能實現(xiàn),但這次直播馬斯克行駛的路段和國內(nèi)的北京廣州等地對比起來,,顯然在難度上還是差點意思,。
2.失誤場景
在直播的45分鐘里,唯一的一次失誤是因為紅綠燈的識別導(dǎo)致,,當(dāng)時是車輛需要直行時左轉(zhuǎn)燈變綠了,,差一點闖紅燈。咱們的輔助駕駛,,例如小鵬,、華為的方案,目前對于識別紅綠燈也都已經(jīng)是基操了,,但偶爾紅綠燈識別有誤的情況也確實存在,。就比如說上次在五城智駕測試中,阿維塔11就曾因為紅綠燈的位置做了變更,、高精地圖鮮度不夠而導(dǎo)致了一次識別有誤,。雖然原因不同,但結(jié)果卻是一樣的,,對于用戶來說,,二者在體驗上其實沒有太大的差異。
3.彩蛋
這次直播FSD V12最讓我驚艷的地方是它多了可以一個靠邊停車的操作,,這也是目前的FSD,、傳統(tǒng)智駕方案中我們所沒有見過的。Ashok在直播中還透露,,將來的FSD可能還會增加語音指令的功能,,我們可以指揮它如何開,也可以告訴它我們要去哪里,。FSD就可以根據(jù)指令分析語義信息并執(zhí)行操作,。
既然短期內(nèi)體驗上并沒有顯著差異,為什么還要做端到端呢,?
傳統(tǒng)智駕方案中感知、融合、決策,、控制整個過程會有點像流水線,,每一步我都要明確輸出一個結(jié)果。下一步始終只接收上一個模塊給到的信息,,除了系統(tǒng)需要處理的數(shù)據(jù)和校驗信息量大之外,,也需要大量的人力及研發(fā)成本,而且傳遞信息的過程可能存在一定的信息損失,。
如果把之前BEV+Transformer的加入比作是我們從數(shù)數(shù)的階段,,學(xué)會了用算盤這樣的工具。那么端到端的大模型,,就相當(dāng)于直接用上了計算器,。在研發(fā)成本、人員,、效率,、信息的準(zhǔn)確性上都能夠得到大幅提升。
寫在最后
假設(shè)現(xiàn)在中國有5萬自動駕駛研發(fā)的工程師,、10萬個相關(guān)從業(yè)者,、30萬個仿真、數(shù)據(jù)標(biāo)注的工作者,,差不多50萬人在做這件事情,。如果端到端真的落地了,AI就可以自己玩了,,那這50萬人里面,,95%的人都得失業(yè)。
當(dāng)然,,端到端的落地的難度僅用文字是無法完全呈現(xiàn)出來的,。運行這一套大模型,參考的維度會更多,,對相關(guān)的技術(shù)人員的要求會更高,,采集的數(shù)據(jù)樣本數(shù)量、質(zhì)量都會有更多更高的要求,、那么與此同時計算平臺就需要非常強大的硬件配置來支持,,此外模型訓(xùn)練所需要的龐大資金也會是一大問題。
而且投入這些成本之后,,能達(dá)到什么樣的預(yù)期效果究竟會是什么樣的,?這就很難評了。但可以預(yù)見的結(jié)果是,,端到端這條路我們一定會走,,但當(dāng)下顯然還不是最好的時候,。