久久精品无码av一区二区三区_欧洲精品无码成人久久久_无套内谢老熟女_91欧美亚洲国产五月天_日本一区二区在线看_国产成人大片在线观看_99久久精品免费看国产四区_欧美乱人伦人妻中文字幕_中文字幕日韩三级片_把腿张开ji巴cao死你np男,亚洲欧美国产国产一区,护士高潮喷水白.,国产a爽-区二区久久久A片

極越汽車機(jī)器人進(jìn)化日Workshop速記

中捷之車 2024-01-15 76308人圍觀

  [ 資訊]  日前,極越汽車舉辦了“汽車機(jī)器人進(jìn)化日”超前體驗(yàn)活動(dòng),。極越數(shù)字產(chǎn)品負(fù)責(zé)人潘云鵬,;百度自動(dòng)駕駛技術(shù)負(fù)責(zé)人/百度IDG技術(shù)委員會(huì)主席王亮,,將針對(duì)此次OTA升級(jí)計(jì)劃以及最新技術(shù)進(jìn)展做出分享。具體信息如下:

  潘云鵬:非常榮幸,,能和大家一起分享一下V1.3.0,、1.3.1軟件關(guān)鍵內(nèi)容。我們?cè)谲浖矫?,積極聽(tīng)取用戶意見(jiàn),,在新浪微博上還專門(mén)有這么一個(gè)熱詞#極越聽(tīng)勸。我們基本上一直保持這個(gè)人設(shè),,我們的整體軟件迭代邏輯有一個(gè)核心點(diǎn),,就是通過(guò)SIMO來(lái)獲取用戶反饋,一共得到將近12000多條反饋,,每天有大幾百條反饋給數(shù)據(jù)庫(kù)里灌,。

用戶反饋

  第一個(gè)階段已經(jīng)過(guò)去,無(wú)論在車展上拉橫幅,、400投訴電話,、微博找CEO,用戶都處在非常弱勢(shì),,非常無(wú)助的情況,,不知道該怎么做,車企也不太很清楚怎么樣才能拿到用戶最真實(shí)的反饋,。

  極越汽車解決了這個(gè)問(wèn)題,,從公司創(chuàng)建的時(shí)候開(kāi)始,直接進(jìn)入2.0時(shí)代,,用SIMO專屬客服作為橋梁,,每當(dāng)大家覺(jué)得有問(wèn)題的時(shí)候,就說(shuō)SIMO我要反饋問(wèn)題,,無(wú)論是收集到產(chǎn)品建議,,還是吐槽,還是對(duì)誰(shuí)的建議,,我們都可以直接收到,,并且我們的后臺(tái)有自動(dòng)分發(fā)系統(tǒng)標(biāo)簽,,直接到“罪魁禍?zhǔn)住保üこ處煟┑氖掷铩?/p>

  2024年我們已經(jīng)升級(jí)到了3.0,融合大模型能力,,做到更快速的反饋。因?yàn)楝F(xiàn)在每天反饋量太多,,人工處理的邊際成本特別高,,所以融合大模型的能力,現(xiàn)在會(huì)做自動(dòng)診斷,,自動(dòng)判斷,,也會(huì)在用戶吐槽的時(shí)候第一時(shí)間給到用戶解法。

  之前發(fā)過(guò)一個(gè)視頻,,有一個(gè)比較直觀的例子,,只要說(shuō)SIMO我要反饋,我們的用戶APP可以以秒級(jí)的速度收到一條問(wèn)題,,然后開(kāi)始處理,。這是內(nèi)部的群,包括各個(gè)團(tuán)隊(duì)一級(jí)部門(mén)負(fù)責(zé)人都在里面,,實(shí)時(shí)收到,,包括所有需要解決問(wèn)題所需的lock都會(huì)在里面。從用戶側(cè)收到的反饋,,最終吐槽得對(duì),,屬于比較好的產(chǎn)品建議,或者是比較好的產(chǎn)品問(wèn)題,,我們會(huì)給予50積分獎(jiǎng)勵(lì),。我們這套機(jī)制運(yùn)轉(zhuǎn)了很長(zhǎng)一段時(shí)間,基于這個(gè)體系幫助我們迭代我們的軟件,。

  我們一共收到12584條反饋,,在1.3.0和1.3.1的版本上有60%的問(wèn)題已經(jīng)得到解決,平均處理時(shí)長(zhǎng)小于1天,。問(wèn)題過(guò)來(lái)后,,從工程師實(shí)時(shí)看這些問(wèn)題,并分析這些問(wèn)題,,小于24個(gè)小時(shí)完成反饋,。在用戶比較關(guān)注的幾大類反饋問(wèn)題中,智艙智駕占30%,,產(chǎn)品建議占20%,,其他問(wèn)題,其他功能軟件占20%,。比較多的例子,,車主比較共鳴,,不清楚轉(zhuǎn)向燈怎么用,PPA怎么開(kāi)啟,,定位會(huì)飄,,娛樂(lè)功能少,APP覺(jué)得不夠豐富,,藍(lán)牙鑰匙離車落不了鎖,,或者進(jìn)車解不了鎖。我們?cè)?.3.0和1.3.1針對(duì)這些問(wèn)題得到了解決和優(yōu)化,。

軟件1.3.0和1.3.1版本的主要功能

  智艙主要分幾部分,,第一部分更多是U型方向盤(pán),之前是圓型,,我們做這款產(chǎn)品的時(shí)候這款產(chǎn)品發(fā)現(xiàn)U型方向盤(pán)有更好的視野,,這次U型方向盤(pán)大家可以感受到駕駛,3D地圖的體驗(yàn)有了質(zhì)的飛躍,。

  第二個(gè)轉(zhuǎn)向燈,,我們認(rèn)為在自動(dòng)駕駛或者人動(dòng)手開(kāi)的時(shí)候,可以通過(guò)算法,,盡量不需要手動(dòng)開(kāi)啟轉(zhuǎn)向燈,,在1.3.0版本里無(wú)論在變道還是轉(zhuǎn)彎,已經(jīng)不需要再關(guān)閉轉(zhuǎn)向燈,,這個(gè)功能已經(jīng)上線了,。1.4版本里,我們通過(guò)你的意圖,,我們主動(dòng)打起轉(zhuǎn)向燈,,在1.4的版本里會(huì)做。

  接著是換擋,,很多用戶覺(jué)得換擋的時(shí)候容易手滑,,滑不到位,現(xiàn)在可以“點(diǎn)擊換擋”,,輕輕一點(diǎn),,極速換擋。換檔會(huì)做成自動(dòng)化,,判斷前車和后車相對(duì)位置,,包括通過(guò)上次行車的行為,判斷出自動(dòng)前進(jìn)或后退,。

SIMO文心一言

   SIMO文心一言的能力,,我們?cè)谥鞍姹纠镂男囊谎允羌蛇M(jìn)去了,是需要特地的說(shuō)聊天或喚起文心一言進(jìn)入文心一言的空間。現(xiàn)在文心一言是原生集成到SIMO能力里,,并不需要刻意的來(lái)講(喚醒),,我要調(diào)動(dòng)起文心一言的哪些能力,它可以根據(jù)你的說(shuō)話內(nèi)容自動(dòng)的幫助你完成這些任務(wù),。

  這是一個(gè)視頻,,(#SIMO從可見(jiàn)即可說(shuō)到可說(shuō)即可做)。還可以有更多的場(chǎng)景延展,,包括問(wèn)SIMO現(xiàn)在最熱門(mén)的電視劇有哪些,。比如《繁花》《三大隊(duì)》,立馬說(shuō)SIMO我要播放《三大隊(duì)》或者《繁花》,,基本能夠?qū)崟r(shí)播放,在SIMO大模型領(lǐng)域和娛樂(lè)域能做到比較好的切換,。這是關(guān)于座艙部分的更新,。

OCC技術(shù)用戶體驗(yàn)

  現(xiàn)在一共有三代,第一代是單目DNN感知網(wǎng)絡(luò)環(huán)視后融合,,2.0大家遇到比較多的BEV+Transformer時(shí)空融合,,極越汽車是唯一一家能夠做BEV+OCC+Transformer多任務(wù)統(tǒng)一網(wǎng)絡(luò)的企業(yè),我們給它起了一個(gè)名字,,BOT,,也是機(jī)器人的概念。本質(zhì)上,,是想說(shuō)我們是超高精度體素,,甚至小于厘米級(jí),由過(guò)去BEV2D變成3D,,來(lái)判斷駕駛空間里是否被占用,。超直覺(jué),之前需要判斷前方是人是車還是什么東西,,現(xiàn)在基本上認(rèn)為前方有一個(gè)物體,,和開(kāi)車的時(shí)候很像,通過(guò)直覺(jué)繞開(kāi)它,,而不需要通過(guò)思考,。

  這是三個(gè)在1.3.1的時(shí)候比較關(guān)鍵的場(chǎng)景,遇障剎停,,第二個(gè)遇到障礙物無(wú)感繞障,,提前規(guī)劃,到障礙物可以跨車道繞開(kāi),。另外是遠(yuǎn)離硬隔離,,它會(huì)在你離水馬硬路很近的時(shí)候適當(dāng)遠(yuǎn)離,給大家很足的安心感,,這種場(chǎng)景在匝道上大家感受很明顯,。

  PPA我們做了很多細(xì)節(jié)上的提升,,PPA之前大家覺(jué)得變道比較保守,現(xiàn)在比較自信,,在一些需要判斷要不要變道的路況中,,我們不會(huì)來(lái)回的猶豫。第二,,有一些更加靈活的變道或者通行策略,,比如公交車道在可以行駛的時(shí)間段,我們可以借用公交車道進(jìn)行通行,。包括黃虛線借道上有更加靈活繞行策略,。

  無(wú)感區(qū)域,繞過(guò)路障,、以及過(guò)路障已經(jīng)提到了,,主要是基于OCC能力。在一些小路上,,導(dǎo)航地圖如果有一些信息不是夠完整,、準(zhǔn)確的時(shí)候,我們能夠更加從容的通過(guò)這些路段,。在這個(gè)圖上沒(méi)有展示的,,或者對(duì)比之前地圖有很大量的變道,大家可能覺(jué)得不知道為什么變道,、剎車,,我們會(huì)告訴大家為什么變道,有時(shí)候因?yàn)槌?,有時(shí)候因?yàn)楸苷?,有時(shí)候因?yàn)樵训赖搅耍袝r(shí)候因?yàn)閷?dǎo)航路徑規(guī)劃的原因,,這些東西都在這個(gè)版本上給大家做了提升,。

  我們?cè)诮衲昴甑祝松虾R酝?,北京,、杭州、深圳,,開(kāi)了大量的城區(qū)路寬,,而不是開(kāi)一條路,是真正做到把路連成網(wǎng),,讓它有連續(xù)性,,用戶可以從A點(diǎn)到B點(diǎn)實(shí)現(xiàn)智駕通勤。我們認(rèn)為只有做到60%-70%的用車場(chǎng)景和90%以上高頻場(chǎng)景的覆蓋才能叫真正的開(kāi)城。2024年會(huì)完成200+城市的城區(qū)道路,,我們會(huì)采取通勤+輕圖的模式,。

視覺(jué)系統(tǒng)

  我們一直說(shuō)汽車機(jī)器人,我們認(rèn)為視覺(jué)不僅僅用在自動(dòng)駕駛身上,,我們認(rèn)為視覺(jué)(系統(tǒng))可以用在更多的通用任務(wù),,比如開(kāi)門(mén)剎、燒餅?zāi)J?、更精?zhǔn)路況識(shí)別,、透明底盤(pán),大家在1.3版本上都能感受到,。

  泊車我們做了算法的升級(jí),,我們自動(dòng)APA滲透率比較高,達(dá)到96%,,成功率88%,,算法重寫(xiě)之后,平均可以減少20-30%的時(shí)間,,斷頭路和極窄車位提升25%的成功率,,斷頭路比較極端的場(chǎng)景,,我們測(cè)試下來(lái),,有將近一倍容錯(cuò)次數(shù)的減少,也是比較大的升級(jí),。

安全方面

  后面是關(guān)于安全上的更新,。我們是電動(dòng)門(mén),大家會(huì)擔(dān)憂電動(dòng)門(mén),,在車輛沒(méi)電的情況下,,是否會(huì)有打不開(kāi)的情況,我們有有專門(mén)獨(dú)立電源,,專門(mén)應(yīng)對(duì)電動(dòng)門(mén)的場(chǎng)景,,電動(dòng)門(mén)會(huì)在碰撞的15秒保持關(guān)閉,這樣避免司機(jī)或者乘客被甩出去,,進(jìn)行二次傷害,。最后是1.3版本更新上的,我們有一個(gè)救生門(mén)模式,,借助破冰模式,,在冬天的時(shí)候,破冰的場(chǎng)景上,,我們應(yīng)用到碰撞場(chǎng)景上,,可以用一百斤力量把車門(mén)頂開(kāi),保證乘客在事故之后的安全,得到安全的救助,。

娛樂(lè)方面

  娛樂(lè)進(jìn)化,,大家一直吐槽APP太少,這次加入了B站,、云聽(tīng),、小宇宙,后期大家可以期待一下,,我們很快會(huì)加速APPStore的建設(shè),,會(huì)有更多第三方的生態(tài)APP接入進(jìn)來(lái)。還有switch投屏,,可以在車內(nèi)通過(guò)轉(zhuǎn)接頭進(jìn)行投屏,,進(jìn)行游戲,除了抽煙以外,,又多了一個(gè)回家在車上多待一會(huì)兒的理由,。車載KTV方面,我們?cè)谏坛巧霞芰讼鄳?yīng)的麥克風(fēng)等硬件,,可以在車上和朋友進(jìn)行K歌,。

體驗(yàn)方面

  最后一個(gè)是體驗(yàn)進(jìn)化,冬天充電速度,,座艙預(yù)熱,,破冰門(mén),雪地脫困,,這次上了APP,,會(huì)有座艙預(yù)約加熱功能,電池預(yù)熱,,特別是磷酸鐵鋰電池在比較低溫情況下,,為了保持化學(xué)上的活性,我們可以為電池進(jìn)行提前加熱,,使得車輛得到了充電站之后,,充電效率和充電速率可以得到提升,這是電池預(yù)熱的功能,,在1.3版本里已經(jīng)加入,。對(duì)于performance版本車型,會(huì)有雪地模式,,讓大家在雪地下有比省心的駕駛體驗(yàn),。

  在一萬(wàn)兩千多條的反饋下,包括哨兵模式,,大家吐槽有誤報(bào),,PPA開(kāi)啟后為什么車輛變道,,3D地圖下,紅綠燈,,轉(zhuǎn)向燈,,大家覺(jué)得聽(tīng)不到,特別開(kāi)音樂(lè)的時(shí)候轉(zhuǎn)向燈聲音太小,,我們比較聽(tīng)勸,,都做了調(diào)整。

  手機(jī)和藍(lán)牙實(shí)時(shí)音頻,,以前大家連接到手機(jī)上以后,,播放手機(jī)上的媒體,之前要手動(dòng)切換到手機(jī)藍(lán)牙才能播放,,現(xiàn)在手機(jī)實(shí)時(shí)藍(lán)牙檢測(cè),,它可以在你想播放手機(jī),比如微信,、抖音多媒體信道可以自由的進(jìn)行切換,,播完之后自動(dòng)切換車內(nèi)通道。舒適進(jìn)出是用戶投訴反饋比較多的,,座椅沒(méi)有恢復(fù)到已有的位置或者記憶位置,,以及記憶位置不準(zhǔn)確,我們?cè)?.3.0和1.3.1都有優(yōu)化,。

技術(shù)上OCC怎么實(shí)現(xiàn)的,?

  王亮:各位媒體朋友,各位集度同事大家下午好,!很榮幸收到邀請(qǐng),,過(guò)來(lái)跟大家做技術(shù)層面的交流,。今天分享的題目Vision Takes All,,有一個(gè)副標(biāo)題,用AI原生思維重構(gòu)自動(dòng)駕駛視覺(jué)感知技術(shù),,這里有一些詞解釋一下,,英文這個(gè)詞代表什么?這是我們內(nèi)部的愿景,,我們希望是用純視覺(jué),,#用一個(gè)視覺(jué)大模型去Takes All,英文翻譯過(guò)來(lái)是“通吃”,,我們希望解決所有自動(dòng)駕駛感知相關(guān)的問(wèn)題,,用純視覺(jué)大模型做。副標(biāo)題里,,AI原生思維,,是什么概念,?這在百度內(nèi)部被提的比較多的概念。

  我說(shuō)一下我的理解,,什么是好的AI原生思維,,在今天大模型時(shí)代大數(shù)據(jù)時(shí)代,我舉一個(gè)很好的例子,,極越語(yǔ)音設(shè)計(jì)就是非常AI原生思維的產(chǎn)品設(shè)計(jì),,我認(rèn)識(shí)的人,包括我,,開(kāi)車久了之后,,不會(huì)再找車上按紐,所有事情很自然的通過(guò)語(yǔ)音交互去完成,。

  如果從算法上講,,舉一個(gè)例子,趨勢(shì)是什么,?都是從規(guī)則到多模型多任務(wù),,再到模型的聚合,大模型,,多任務(wù)的過(guò)程,,比如我們?cè)瓉?lái)判斷會(huì)不會(huì)有車輛、會(huì)不會(huì)加塞,,最早會(huì)有每個(gè)時(shí)刻的障礙物擬合加軌跡,,看看和前行的軌跡會(huì)不會(huì)有交叉,都可以靠數(shù)學(xué)計(jì)算幾何計(jì)算做判斷,。第二步可以做模型判斷,,可以學(xué)車輪子、學(xué)車燈,、學(xué)車道線,,這三個(gè)模型輸出的結(jié)果,能更好更準(zhǔn)確的判斷,,這個(gè)車會(huì)不會(huì)對(duì)我們進(jìn)行加塞動(dòng)作,。到今天會(huì)怎么做?我們把所有的小模型都去掉,,我們用連續(xù)幀視頻的信息直接判斷會(huì)不會(huì)加塞,,這也是一種在算法層面AI原生思維的體現(xiàn)。

  分享第一部分,,很多人會(huì)問(wèn),,媒體朋友也會(huì)感興趣,為什么極越高階智駕PPA選擇用純視覺(jué)做,?有很多人問(wèn),,為什么不用激光雷達(dá),。馬斯克說(shuō)人類沒(méi)有主動(dòng)的測(cè)距能力,兩個(gè)眼睛就能開(kāi)車,,AI也可以,。激光雷達(dá)是比較昂貴的,雖然現(xiàn)在降本大潮下,,價(jià)格不斷的往下打,,但是我可以很確定的說(shuō),它的器件和成像原理在這里,,再怎么降本,,它的成本也會(huì)是相機(jī)的5-10倍。激光雷達(dá)是很精密的光學(xué)測(cè)距儀器,,里面有很多移動(dòng)部件,,這種部件有很高概率會(huì)出現(xiàn)可靠性問(wèn)題,會(huì)帶來(lái)售后問(wèn)題,。

  第四點(diǎn),,我們也有毫米波雷達(dá)、超聲波雷達(dá),,它們?cè)聿畈欢?,可以做很多激光雷達(dá)做的工作,但是不管激光雷達(dá)還是毫米波,、超聲波,,他們都代替不了相機(jī)。最后更專業(yè)一點(diǎn)的算法同學(xué)會(huì)有感觸,,激光雷達(dá)也不是一個(gè)完美的系統(tǒng),,它會(huì)有偽影,消除偽影的影響也是非常難做,,非常痛苦的過(guò)程,。這都是大家耳熟能詳?shù)脑颉?/p>

  我們?nèi)粘5难葸M(jìn)迭代速度等于什么?(初速度+加速度)×?xí)r間,,跟時(shí)間相關(guān)的是加速度,。初速度很重要,,這是算法從0到1的階段,,也是激光雷達(dá)最大的優(yōu)勢(shì)。2017年左右很多創(chuàng)業(yè)公司可以在三個(gè)月可以在城市里把激光雷達(dá)的自動(dòng)駕駛方案demo跑出來(lái),,為什么這么快,?他們不用深耕嗎?如果有很好的工程師,,利用激光雷達(dá)直接提供的三維信息,,可以不需要那么強(qiáng)的算法,,就能把這個(gè)事情跑起來(lái),沒(méi)那么難,。但是在視覺(jué)方案這邊,,視覺(jué)初速度很慢。從Mobileye做了25年的視覺(jué)方案,,就能發(fā)現(xiàn)這個(gè)事情足夠難,,這也是Mobileye CEO講這是他們?yōu)槭裁创嬖诘睦碛伞L厮估鞘裁磿r(shí)候,?2015年和Mobileye分手之后自己開(kāi)始組團(tuán)隊(duì),,自研純視覺(jué)的方案,到今天也有八年多的時(shí)間,,百度的視覺(jué)方案在2019年正式開(kāi)始進(jìn)行高強(qiáng)度嘗試,,當(dāng)時(shí)通過(guò)小的項(xiàng)目,在Apollo Lite上做了開(kāi)始,,到和極越合作過(guò)程中,,已經(jīng)開(kāi)始算完成從0到1的進(jìn)化。加速度和什么相關(guān),?在這個(gè)大模型時(shí)代,,OpenAI有很有名的文章,Scaling Laws for Neural Language Models,,這里提了一個(gè)結(jié)論,,整個(gè)模型的迭代速度跟三件事情相關(guān),模型的參數(shù)量,、數(shù)據(jù)的規(guī)模,、訓(xùn)練算力,這三者相輔相成,,決定了模型的質(zhì)量,。論文告訴我們?cè)诮裉旒夹g(shù)時(shí)代,我們要把能力上限做上去,,迭代的更快,,需要關(guān)注模型大小,訓(xùn)練的質(zhì)量,,還有超強(qiáng)算力,。

模型怎么做大?

  車上如果一堆小模型都在跑各自任務(wù),,不可能把單一模型做特別大,,所以我們一定要合并,減少激光雷達(dá)的模型,,這樣就可以給視覺(jué)模型多幾千萬(wàn)的參數(shù),。第二個(gè)是數(shù)據(jù)力量,,第三,在有限算力下怎么設(shè)計(jì),,如果讓訓(xùn)練更加充分,。這個(gè)公式是我們選擇純視覺(jué)方案背后的深層邏輯,為了上限更高,,迭代更快,。

為什么是視覺(jué)?

  既然說(shuō)到數(shù)據(jù),,要關(guān)注數(shù)據(jù)的質(zhì)量,,所有傳感器都是每時(shí)每刻對(duì)環(huán)境進(jìn)行離散采樣,這里做了一個(gè)對(duì)比,,第一列是主流的很多城市NOA使用的激光雷達(dá)的參數(shù),,分辨率、最大幀率兩者相乘變成一秒內(nèi)點(diǎn)頻采樣數(shù),。中間列(SOTA)是沒(méi)有量產(chǎn),,最近剛剛有宣傳的代表,參數(shù)是業(yè)內(nèi)最好的,,性能最高的激光雷達(dá),,它對(duì)應(yīng)的參數(shù)是這樣的。現(xiàn)在極越車上搭載的800萬(wàn)攝像頭分辨率,、幀率,、點(diǎn)頻,三者對(duì)比大概比例1:8:160,,也就是說(shuō)今天主流NOA是我們1/160,,明天最好的激光雷達(dá)是我們1/20,這只是可量化的部分,。

  還有不是那么容易量化的部分,,數(shù)據(jù)里到底蘊(yùn)含多少信息,可以供算法迭代,,左邊是激光雷達(dá)點(diǎn)云,,激光雷達(dá)返回幾何信息,另外更重要是Appearance-紋理,,這是圖像提供的,。右圖(PPT所示)隨便找一個(gè)路口看一張圖像,左邊是對(duì)應(yīng)的激光雷達(dá)掃下來(lái)的點(diǎn)云,。如果看這個(gè)圖像,,這個(gè)信息實(shí)在太多了,首先大概能知道這里有兩條路,,在中間有斑馬線,,這里有紅綠燈,面向我們這個(gè)朝向是紅的,,面向行人是綠色的,,還有不一樣的行人,右邊有一個(gè)男生,,想過(guò)馬路,,擔(dān)心有車闖紅燈,朝我們看了一眼,,過(guò)程中放慢腳步,,很快通過(guò)了,左邊有一個(gè)拿箱子的男士,,這個(gè)箱子到底是不是靜止的障礙物,,還是會(huì)跟著這個(gè)人一起走,不看圖像是不知道的,。有一個(gè)女生站的很筆直,,她是過(guò)馬路還是等車,是在準(zhǔn)備過(guò)馬路還是等車過(guò)去之后再過(guò)馬路,。如果從這個(gè)圖看,,大家肯定知道她是要過(guò)的,因?yàn)樗@邊是綠色的,,而且已經(jīng)走到馬路中間,,后面還有摩托車馱著一個(gè)行人,這是一個(gè)物體還是兩個(gè)物體,,通過(guò)圖像,,大家能有更好的解讀的能力??袋c(diǎn)云,,我們知道有一堆障礙物在路上,不能碰他,,我們減速,,等它過(guò)去,這個(gè)車也能走,,大家可以想象二者的上限和智能性的差異化是什么,。從絕對(duì)的數(shù)量再到點(diǎn)云,從不太容易量化的信息來(lái)看,,視覺(jué)的信息量數(shù)據(jù)的境況遠(yuǎn)遠(yuǎn)大于激光雷達(dá)的,。

  再談?wù)劶铀俣取W鲆曈X(jué)不會(huì)那么快,比較難,,在這張圖里,,剛才我解讀了很多,有一個(gè)問(wèn)題,,對(duì)機(jī)器來(lái)說(shuō)非常難,,這是計(jì)算機(jī)視覺(jué)幾十年的難題,在我們這張圖像成圖的過(guò)程中已經(jīng)把三維做了有損投影,,把三維世界壓到二維平面上,,這是成像的過(guò)程。無(wú)人車最重要第一步在三維環(huán)境里規(guī)劃軌跡,,怎么從二維圖像里把三維的信息找出來(lái),,這就是計(jì)算機(jī)視覺(jué)幾十年的難題,二維到三維的挑戰(zhàn),。

  如果有三維物體,,看一下這個(gè)物體上面任何一個(gè)點(diǎn),投在圖像上某個(gè)位置,,這是非常容易的事情,,高中生都能做的數(shù)學(xué)公式來(lái)計(jì)算它。反過(guò)來(lái),,如果不告訴你這個(gè)物體在哪里,,只有一張圖像和一個(gè)像素,我問(wèn)你,,這個(gè)像素在空間中的什么位置,,這就屬于病態(tài)問(wèn)題或者ill-posed問(wèn)題。我可以在空間中任意一個(gè)移動(dòng)物體上,,把這個(gè)物體投到對(duì)應(yīng)的圖像位置上,,等于我們有三個(gè)未知數(shù)要求,但是只有兩個(gè)方程,,大家都不知道怎么做這個(gè)事情,。

  圍繞這個(gè)難題,我們有三代技術(shù)方案,,大概代表了整個(gè)自動(dòng)駕駛行業(yè)用純視覺(jué)解決自動(dòng)駕駛?cè)S問(wèn)題的過(guò)程,。第一個(gè)過(guò)程,從2019年開(kāi)始,,意識(shí)到激光雷達(dá)和視覺(jué)放在一起的時(shí)候,,為什么視覺(jué)發(fā)展不了?工程師還是會(huì)用身體投票,,他在巨大業(yè)績(jī)壓力下會(huì)選擇做簡(jiǎn)單的事情,,會(huì)選擇用激光雷達(dá)解bug,,沒(méi)有人愿意花這么多精力死磕視覺(jué)方案。當(dāng)時(shí)我們做了一個(gè)決定,,把激光雷達(dá)拿掉,,定了同樣的業(yè)務(wù)目標(biāo),讓做視覺(jué)的算法同學(xué)死磕這類問(wèn)題,。當(dāng)時(shí)我們用的方案,,左邊是多個(gè)相機(jī)不同視角的輸入,,每個(gè)相機(jī)或者幾個(gè)相機(jī)之間會(huì)分享DNN深度學(xué)習(xí)的網(wǎng)絡(luò),,每個(gè)網(wǎng)絡(luò)做的是從單一視角,從二維到三維的恢復(fù),,這樣的任務(wù),。每個(gè)網(wǎng)絡(luò)把它看到東西匯報(bào)出來(lái)之后,首先在時(shí)序上對(duì)單相機(jī)做障礙物的跟蹤,,是基于規(guī)則,。再往后還要做一步,把多路相機(jī)感知到的東西做拼接,,拼到無(wú)人車統(tǒng)一的坐標(biāo)系下,,不然會(huì)有很多重復(fù),無(wú)人車就沒(méi)有辦法走,。這兩步后面都是基于規(guī)則的,,雖然當(dāng)時(shí)的效果還不錯(cuò),但是調(diào)到后面發(fā)現(xiàn)很難調(diào),,數(shù)據(jù)能解決的只在第一部分,,后面還有很多要依靠假設(shè),依靠多樣的參數(shù),,依靠經(jīng)驗(yàn),,依靠專家系統(tǒng)調(diào)的東西。這個(gè)路走不了那么遠(yuǎn),。

  2022年,,我們果斷的做了一次大的升級(jí),也是用當(dāng)時(shí)比較流行的BEV解決問(wèn)題,,最大的變化把DNN變成Transformer,,Transformer和DNN有什么區(qū)別?我試圖用一個(gè)大家比較能容易理解的方式來(lái)說(shuō)這個(gè)事情,,不是Deep Learning (DNN是Deep Learning深度學(xué)習(xí)的基礎(chǔ)模型之一)不能做BEV,,其實(shí)也能做,但是做不到Transformer這么好,,Transformer提供了一個(gè)能力是學(xué)習(xí)三維,,我們把三維做約定,畫(huà)一個(gè)網(wǎng)格,每個(gè)網(wǎng)格能學(xué)習(xí)到各個(gè)圖像上怎么樣聚合圖像上的信息,,再把這個(gè)信息在三維網(wǎng)格上提取出我們感興趣的東西,。到這一步,我們用Transformer+BEV的方式,,左邊原來(lái)是每一個(gè)相機(jī)同一時(shí)刻的輸入,,現(xiàn)在每一個(gè)時(shí)刻都是時(shí)序上,從時(shí)刻T到T-N倒推,,比如N幀,,每一刻都是環(huán)視一圈數(shù)據(jù)進(jìn)來(lái),進(jìn)到這個(gè)網(wǎng)絡(luò),,基本沒(méi)有什么規(guī)則和后處理,,全是端到端直接輸出障礙物,并且在結(jié)果上增加了除了2D框,,我們?cè)黾恿祟A(yù)測(cè)任務(wù),,這個(gè)框物體未來(lái)幾秒未來(lái)的走向和趨勢(shì)是什么。這一步升級(jí)之后,,這是1.1SOP版本的方案,,整體就非常有信心,可以用純視覺(jué)代替激光雷達(dá)做障礙物檢測(cè),,這個(gè)方法上有一定缺陷,,少一張視覺(jué)拼圖,因?yàn)樗鼘?duì)檢測(cè)可以用框來(lái)表達(dá)的東西還是很擅長(zhǎng)的,,但是有些東西是沒(méi)有辦法用框表達(dá),,比如延續(xù)很長(zhǎng)的柵欄,或者擺放無(wú)序的施工的土包,、圍擋都不太容易用框來(lái)表達(dá),。要徹底的趕超激光雷達(dá),我們2024年完成第三步升級(jí),,這是BEV+OCC+Transformer多任務(wù)統(tǒng)一的網(wǎng)絡(luò),,這個(gè)網(wǎng)絡(luò)跟剛才相比,我們加了3D的Transformer,,我們把多個(gè)任務(wù)放在一塊學(xué)習(xí),,右邊除了幾何,整個(gè)三維世界里的位置,、深度,、高度信息,還有語(yǔ)義信息,,這個(gè)東西到底代表什么,,是路邊遮擋還是車輛,,我們會(huì)自動(dòng)的把這些幾何信息和語(yǔ)義信息聚合在一起,輸出三維信息框也好,,或者OCC也好,。

  還有我們?cè)谘械墓δ埽乱话嫦M粕先?,整個(gè)跟蹤和預(yù)測(cè)都可以通過(guò)直接學(xué)習(xí)來(lái)做,,包括速度預(yù)估,原來(lái)還需要做速度差分,,幾幀之間的障礙物,,用數(shù)學(xué)公式算速度,這個(gè)速度很難收斂,,現(xiàn)在通過(guò)大量的數(shù)據(jù),,可以把速度和未來(lái)運(yùn)動(dòng)趨勢(shì)都做學(xué)習(xí),,第四步還在研,,這是我們完整的輸出,Vision Takes AII的愿景理念,,這基本涵蓋所有我們做無(wú)人駕駛相關(guān)的感知任務(wù),,從檢測(cè),動(dòng)態(tài)障礙物檢測(cè),、靜態(tài)障礙物檢測(cè)到場(chǎng)景語(yǔ)義理解解讀,,到時(shí)序的跟蹤、運(yùn)動(dòng)估計(jì),,全都可以用這樣一套架構(gòu)做統(tǒng)一,,未來(lái)迭代速度會(huì)更快。

純視覺(jué)方案是不是非常降本的方法,?

  介紹完這一部分的技術(shù)之后,,第二個(gè)問(wèn)題跟大家探討一下,有很多人問(wèn),,你們純視覺(jué)方案是不是非常降本的方法,,這個(gè)問(wèn)題怎么看?其實(shí)不是的,,大家看到的是車上少了幾千塊錢(qián)的BOM成本(如激光雷達(dá)等),,用戶買車價(jià)格下來(lái)了,但是在看不到的背后,,是極越和百度做這套純視覺(jué)方案的投入,,天平的左邊是車上傳感器的成本,這部分最直接的獲益者是極越車主可以花更少的錢(qián)去體驗(yàn)高階智駕產(chǎn)品,。

  大家會(huì)想圖像沒(méi)有3D,,怎么把三維信息學(xué)出來(lái),,現(xiàn)在激光雷達(dá)廠商生產(chǎn)最好的激光雷達(dá)我們都搭載到采集車上,我通過(guò)采集車上學(xué)2D,、3D聯(lián)合的標(biāo)注,,把激光雷達(dá)能力通過(guò)這個(gè)過(guò)程融入到純視覺(jué)系統(tǒng)里。一開(kāi)始用的是百度Robotaxi超過(guò)六千萬(wàn)公里訓(xùn)練的數(shù)據(jù),,積累的數(shù)據(jù),,都是全量落盤(pán),各種場(chǎng)景,,幾十個(gè)城市的數(shù)據(jù),,作為熱啟動(dòng)。這么多信息,,要訓(xùn)練充分,,背后需要很多算力,目前投入到跟極越項(xiàng)目上的卡數(shù)超過(guò)五千張(A100或A800這樣的大算力顯卡),,每周級(jí)別做迭代,。

  第三點(diǎn),自動(dòng)化生產(chǎn)數(shù)據(jù),,數(shù)據(jù)不是標(biāo)注的嗎,,找人標(biāo)就行了,到了BEV時(shí)代,,我們又是時(shí)序,,又是環(huán)視,又是多任務(wù),,人已經(jīng)搞不清楚了,,不像當(dāng)年在2D圖像上標(biāo)框這么簡(jiǎn)單,人沒(méi)法搞定,,人可以做后續(xù)質(zhì)檢,,但是整個(gè)生產(chǎn)流程是非常復(fù)雜的過(guò)程,有時(shí)候我們看系統(tǒng)覺(jué)得,,感覺(jué)和光刻機(jī)的感覺(jué)比較像,,投入非常大,做產(chǎn)線,,把網(wǎng)絡(luò)需要訓(xùn)練的數(shù)據(jù),,自動(dòng)化的生產(chǎn)出來(lái),是很有技術(shù)含量的過(guò)程,,這里我們跟百度內(nèi)部溝通,,內(nèi)部協(xié)同和研究院,用170億參數(shù)的視覺(jué)大模型,,當(dāng)然170億參數(shù)用了MOE的架構(gòu),,訓(xùn)練的時(shí)候?qū)嶋H推理時(shí)間跟6億參數(shù)模型是一樣的,,不會(huì)花那么久的時(shí)間幫我們做輔助標(biāo)注。另外自動(dòng)化產(chǎn)線,,搭建下來(lái),,日均產(chǎn)能可以做到百萬(wàn)幀圖像,最后高質(zhì)量標(biāo)注數(shù)據(jù)用于BEV+OCC聯(lián)合訓(xùn)練的精標(biāo)數(shù)據(jù)超過(guò)上億幀,,這是大家看不見(jiàn)的背后投入,。

  高精度自動(dòng)化多任務(wù)共享的BEV+OCC訓(xùn)練數(shù)據(jù)的生成過(guò)程,首先我們有采集車,,采集車上搭載了先進(jìn)的激光雷達(dá)以及和極越配置近乎一樣或者完全一樣的攝像頭,,上面還有一幀是點(diǎn)云直接采回來(lái),大家如果直接看點(diǎn)云,,顯然不太能用,,它還是比較離散,下面是自動(dòng)化標(biāo)注出來(lái)的供網(wǎng)絡(luò)學(xué)習(xí)的真實(shí)數(shù)據(jù),,里面不止有語(yǔ)義,,還有結(jié)構(gòu)化信息,以及更重要的是非常準(zhǔn)確的像雕刻過(guò)一樣的3D的感覺(jué),,需要用很多步驟,,來(lái)回用大模型刷,用各種專家系統(tǒng),,雖然是離線(沒(méi)有那么高的實(shí)時(shí)要求),把專家系統(tǒng)做的非常細(xì)致,,點(diǎn)云采集的車,,左邊灰色的圖還是看不清楚的,偶爾看到三輛車,,但是中間橙色真實(shí)數(shù)據(jù)已經(jīng)把車的形狀雕刻的非常精細(xì),,這里需要對(duì)車輛離線進(jìn)行跟蹤,把點(diǎn)云拼接到同一個(gè)時(shí)刻,,讓點(diǎn)云的密度增加之后,,再在空間上做雕刻。這里可以看到雕刻之后的車,,精度已經(jīng)到厘米級(jí),。右邊路沿,每個(gè)車掃過(guò)去的時(shí)候只能有幾個(gè)點(diǎn)打在路沿上,,非常稀疏,。通過(guò)后處理以及視覺(jué)與大模型的分類,我們已經(jīng)可以把路沿很精細(xì)的刻畫(huà)出來(lái),,在場(chǎng)景里,,把高低起伏的地方標(biāo)注出來(lái)?,F(xiàn)在3D精度可以做到厘米級(jí),和激光雷達(dá)一樣,,甚至比激光雷達(dá)還好一點(diǎn),,分類接近一百類不一樣的東西,可以在上面通過(guò)視覺(jué)大模型打標(biāo)簽,,做自動(dòng)化的分類,。整個(gè)速度的估計(jì),視頻里是連續(xù)的視頻流,,整個(gè)車輛速度,,障礙物運(yùn)動(dòng)速度的精度可以做到0.1米/秒的誤差,是非常高質(zhì)量的產(chǎn)線,。

  媒體:第一個(gè)問(wèn)題,,有一個(gè)跟車機(jī)功能相關(guān)的點(diǎn),我那臺(tái)車更新完了,,在切換賬號(hào)的時(shí)候,,需要在APP上確認(rèn),沒(méi)有直接在車機(jī)里直接切換賬號(hào)就行了,,這是多余的步驟,。此外,QQ音樂(lè)播放的時(shí)候經(jīng)常無(wú)原因斷開(kāi),,一首歌3分鐘的歌有四五次斷,,播放就斷,斷了又回來(lái),。希望后續(xù)進(jìn)一步優(yōu)化,。

  第二個(gè)跟智駕相關(guān),請(qǐng)教一下王亮博士,,現(xiàn)在極越智駕基礎(chǔ)能力,,方向盤(pán)抖動(dòng)特別嚴(yán)重,尤其在LCC過(guò)程中,,它抖動(dòng)的原因是什么,?比如我在開(kāi)小鵬或者蔚來(lái),在車道保持有些偏移的時(shí)候會(huì)修正回來(lái),,在路況非常好的情況下極越方向盤(pán)抖動(dòng)特別嚴(yán)重,,把手放在上面一直在抖也不知道它在修正什么?

  王亮:這個(gè)問(wèn)題我們意識(shí)到了,,您體驗(yàn)是不是1.1的版本,。

  媒體:1.3版本。

  潘云鵬:關(guān)于方向盤(pán)修正問(wèn)題,,1.3.0做了優(yōu)化,,另外方向盤(pán)如果是U型方向盤(pán),,因?yàn)槭瞧降模瑫?huì)加重方向盤(pán)左右感受,,我們會(huì)持續(xù)優(yōu)化,,這不是什么太難的事情。關(guān)于賬號(hào)切換的問(wèn)題,,是不是因?yàn)榫W(wǎng)絡(luò)原因,,在高速上?

  媒體:不是,。不可能在全國(guó)各地都有網(wǎng)絡(luò),,我在上海有,在青島有,,我在黃州有,。我那臺(tái)車經(jīng)常登錄自己賬號(hào),用幾天之后,,再用,,發(fā)現(xiàn)它又重新掃賬號(hào),退出了,。車主賬號(hào)一直沒(méi)有切換過(guò),。

  潘云鵬:二位的問(wèn)題我們記一下,除了網(wǎng)絡(luò)以外,,QQ斷流顯然是不正常的,。

  媒體:其次問(wèn)一下,輕圖(音)版本大概在什么時(shí)候上,?

  潘云鵬:輕圖剛才已經(jīng)劇透了,,200城,今年肯定會(huì)在上半年,,爭(zhēng)取做一些提前的體驗(yàn)出來(lái)。要開(kāi)200城的話,,在未來(lái)一到兩個(gè)季度有比較大的變化,。

  王亮:200城是年度OKR。

  媒體:王亮博士,,現(xiàn)在大模型的更新,,比如OCC以后對(duì)通用障礙物識(shí)別肯定更廣泛能力更強(qiáng),現(xiàn)在我們大模型一次更新迭代的節(jié)奏是多長(zhǎng),?

  王亮:我們有預(yù)訓(xùn)練的過(guò)程,,迭代一般可以用新的數(shù)據(jù),對(duì)問(wèn)題數(shù)據(jù)進(jìn)行小的優(yōu)化,,一般小優(yōu)化比較快,,一周左右,,不到一周,很快測(cè)試出不同的版本的結(jié)果,。刷一次大的,,大概在一周到兩周之間,可以把車端幾千萬(wàn)的參數(shù)模型重新刷一遍,,這還是比較敏捷,,但是模型的刷,要包含線下測(cè)試,、線上路上識(shí)路測(cè)試等,,我們做的還是比較謹(jǐn)慎一些,擔(dān)心有離線測(cè)不出來(lái)的情況,。所以大家感受上,,模型發(fā)版沒(méi)有那么快,這個(gè)點(diǎn)是后續(xù)我們要進(jìn)一步探討的,。我們會(huì)把模型驗(yàn)證做的更加充分,,離線研究做的更充分,能讓用戶更高頻更敏捷感受到大模型的迭代,。

  媒體:最后一個(gè)問(wèn)題,,剛才講到現(xiàn)在正在開(kāi)放下一代模型,一直在看特斯拉做,,他是把車和機(jī)器人算法一塊做?,F(xiàn)在從BEV到Transformer到OCC是行業(yè)通識(shí)的,下一代在這里面,,會(huì)不會(huì)是研發(fā)方向,,這里是不是可以把端到端的東西往里做。

極越汽車機(jī)器人進(jìn)化日Workshop速記

  王亮:特斯拉內(nèi)部應(yīng)該叫V12推送,,在北美已經(jīng)推送給內(nèi)部員工了,,我們看到了視頻,有說(shuō)好,,有說(shuō)不好的,,整體是大的趨勢(shì)。從圖像直接到車控制,,可以看成兩個(gè)大網(wǎng)絡(luò)任務(wù),,純視覺(jué),針對(duì)感知,,檢測(cè),、跟蹤、語(yǔ)義理解、建圖在一起,,它的變化是不再直接輸出人能感覺(jué)到的,、可視化的障礙物,而是把BEV的特征直接傳遞到下游決策規(guī)劃,,決策規(guī)劃也是做成網(wǎng)絡(luò)直接學(xué)好的駕駛員的行為和軌跡,。不過(guò)這里有大的不確定性。首先需要多少數(shù)據(jù),,不好回答,,網(wǎng)絡(luò)要變得很大。另外,,駕駛還是要保持穩(wěn)定,,網(wǎng)絡(luò)是不是能保證也是一個(gè)問(wèn)題。特斯拉走的比較靠前,,很多做智駕團(tuán)隊(duì)也在做嘗試,、預(yù)演,然后像前幾年BEV+Transformer一樣,,各種論文,,各種新的點(diǎn)子層出不窮。我們比較堅(jiān)持能做出來(lái),,能落地的功能,,我們內(nèi)部也有這方面的布局,當(dāng)然什么時(shí)間在極越車上落地,,什么場(chǎng)景釋放,,還得等一段時(shí)間,我們?cè)俑襟w朋友,,跟車主做交流,,大家相信,這應(yīng)該是未來(lái)更好的讓車開(kāi)的車更智能的大方向,,這個(gè)過(guò)程可能也要把整個(gè)決策規(guī)劃進(jìn)行重構(gòu),,類似AI原生思維。

  媒體:OCC非常大,,特斯拉推AEB性能有了很豐富的改進(jìn),,速度區(qū)間,從以前8-150可以支持到5-200,,下限5公里,上限200公里,,橫穿障礙物,,在過(guò)去用框不那么容易標(biāo)定的,不知道技術(shù)原理的,這些特斯拉明確說(shuō)了用OCC解決,。還有明確說(shuō)了基于通用障礙物的AEB,,也是用OCC實(shí)現(xiàn)的。同時(shí),,2023年,,尤其下半年比較重要的趨勢(shì),國(guó)內(nèi)在卷AEB,,我們OCC是不是接下來(lái)有規(guī)劃強(qiáng)化極越主動(dòng)安全能力,?

  王亮:肯定有的,原來(lái)車上有很多不同的網(wǎng)絡(luò),,做不同的任務(wù),,AEB有自己的網(wǎng)絡(luò),以后趨勢(shì)一定是,,從通用Vision Takes All的理念上輸出,,下游各方的應(yīng)用,都要做,,這里不止是感知,,把它做出來(lái)了,上去了,,下面都可以用了,,下面還是決策規(guī)劃等等要做一定適配,特別AEB需要大量測(cè)試的,,這個(gè)是要做,,但是有一定排期。特斯拉做的時(shí)間比我們長(zhǎng)一點(diǎn),,我們還有需要進(jìn)一步提升的,,比如視距提升。OCC在世界坐標(biāo)系畫(huà)一個(gè)格子,,這個(gè)格子畫(huà)多大,,分辨率多少,每個(gè)格子是1米×1米,,還是10厘米×10厘米這個(gè)決定你能看多遠(yuǎn),,做到多精細(xì),這個(gè)還有逐步工程化模型調(diào)優(yōu),,整個(gè)模型加速的過(guò)程,,我們會(huì)朝這個(gè)方向努力。在后面幾個(gè)版本,,你能感受到OCC變化,。要做到高速上200公里AEB,,首先看得遠(yuǎn),這個(gè)BEV和OCC都要努力夠,,做模型優(yōu)化,。BEV的橫向障礙物識(shí)別,包括自動(dòng)學(xué)習(xí)速度預(yù)測(cè),,應(yīng)該能給橫向AEB受益的,。

  媒體:高算力訓(xùn)練集群大于五千卡,國(guó)內(nèi)大家說(shuō)的比較具體,,是多少EFLOPS(音),極越是多少,?

  王亮:大家可以折算一下,,這個(gè)不難算,基本是A100,、A800高算力的卡,。

  媒體:去年CVPR上特斯拉簡(jiǎn)單帶了一點(diǎn)點(diǎn)關(guān)于世界模型的內(nèi)容,,這可能是在OCC之后,下一個(gè)比較熱的東西,,或者反過(guò)來(lái)說(shuō)光有OCC不足以支撐智能駕駛,它是一個(gè)階段性的終點(diǎn),。您對(duì)世界模型的看法,它有一個(gè)比較可供落地的技術(shù)路徑嗎,,我們?cè)诟L(zhǎng)周期里有規(guī)劃嗎?

  王亮:關(guān)于世界模型,,我們暫時(shí)沒(méi)有那么多的精力投入研究它,,我大概看了一些,包括百度Apollo內(nèi)部有偏前瞻研究的部門(mén)也在看,,我看到新技術(shù)很興奮,但是怎么和自動(dòng)駕駛很密切的結(jié)合,,能讓用戶感受到明顯的變化,,這個(gè)事情我沒(méi)有看那么清楚。端到端我有一些研究,,我會(huì)看一下特斯拉,V12多多少少做出來(lái)了,,這個(gè)方向上可落地性,不能說(shuō)一點(diǎn)問(wèn)題沒(méi)有,,相信是肯定能做出來(lái)的。

  媒體:最后關(guān)于OCC的問(wèn)題,,有一些車會(huì)有白名單,,可以把視覺(jué)用提速解構(gòu)。極越是沒(méi)有白名單,,還是會(huì)有一些東西?你能看到它,,或者OCC可以標(biāo)注出來(lái),,但是不確定是好的,你依然分辨不出來(lái)是什么樣的障礙物,,有可能一個(gè)塑料袋也是標(biāo)注出來(lái),我們策略上是有白名單還是沒(méi)有白名單,,所有策略有減速或者繞行。

  王亮:我們標(biāo)了近一百類的東西,,這不是只有這一百類,肯定有某一類就叫其他,,從OCC設(shè)計(jì)理念上肯定追求的就是去白名單化,,希望可以涌現(xiàn)障礙物識(shí)別或者通行空間識(shí)別的能力,,是它的本質(zhì),,現(xiàn)在釋放的肯定是學(xué)的比較充分的,,有比較充分的數(shù)據(jù)積累,會(huì)一步步的向用戶推送感受?,F(xiàn)在雖然模型不是這么設(shè)計(jì),,但是使用上會(huì)有這種感覺(jué),這是跟產(chǎn)品化結(jié)合過(guò)程中的策略,,為了保證大家的體驗(yàn)。OCC上車并不容易,,其實(shí)它特別難,,因?yàn)樗鼤r(shí)時(shí)刻刻都在生效,但是被你碰到解決問(wèn)題的那個(gè),,可能是小概率事件,可能很多人沒(méi)有遇到過(guò),。實(shí)時(shí)生效副作用是什么?跟AEB比較像,,它檢測(cè)不準(zhǔn),,有時(shí)候有莫名減速而讓用戶不爽,所以我們要把這個(gè)東西調(diào)的特別好,,逐步的釋放,。在很長(zhǎng)的分類名單里,,你能感受到穩(wěn)定的障礙物,,應(yīng)該會(huì)有逐步爬坡的過(guò)程。但它設(shè)計(jì)初衷不是做白名單,肯定提升對(duì)通用的障礙物識(shí)別的能力,。

  媒體:我們看特斯拉自己分享,包括我們跟國(guó)內(nèi)其他品牌交流,,大家普遍覺(jué)得要做OCC需要非常海量數(shù)據(jù),我們前面PPT說(shuō)了,,百度Robotaxi本身賦能一部分,我們積累下來(lái)的所有Robotaxi積累下來(lái)的數(shù)據(jù)都可以復(fù)用嗎,,如果不是,我們從哪個(gè)階段,,我們實(shí)現(xiàn)OCC落地不過(guò)多的依賴極越車隊(duì),,而是依賴L4事業(yè)部數(shù)據(jù)解決。

  王亮:數(shù)據(jù)從哪兒來(lái),?這個(gè)事情大家如果看百度,是有一定的優(yōu)勢(shì),,比如量產(chǎn)車極越,,可能其他新勢(shì)力也有,。這些數(shù)據(jù)既可以通過(guò)把車再武裝一些高價(jià)傳感器來(lái)收集,比如激光雷達(dá),,也可以攢個(gè)車隊(duì)去收集。百度有兩個(gè)東西是有差異化競(jìng)爭(zhēng)力的,,我們有近千輛的Robotaxi在全國(guó)十多個(gè)城市運(yùn)營(yíng),每天除了一些時(shí)段沒(méi)有需求不做,,其他都在做,,這部分搭載比較好的傳感器,高精地圖等等,,它可以貢獻(xiàn)數(shù)據(jù),而且這個(gè)數(shù)據(jù)不是走流量,,有一個(gè)比較大的盤(pán),這是我們自己運(yùn)營(yíng)的車,,存儲(chǔ)的數(shù)據(jù)比較全,,可以像圖書(shū)館一樣,你想要什么索引就好了,,把它拉出來(lái)。另一個(gè)差異化是,,我們有百度地圖,百度地圖會(huì)往全國(guó)各地撒出很多的采集車,,采集車也是有攝像頭,、激光雷達(dá)去制高精地圖、SD地圖,這個(gè)數(shù)據(jù)跟我們開(kāi)城層面或者OCC很好的協(xié)同,。我們跑的城市,,地圖在幾個(gè)月之前已經(jīng)跑過(guò)一遍,而且這個(gè)數(shù)據(jù)也是全量落得,。

  媒體:地圖采集數(shù)也是像圖書(shū)館索引一樣調(diào)?。?/p>

  王亮:而且比RT覆蓋更好,,RT是在限定區(qū)域跑很久,,基本上把區(qū)域吃的比較透。地圖的車跟我們開(kāi)城是強(qiáng)綁定的,,像先頭部隊(duì)一樣,基本把每一寸道路丈量之后,,數(shù)據(jù)采回來(lái),我們可以用這個(gè)數(shù)據(jù)做我們網(wǎng)絡(luò),。我們做的算比較快,,極越不是第一個(gè)做電動(dòng)車,,我們不是第一個(gè)做智駕產(chǎn)品,,我們的速度可以看到,基本做到什么事情說(shuō)到做到,,按時(shí)交付,、快速迭代,,這跟百度自己內(nèi)部數(shù)據(jù)儲(chǔ)備,,自身的優(yōu)勢(shì)是有關(guān)系的,。這四者都有,而且極越的車日后會(huì)發(fā)揮越來(lái)越大的作用,。百度的特殊車輛,包括還會(huì)有一些特殊的能力,,我們需要在極越車上再加裝一些很高端的東西,還是用這個(gè)邏輯,,把高端傳感器的能力學(xué)到攝像頭上,,不斷的重復(fù)這個(gè)過(guò)程,我們純視覺(jué)能力可以媲美激光雷達(dá),,這是我們遲早會(huì)做到的一件事情,。

  媒體:我有一些關(guān)于座艙和車機(jī)、智能駕駛方面的疑問(wèn),,第一個(gè),,文心一言4.0版本上線之后,,它的交流能力和獲取信息能力非常強(qiáng),,它的使用場(chǎng)景僅限在座艙里,它得到的結(jié)果能不能和手機(jī)APP有更好的連接,,比如用戶可以通過(guò)手機(jī)APP看到你跟文心一言交流的內(nèi)容,包括它幫你解決的問(wèn)題,,可以用回答的方式體現(xiàn)在APP里?

  第二個(gè)問(wèn)題,,在極越01首發(fā)新車有補(bǔ)盲功能,補(bǔ)盲功能是開(kāi)車門(mén)盲區(qū)監(jiān)測(cè),,現(xiàn)在1.3.1上了打燈的盲區(qū),但是盲區(qū)畫(huà)面還是小,,它本身來(lái)說(shuō)整個(gè)車機(jī)屏幕是非常大的,。

  第三個(gè)問(wèn)題,極越01車機(jī)風(fēng)格是太冷了,,太像機(jī)器人了,百度地圖是有很多好玩的功能,,有很多語(yǔ)音包,,還有其他百度功能特有的,這個(gè)功能能不能上線到極越01車上,。這個(gè)應(yīng)該是吉利系造車問(wèn)題,電門(mén)總感覺(jué)有延遲,。單踏板高電量和低電量下的標(biāo)定不統(tǒng)一,。

  極越01自動(dòng)泊車做的很牛,,為什么在解安全帶后會(huì)自動(dòng)停止,甚至它沒(méi)有更好的提示,。

  最后一個(gè)問(wèn)題,,關(guān)于輕圖覆蓋問(wèn)題,輕圖覆蓋需要一段時(shí)間,,在輕圖覆蓋之前,,對(duì)于基礎(chǔ)LCC的功能上有沒(méi)有提升?比如很多其他友商做的識(shí)別紅綠燈,、穿過(guò)無(wú)標(biāo)簽的路口,,提升它基礎(chǔ)LCC的能力。

  王亮:輕圖希望下次有分享,,剛才還有一個(gè)能力沒(méi)有寫(xiě),,視覺(jué)建圖能力,我們也會(huì)有一版大的迭代,是整個(gè)原理上的改變,,這個(gè)東西上了之后,,替換掉現(xiàn)在LCC使用的車道線檢測(cè),輕圖做無(wú)圖紅綠燈,,這是順帶的,,ACC/LCC能力肯定是可以讓輕圖方案受益的,我們是一套感知的中央的服務(wù),,服務(wù)各個(gè)應(yīng)用,,所以肯定會(huì)做。

  潘云鵬:現(xiàn)在圖做的比較好的百度,、高德,,在地圖這件事情上,輕圖挺快的,,可能比大家想象的快,,整個(gè)百度地圖所覆蓋到的輕圖制成的范圍,,比大家想象的都要快,。

  關(guān)于盲區(qū)畫(huà)面的問(wèn)題,,1.3.1會(huì)變大,,我們也意識(shí)到它太小,后面會(huì)優(yōu)化,,會(huì)和你看后視鏡的感覺(jué)是類似的,。

  關(guān)于文心一言的問(wèn)題,我們有兩個(gè)比較大的思考,,后面做大模型本地化的支持,,這次文心一言原聲支持只是起點(diǎn),代表了我們?cè)谧摰乃伎?,剛才你提到手圖上V19開(kāi)始的大模型的集成,,這后面肯定很快,我們畢竟是在基于大模型作為OS去嫁接文心一言,、地圖,,或者別的多媒體應(yīng)用。我們肯定可以把文心一言數(shù)據(jù)導(dǎo)出來(lái)的,。

  電門(mén)問(wèn)題,,我不是特別專業(yè),我也是遇到充滿電之后,,會(huì)更活躍,,動(dòng)力變得更好,相反電力匱乏的時(shí)候變得稍微差一點(diǎn),,總體而言這是留給更專業(yè)的同事解答,。

  媒體:第二個(gè)問(wèn)題,去年有一段時(shí)間,,包括從極越開(kāi)始,,開(kāi)始說(shuō)純視覺(jué)路線,但我注意到去年年末今年年初,,大家又把激光雷達(dá)提出來(lái),可能因?yàn)槿ツ?1月份L3相關(guān)規(guī)范下發(fā)了,,現(xiàn)在行業(yè)有一種探討或者說(shuō)法,,如果后面做到L3級(jí)別,可能需要用到激光雷達(dá)做冗余傳感器,,我可能要實(shí)現(xiàn)特殊路段脫眼脫手,,如果做純視覺(jué)OCC路線,這塊我們?cè)趺纯紤]的,?還是以后L3標(biāo)準(zhǔn)車型也會(huì)再加一些不一定是激光雷達(dá),,是不是加一些其他的傳感器作為冗余,?

  王亮:傳感器分兩種,一種是被動(dòng)光,,像攝像頭,,跟人眼成像原理比較一致。還有主動(dòng)光,,激光雷達(dá),,現(xiàn)在還有毫米波能起到主動(dòng)光測(cè)距,作為冗余的作用,。我部門(mén)是做智駕解決方案,,目前還沒(méi)有收到非常明確的需求,以我目前的認(rèn)知感覺(jué),,現(xiàn)在做的脫手還是要求大家關(guān)注路況,,做到脫眼脫手需要加一定的冗余,這個(gè)冗余是什么原理的傳感器,,還有討論的空間,,但不論什么,視覺(jué)是基礎(chǔ),,其他不能用的那么重,,不然就沒(méi)有替換的可行性。應(yīng)該是在很強(qiáng)的視覺(jué)能力下,,加上主動(dòng)光傳感器是比較好的,。

  媒體:今年我們看到行業(yè)里在提無(wú)高清地圖的概念,我們?cè)囻{很多車型,,從體驗(yàn)的角度來(lái)看,,如果是有圖,有高清,,數(shù)據(jù)不錯(cuò)的情況下,,整體體驗(yàn)是一定會(huì)比輕圖或無(wú)圖好,我們要解決泛化問(wèn)題,,大家都在走這條路線,,我特別好奇,極越,,包括百度在地圖上有自己的優(yōu)勢(shì),,如果你們做輕圖,你們會(huì)傾向于用什么樣的方式,?我們知道現(xiàn)在行業(yè)有兩種方式,,一種是通過(guò)用戶車隊(duì)方式提前對(duì)于路線進(jìn)行先驗(yàn)的方式。還有通過(guò)模型的方式,,不停的在云端訓(xùn)練路口的模型,,看過(guò)很多路口,,大概這個(gè)路口就會(huì)走了。我們大概用什么樣的路線,?還是自己的優(yōu)勢(shì)的路線,?

  王亮:從本質(zhì)上,像極越這樣定位的車型車企,,追求的是最好用戶體驗(yàn)的,,還是要做到隨時(shí)隨地。現(xiàn)在有一種叫通勤模式,。我個(gè)人感覺(jué),,極越明年可能有一些主流大的城市都會(huì)有比較多的店,當(dāng)然會(huì)有用戶在沒(méi)有極越的店的情況下買到車,,我們也要支持,。這是增加用戶滲透率的有效方式,這是我們?cè)诋a(chǎn)品功能上的支持,。在技術(shù)方案上我們要做到泛化,,我們要看過(guò)足夠多的路口,甚至利用百度地圖優(yōu)勢(shì),,我們肯定有別人沒(méi)有的東西,,內(nèi)部給我們的數(shù)據(jù)和接口,我們會(huì)有人無(wú)我有的差異化的競(jìng)爭(zhēng)力,,肯定要做到極越鋪墊的主流城市里,,做到哪里都能用。

  潘云鵬:這里涉及到兩個(gè)不同的方法,,我們能夠冷啟動(dòng),,基本買到之后就能用,因?yàn)槲覀冇械貓D上面的長(zhǎng)期的積累,,因此在大部分的地區(qū),,在主要銷售地區(qū)都會(huì)以這種方式完成這個(gè)任務(wù)。中國(guó)比較大,,在一些特別相對(duì)而言沒(méi)有辦法覆蓋到的場(chǎng)景下,,總體而言,我們還是追求冷啟動(dòng),,追求從A點(diǎn)到B點(diǎn)PPA的體驗(yàn),。(編譯/汽車之姚宇)

查看同類文章:
電動(dòng)車車聞
智能網(wǎng)聯(lián)
車輛OTA資
更多精彩內(nèi)容:
新車現(xiàn)已到店
>>車聞-快速真實(shí)的報(bào)道 深入犀利的點(diǎn)評(píng)<<
不容錯(cuò)過(guò)