當(dāng)時(shí)卞金鱗剛做完技術(shù)路徑的匯報(bào),就聽到了一個(gè)聲音。
“卞總,”陳默的聲音不高,卻清晰地回蕩在寂靜的會(huì)議室里,他的目光落在卞金麟身上。
“剛才你們匯報(bào)的感知融合方案,核心是不是還在沿用‘前融合+后融合’的傳統(tǒng)架構(gòu)?
激光雷達(dá)點(diǎn)云、攝像頭像素、毫米波雷達(dá)目標(biāo),先各自做目標(biāo)識(shí)別和軌跡預(yù)測(cè),然后再進(jìn)行時(shí)間戳同步和決策層融合?”
卞金麟被問得一愣,下意識(shí)地回答:“是。。。是的,陳總。這是目前行業(yè)主流,也是相對(duì)成熟的方案,特斯拉的HydraNet、小鵬的XPILOT
3。0架構(gòu)都是基于這種思路做優(yōu)化。。?!?/p>
“主流?成熟?”陳默打斷了他,嘴角似乎勾起了一個(gè)極淡的弧度。
他起身走到白板前面,沒有回頭,背對(duì)著所有人,手中的黑色馬克筆已經(jīng)毫不猶豫地落在了白板上。
筆尖劃過光滑的板面,發(fā)出沙沙的輕響。
陳默手腕沉穩(wěn),線條流暢而肯定,沒有絲毫猶豫。
一個(gè)簡(jiǎn)潔卻完全不同于傳統(tǒng)感知架構(gòu)的圖形框架迅速在他筆下成型。
“把攝像頭采集的原始視頻流(Raw
Video),”陳默一邊畫,一邊清晰地說道,聲音不大,卻字字如錘,敲在每個(gè)人的神經(jīng)上,“直接輸入到一個(gè)統(tǒng)一的、基于Transformer架構(gòu)的編碼器(Encoder)?!?/p>
他在白板左側(cè)畫了幾個(gè)代表攝像頭的抽象符號(hào),用箭頭指向一個(gè)代表神經(jīng)網(wǎng)絡(luò)的大方框,在方框里重重寫下了“Transformer
Encoder”。
“在這個(gè)編碼器內(nèi)部,通過強(qiáng)大的注意力機(jī)制(Attention
Mechanism),讓模型自己學(xué)會(huì)在像素級(jí)別上,跨時(shí)間、跨空間、跨攝像頭視角,去建立關(guān)聯(lián),去理解三維空間的結(jié)構(gòu)!
讓AI自己‘看’懂這個(gè)世界的幾何關(guān)系,而不是依賴我們?nèi)斯ゎA(yù)設(shè)的規(guī)則去分割目標(biāo)、匹配特征?!?/p>
隨著筆尖持續(xù)移動(dòng),在白板中央畫出一個(gè)代表三維空間特征(3D
Features)的立體區(qū)域,并標(biāo)注了“BEV
(Birds-Eye-View)
Representation”。
“在模型內(nèi)部,自然生成統(tǒng)一、稠密的鳥瞰圖(BEV)空間表征。