比特斯拉還少1個攝像頭!智能車賽道最隱秘的AI視覺玩家浮現
智能車賽道,藏著一個最隱秘的AI視覺玩家。
(資料圖片僅供參考)
這個玩家尚未官宣任何智能車相關的業務進展,但又在最核心、最前沿、最被渴求的自動駕駛系統能力上屢屢展現競爭力——全球AI頂會冠軍級的統治力。
不僅具體技術上突出,在目標檢測、語義分割、視覺推理等方面有諸多頂會級研究;還拿下多個自動駕駛相關比賽的冠軍,甚至還用7個攝像頭的純視覺方案,完成了高速、城區和泊車環境的自動駕駛。
這個玩家不是特斯拉的AI團隊,這個玩家是曠視科技。
在最近的AI頂會CVPR中,大模型加持下的視覺研究,正在驅動自動駕駛方向的新研究,而曠視研究院,在一眾自動駕駛和智能車玩家參與的競賽中,獲得了考察自動駕駛環境感知能力的冠軍。
AI視覺領域的超級明星,現如今在業務上還沒有與智能車傳出關聯。
但有這樣的技術研究和成果,當真會純出于學術研究?
曠視刷榜了什么自動駕駛比賽?
曠視研究院參加的這個比賽,是CVPR 2023專門面向自動駕駛感知決策系統設立的挑戰賽。
其中OpenLane拓撲關系挑戰賽冠軍,被曠視收入囊中。
挑戰賽一共四個賽道,除了曠視參加的OpenLane拓撲關系挑戰賽(OpenLane Topology),還有在線高精地圖構建挑戰賽(Online HD Map Construction)、三維占據柵格預測挑戰賽(3D Occupancy Prediction)和nuPlan規劃挑戰賽(nuPlan Planning)。
其中,OpenLane拓撲關系賽道主要考察自動駕駛技術理解場景的能力。
賽道要求基于OpenLane-V2(OpenLane-Huawei)數據集,輸入給定環視相機照片,參賽者需要輸出車道中心線和交通元素的感知結果,以及這些元素之間的拓撲關系預測。
也就是說,這個比賽不是考察以往自動駕駛感知中,對車道邊緣線或者交通標志單一的識別能力,而是要求自動駕駛技術可以感知車道中心線,還要能理解車道中心線和交通元素的邏輯關系,比如綠燈亮了,這意味著哪條車道可以通行。
那么如何判定冠軍?OpenLane-V2數據集提供了判定標準:OLS分數(OpenLane-V2 Score),通過計算感知結果和拓撲預測mAP的平均值判定得分。
在34個參賽隊伍中,來自曠視研究院的隊伍得分唯一超過55分,達到分,具有明顯優勢。
那么,曠視用了什么樣的方法?
曠視的自動駕駛純視覺方案
首先感知階段,對于交通元素檢測和車道中心線檢測兩個感知任務,曠視分別采用了兩個不同的模型。
對于交通元素檢測,曠視使用主流2D檢測模型YOLO系列中最新一代YOLOv8作為baseline,相較于其他2D檢測方法YOLO速度更快,性能更準確。
△圖片來源:GitHub用戶RangeKing
再加上比賽使用的數據集OpenLane-V2標注了交通標識和車道的對應關系,曠視在YOLOv8訓練過程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5個trick,通過和前視角圖像交互生成對應交通元素的特征。
對于車道中心線檢測,曠視使用自研PETRv2模型作為baseline。PETRv2提供了一個統一的純視覺3D感知框架,可以用于3D目標檢測和BEV分割。
而在這次比賽中,曠視利用PETRv2從多視角圖像中提取2D特征,以及利用攝像頭截錐空間中生成3D坐標,把2D特征和3D坐標輸入3D位置編碼器。
隨后使用3D位置編碼器給Transformer解碼器生成key和value組件,lane queries再通過全局注意力機制和圖像特征進行交互,生成3D車道中心線檢測成果和對應的車道中心線特征。
而在拓撲關系預測階段,曠視基于YOLOv8和PETRv2搭建了一個多階段的網絡框架,并利用兩個感知任務生成的成果拼接對應特征,再使用兩層MLP預測對應的拓撲關系矩陣。
(圖注:曠視最終在驗證集上的預測結果,包括邊框、類別和置信度)
最后從OLS得分來看,曠視團隊的這套方法在交通元素感知(DETt)、車道線之間拓撲關系預測(TOPll)和車道線與交通元素拓撲關系預測(TOPlt)方面均領先于其他參賽者。
智能車賽道最隱秘的AI視覺玩家
參加這次比賽的,是曠視研究院的MFV(Megvii-Foundation model-Video)團隊。
比賽成果論文一作是吳東明,2019年在北京理工大學徐班取得學士學位,后來繼續在北理攻讀計算機系的博士學位,師從沈建冰教授,在2022年成為曠視研究院的研究實習生。
論文的其他作者也都來自曠視研究院,其中Chang Jiahao畢業于中國科技大,Li Zhuoling畢業于香港大學。
值得一提的是,這次挑戰賽使用的PETRv2模型,還是曠視研究院創始院長孫劍博士去世前,帶領研究團隊發布的學術成果之一。
并且,這也不是曠視唯一的自動駕駛相關研究成果。
除了PETR系列大模型,曠視還發布過BEVDepth檢測模型(可對3D目標實現高精度的深度估計),LargeKernel3D(首次證明大卷積核對3D視覺任務的可行性和必要性),BEVStereo(nuScenes純視覺方案3D目標檢測SOTA)等……都是行業領先級的技術成果。
△BEVStereo模型框架
一直以來,曠視研究院都是曠視AI技術的研發“大腦”,主攻深度學習和計算機視覺方向,也是包括AI生產力平臺Brain++、開源深度學習框架天元MegEngine、移動端高效卷積神經網絡ShuffleNet等成果的誕生地,已經對外發表了超過120篇全球頂會論文;斬獲頂級賽事中冠軍數超過40項,擁有1300余件業務相關專利授權。
而且在區別于純研發或前沿技術預研布局的企業研究院,曠視研究院從一開始就被作為作戰部隊使用,所以曠視研究院的最新成果、瞄準的方向,一般都不會一時興起,或者純為研究而研究。
于是這也是曠視接二連三在自動駕駛、智能車賽道方向上產出頂級成果后,需要關注的地方。
相比老朋友商湯科技,曠視至今沒有官宣任何智能車、自動駕駛業務或合作,而商湯則推出了專門的智能車業務品牌絕影,由聯合創始人王曉剛帶隊,目標要成為商湯的支柱型新增長引擎。
對于智能車和自動駕駛這樣的萬億規模賽道,曠視會始終心如止、按兵不動?不太可能。
更何況從技術研究能力到技術實現水平,都已經通過頂會得到了展現。
以及,曠視研究院還展示過一段自動駕駛預研Demo,僅使用7個攝像頭,就能實現高速公路和城區的自動駕駛,并且還能完成水平、垂直以及側方位停車。
這是什么水平?
作為參考,純視覺王者特斯拉,自動駕駛感知方案最少也需要8個攝像頭。
論文傳送門:
/e2ead/AD23Challenge/Track_1_
關鍵詞:
您可能也感興趣:
為您推薦
麻醉也可治療失眠 但不宜長期使用
臺媒:李玟遺體將被解剖 李玟為何會被解剖遺體
聯合打擊整治!山東省今年已打掉非法社會組織58家
排行
最近更新
- 比特斯拉還少1個攝像頭!智能車賽道最隱秘的AI視覺玩家浮現
- 一夜10大轉會動態:奧納納接近加盟曼聯,米蘭即將簽下普利西奇
- 人壽學生保險查詢怎么查?保險保障有哪些?
- 怎么統計的?馬卡記者:姆巴佩今年來皇馬的概率為97%
- 上樹ESPN:姆巴佩認為不得不離隊&皇馬已備好一切,總價超2億歐
- 澤塔奧特曼最終話劇透圖搶先看女主洋子平安無事遙輝有危險
- 向云端,扎西次仁和他的背包
- 商務部:投資便利化協定將為我國企業對外投資提供更多保障
- “20寶龍04”盤中臨時停牌
- 蘇家屯區氣象臺發布雷電黃色預警信號
- 上海黃浦區建設領域碳達峰實施方案:新建建筑可再生能源替代...
- 巴西經濟學家:過度依賴美元傷害拉美經濟
- 莫德納入華,中國疫苗行業迎來“鯰魚”
- 美國真要告別加密貨幣?拉斯維加斯加密行業崗位竟消失了80%
- 上海貴酒鄢克亞:白酒價格倒掛不是經銷商的問題,本質上是源...
- 她們重新定義偉大|「SHE POWER·2023影響力女性50」征集啟動
- 電影《失孤》原型郭剛堂兒子被拐案一審開庭
- 7月7日基金凈值:中郵睿信增強債最新凈值1.114
- 夢幻模擬戰高里炙烤能量棒皮膚如何獲得
- 崩壞星穹鐵道epic國際服介紹
- 【電源設備】歐洲新能源車銷量點評:6月銷量同環比雙升
- 【煤炭行業】煤炭債季度復盤:二季度長期限發行明顯增加,煤...
- 城市綠化相關股票有哪些?A股城市綠化概念股名單匯總
- 2023年鎵金屬概念股名單全梳理(7月7日)
- 華東重機兩次80億布局光伏,押寶TOPcon前景如何?
- 多舉措保供 確保居民“菜籃子”量足價穩
- 無人駕駛出租車可以收費載客了
- 陳哲遠趙露思拍雜志 趙露思教陳哲遠摸頭 基本情況講解
- 力星股份(300421.SZ):生產的滾動體產品在國內高端新能源汽車...
- 港股異動 | 中國儒意(00136)午后漲超4% 近日配股凈籌40億...