華為智能駕駛的3次「轉身」:自研大模型,放棄高精地圖,減少激光雷達數量

解析華為智駕,從「堆料」到「炫技」。

作者 | 張家磊

編輯 | 冒詩陽

11 月 28 日,智界 S7 正式上市。作為華為與奇瑞合作的首款車型,從誕生之初便引起了不小的關注。值得注意的是,這款車與問界 M5、M7 一樣,都只裝配了一顆激光雷達。

在高端車型上將激光雷達數量減少至一顆,說明在華為的智駕方案中,單激光雷達已然足夠。從 2022 年首次有合作車型上市以來,華為智駕方案的激光雷達數量從三顆逐步減少至目前的單顆。與此同時,華為智駕方案也經歷了從 ADS 1.0 到 ADS 2.0 的演變。

華為的選擇,是智能駕駛終於走出堆料時代的一個縮影。本文詳解華為的智駕方案,以及 GOD 網絡可能的技術原理。硬件方案上「靈魂減配」的背後,華為智能駕駛同樣面對傳感器融合的難題,尤其以激光雷達和攝像頭的融合挑戰最大。

11 月 26 日,華為智能駕駛核心業務將建立合資公司的方式曲線實現「獨立」,那麼 ADS 2.0 方案,真的成熟到可以獨自成長的地步了嗎?

推薦我司年度會議。12 月 19 日,2023 全球自動駕駛峰會將在深圳舉行。主會場設有開幕式,以及高階智駕、大模型、算力三大專場。分會場將舉行深圳南山智能網聯汽車政企交流會、自動駕駛分析師論壇,自動駕駛 BEV 感知技術論壇。目前,清華鄧志東教授與 UniAD 作者李弘揚領銜,智行者聯創張放、千掛科技聯創葉璨、德賽西威智能駕駛傳感器事業部負責人江伙紅、元戎啟行技術合伙人劉念邱、紐勱科技首席科學家成二康等 20+ 位嘉賓已確認出席,免費報名開放中,掃碼諮詢 ~

華為智駕硬件的兩次「減配」

從華為智駕到鴻蒙智行,華為的智駕方案經歷過從 ADS 1.0 到如今 ADS2.0 的演變。1.0 時代,智能駕駛的未來路線還不太清晰,從各種傳感器到高精地圖,華為可以說把能想到的都用上了。

比如在 2022 年 4 月首次合作推出的極狐阿爾法 S HI 版上,這款車配備了三顆激光雷達,相似的硬件配置方案,也用在了同年 8 月推出的阿維塔 11 上。

智駕硬件上的堆料,直接推高了車的終端售價,兩款車最終定價都觸及了 40 萬元的高位。但智駕堆料堆出了高定價,堆出了汽車品牌追求的高端產品,卻沒有為智能駕駛用戶體驗的落地鋪出路來。

包括華為在內的智能駕駛研發團隊一直沒有解決的一個問題是,這些五花八門的傳感器之間,所面臨的「語言不通」障礙。

多傳感器的融合是十分困難的,其中最有代表性的就是激光雷達和攝像頭的融合。前者提供點雲信息,後者直接給出圖像信息。

激光雷達的工作原理是這樣的:通過發射脈衝光束,測量光束觸碰周圍物體後所反射回來的時間,由此來計算被測物體的距離。它的好處是精準和適應性強,可以達到毫米級的測距精度。可以在各種環境中使用,包括光照強烈和惡劣天氣。

雖然可以準確的感知周邊環境的三維信息,但激光雷達只能提供稀疏特徵數據,行業里稱之為「點雲信息」。而攝像頭卻能直接採集出圖像信息,提供給系統算法,自動分析圖像並識別出其中的各種物體,由此來更精準的做出駕駛決策。

▲激光雷達與攝像頭的差異

也就是說,激光雷達雖然精準可靠,但無法單獨支撐智能駕駛功能的迭代。如果華為不想像特斯拉一樣走向純視覺的方案,多傳感器之間的融合,是必須解決的問題。

如何做好傳感器之間的融合一直是個難點。目前行業中探索的主流融合方式之一,稱為點級,這套方案,需要將激光雷達和攝像頭在車上的位置,進行高質量校準,極其精密的對齊,才能讓兩者的內容完全重合,如此來實現兩組傳感器的之間的「硬關聯」。

但這是一套脆弱的融合方式,如果車輛行駛中產生的顛簸,讓傳感器發生輕微的位移,那很小的誤差也會造成對齊失敗。

此外,這種融合方案會浪費很多數據。比如激光雷達所採集到的稀疏矩陣數據,在與攝像頭這種稠密矩陣數據進行融合的時候,會浪費大量具有豐富語義信息的圖像特徵。另外在圖像特徵質量比較低的時候,性能會大幅度下降。

今年 4 月 16 日,華為發佈了自己的 BEV+Transformer+GOD 方案,為如今華為更成熟的 ADS2.0 方案打下了基礎。與特斯拉的純視覺不同的是,華為在傳感器硬件上,依然保留了一顆激光雷達,採用的是多傳感器融合的方式。那在這個方案之中,華為是如何解決激光雷達和攝像頭的融合問題呢?

對於 GOD 技術的細節,華為沒有做特別詳盡的解釋。但我們在 2022 年華為與香港科技大學、香港城市大學發佈的這篇論文里,可以看到華為解決激光雷達和攝像頭融合問題的一些可能的方式。

首先通過激光雷達的點雲數據,初步獲得行車環境的特徵圖,再基於特徵圖,用 Transformer 結構的解碼器,預測一個初始邊界框,大概的將行車環境中,所需要注意的物體框選、標註出來,得到含有距離信息的邊界框。

到這一步,系統仍然處理的是激光雷達所採集到的信息,處理完激光雷達的信息後,系統會將這些信息投影到攝像頭採集到的圖像上,把 2D 圖像的特徵融合進去,給邊界框賦予語義信息。

這裏面很重要的一個工具,是大模型 Transformer,它能夠自適應地尋找 2D 圖像與 3D 點雲的關聯。對硬件的對齊要求也沒那麼高了。

通過 Transformer,華為可以讓雷達和攝像頭,兩個傳感器之間的硬關聯,變成了軟關聯。這樣就可以得到一個包含詳細距離信息,系統又能看得懂的感知數據了。

為了提高對小物體檢測的穩健性,系統再次導入整個高分辨率的圖像。通過 Transformer 中的交叉注意機制,以一種稀疏到密集的、自適應的方式將 2D 圖像再次融合。使得系統能夠自適應地確定,應該從圖像中獲取哪些信息,包括信息的位置和性質。來對之前的邊界框進行增強,讓小物體的識別更加精準。

解決了傳感器融合的問題後,華為就能讓 GOD 網絡獲取更加豐富的感知數據,能幫助神經網絡模型更好地感知和理解車輛周圍環境。再通過 GOD 網絡自主學習,構建 3D 世界模型。

激光雷達的取捨

華為為什麼要大費周章的建立 GOD 網絡,而不是像特斯拉一樣,採用一套純視覺的智能駕駛方案呢?

事實上,華為乃至整個智能駕駛行業,都沒有停止對特斯拉的學習。

2021 年,特斯拉 FSD Beta 開始採用了一套基於 BEV+Transformer 的智能駕駛方案,BEV 即鳥瞰圖,它就像是為智能駕駛打開了一個從空中俯視上帝視角,讓車輛能夠把近處的感知統一放到一個平面中。

特斯拉的方案,為華為和其他埋頭苦幹的智駕公司,提供了另一種思路,華為在 ADS1.0 時代,也採用了這項組合技術。

但 BEV 框架還是不能解決所有問題,智駕系統需要先識別面前的是什麼物體,才能做出相應的決策。如何識別前方物體呢,就需要依靠大量的系統訓練,將一個個識別成功的物體,放進智駕系統所建立的「白名單」中。

可是「白名單」不足以覆蓋實際交通環境中出現的海量障礙物類型,真正複雜的交通場景下,白名單永遠都填不滿。另外,感知系統只能識別到之前見過的物體,而沒有辦法識別一些異形的物體。

▲ BEV 視角下的點雲信息

這項技術有一個硬傷,就是鳥瞰圖是一套只有橫縱坐標的二維圖像,無法在 Z 軸上,感知到高度信息。

也就是說,特斯拉的這套方案可以讓姍姍學步的智能駕駛走起路來,卻還是不能保障走路時不摔倒。

特斯拉很快找到了自己的解決方法。2022 年的特斯拉 AI Day 上,OCC 佔用網絡被引入,它通過大量的分析和訓練,將多個攝像頭提供的 2D 圖像信息,在 3D 空間中還原。用無數個小體塊來展現現實世界。

但到這一步,國內智能駕駛方案商卻跟不上了。實際上,純視覺 FSD 真正的難點在於海量的駕駛數據,除了採集數據,更需要一個強大的模型,來對智能駕駛方案進行訓練。

特斯拉自研芯片和 Dojo 模型,外購 GPU 將雲端算力堆到 10 Exa-flops,就是為了處理大量的傳感器數據,並進行深度學習和模型訓練。

如果國內智能駕駛方案商貿然模仿,自家智能駕駛技術進步速度,可能永遠也追不上特斯拉,華為不甘心只當一個追隨者。

原本國內的新勢力們解決這個問題的方式是依賴高精地圖。在發現高精地圖因為成本和更新不及時的問題,而無法長久應用後,大家紛紛開始研發自己的方案,華為就是其中之一。

華為所建立的多傳感器融合方案,就是為了避開特斯拉 OCC 花在將 2D 圖像還原成 3D,所需要的那部分複雜計算。通過加上一顆激光雷達,提供更加詳細的距離信息,華為降低了數據分析的難度,對雲端算力的需求也相應降低。

此外,在國內複雜的城區路況下,對近距離測距的精準度要求更高,比測試場地中更棘手的 case 多很多。這顆激光雷達就可以對前方障礙物進行詳細測距,再與攝像頭的數據精準匹配,得到更為準確的數據。並且在暗光、大光比、雨霧天氣這種攝像頭識別不那麼準確的時候,也可以穩定輸出感知數據。

雖然眼下華為保留單激光雷達的方案,在裝車的硬件成本上,仍然會高於只有攝像頭的純視覺方案,但研發投入、時間周期,也是需要被計算的成本。

如今,在華為智駕方案不斷迭代的途中,特斯拉的純視覺方案 FSD 已經很久沒有披露出進展了。也許,融合激光雷達的智駕路線,「總成本」更低。

▲智界 S7 上市

智能駕駛方案迭代到現在,算法已經不是各家競爭的焦點。在數據量不足的時候,面對不同城市的複雜路段,難免出現漏洞。如何快速獲取行駛數據,並在短時間內將訓練結果 OTA 到車輛,才是加快開城速度的關鍵。

從競爭者蔚小理的部署情況來看,也許明年,輔助駕駛的數據競爭賽,就要正式開始了。

與這幾家企業一樣,華為計劃今年年底開通全國的無圖城區智能駕駛,壓力一點都不小。

按道理來說,輔助駕駛開通之前,車廠都應該用自己的車隊跑一遍,給大模型的訓練一個基礎的數據。但全國都跑的話,需要耗費大量的時間和人力、算力。如果直接開通給用戶,短時間內大量的數據湧入,也會讓華為不堪重負。優先開通「通勤模式」,讓各地的車主在同一路段反覆跑,對大模型反覆進行「自訓練」,也許是比較穩妥的方式。

華為的融合方案,就單車的硬件和計算成本來說,肯定是有所增加的。融合算法必須證明自己在「總成本」上更具性價比,才有可能被大規模的鋪開。多去路上收集實戰數據持續訓練 AI,才能讓車輛越「開」越聰明。

華為打算如何面對這些挑戰,我們也只能拭目以待了。

2023 全球自動駕駛峰會預告