車東西(公眾號(hào):chedongxi)
文 | 肖涵
自動(dòng)駕駛技術(shù)經(jīng)過多年發(fā)展,已經(jīng)進(jìn)入到了落地的關(guān)鍵時(shí)期,媒體和公眾往往也喜歡將視線都聚焦在自動(dòng)駕駛公司身上。
但在長沙、廣州等地已經(jīng)落地行駛的無人出租車背后,其實(shí)都離不開AI數(shù)據(jù)采集標(biāo)注這個(gè)工種。
▲自動(dòng)駕駛數(shù)據(jù)標(biāo)注圖示
正是海量高質(zhì)量AI測(cè)數(shù)據(jù)的“喂養(yǎng)”,才讓無人車上搭載的AI算法能夠感知識(shí)別道路上的物體,可以說數(shù)據(jù)訓(xùn)練對(duì)于自動(dòng)駕駛來講,發(fā)揮著“眼睛”的作用,如果不能正確感知道路環(huán)境,智能駕駛的決策系統(tǒng)就無法正常工作。
那么自動(dòng)駕駛公司到底需要什么樣的數(shù)據(jù)?背后的AI數(shù)據(jù)采集和標(biāo)注工作又是如何進(jìn)行的呢?
帶著這些疑問,車東西與國內(nèi)頭部數(shù)據(jù)采集標(biāo)注公司云測(cè)數(shù)據(jù)總經(jīng)理賈宇航進(jìn)行了一次長達(dá)90分鐘的深度對(duì)話,揭開了AI數(shù)據(jù)采集標(biāo)準(zhǔn)行業(yè)的神秘面紗。
▲云測(cè)數(shù)據(jù)房山辦公區(qū)
一、自動(dòng)駕駛頭部企業(yè)的特征:數(shù)據(jù)量第一
谷歌Waymo是全球公認(rèn)的自動(dòng)駕駛領(lǐng)頭羊,但官方在宣傳時(shí),其實(shí)很少直接說自己的技術(shù)如何厲害,不過其往往會(huì)重點(diǎn)強(qiáng)調(diào)一個(gè)數(shù)據(jù),就是自己的路測(cè)里程數(shù),超過多少多少萬英里。
在此前Waymo公布第五代自動(dòng)駕駛系統(tǒng)時(shí),其實(shí)際路測(cè)里程已經(jīng)到達(dá)2000萬英里(3200萬公里),虛擬測(cè)試?yán)锍谈浅^了160億公里。
▲Waymo的無人車在街頭采集數(shù)據(jù)
自動(dòng)駕駛軟件的核心環(huán)節(jié)為感知和決策。
為了實(shí)現(xiàn)更好的感知結(jié)果,大部分公司都會(huì)引入深度學(xué)習(xí)等AI技術(shù)。而想讓深度學(xué)習(xí)的模型對(duì)某一類物體的識(shí)別率足夠精準(zhǔn),就需要大量該類物體的不同數(shù)據(jù),例如圖像、視頻、3D點(diǎn)云等。
與此同時(shí),無人車想要量產(chǎn),還必須要能夠應(yīng)付各類小概率事件(比如十字路口突然有行人摔倒在地)的情況,為了讓決策算法能夠適應(yīng)這種小概率事件,自動(dòng)駕駛公司也需要有這種小概率事件的數(shù)據(jù)進(jìn)行針對(duì)性地研發(fā)和測(cè)試。
所以總結(jié)一下就是,無論在感知還是決策環(huán)節(jié),自動(dòng)駕駛公司都需要大量的交通數(shù)據(jù)來進(jìn)行研發(fā)和測(cè)試,數(shù)據(jù)量就決定了自動(dòng)駕駛公司的技術(shù)水準(zhǔn)。
這正是Waymo為什么一直強(qiáng)調(diào)自家數(shù)據(jù)量足夠大的原因。
除了Waymo,特斯拉也在量產(chǎn)車上部署了一個(gè)影子模式,就是在人類駕駛員開車時(shí),其名為Autopilot的L2級(jí)自動(dòng)駕駛系統(tǒng)也會(huì)工作,去收集一些特定數(shù)據(jù),然后上傳到后臺(tái)來優(yōu)化Autopilot系統(tǒng),并逐步從L2升級(jí)到FSD(L4級(jí)完全自動(dòng)駕駛)。
▲特斯拉的L2級(jí)自動(dòng)駕駛系統(tǒng)表現(xiàn)極佳
特斯拉旗下的車型目前總銷量超過100萬臺(tái),按照每臺(tái)車2萬公里/年的行駛里程來算,特斯拉每年理論上最多可收集200億公里的實(shí)際路測(cè)數(shù)據(jù)(實(shí)際情況只收集特定數(shù)據(jù))。
正是這樣的數(shù)據(jù)規(guī)模,才讓特斯拉的Autopilot系統(tǒng)遙遙領(lǐng)先于奔馳、寶馬、大眾等傳統(tǒng)車企,并且不斷推出像是Navgate on Autopilot、智能召喚、紅綠燈識(shí)別等新功能。
總結(jié)來看,自動(dòng)駕駛技術(shù)領(lǐng)先的企業(yè),數(shù)據(jù)量一定領(lǐng)先。
二、自動(dòng)駕駛爭(zhēng)奪戰(zhàn)打響 對(duì)高質(zhì)數(shù)據(jù)需求增加
自動(dòng)駕駛技術(shù)應(yīng)用后,不僅僅能夠解放人類駕駛員,還能組成智慧交通體系提升整個(gè)社會(huì)的通行效率,并改變網(wǎng)約車行業(yè)、汽車行業(yè)、運(yùn)輸行業(yè)甚至是零售行業(yè)(例如移動(dòng)無人商店),意義重大。
所以在谷歌Waymo研發(fā)數(shù)年后,中國、美國、歐洲、日韓等地區(qū)也相繼涌現(xiàn)出大量自動(dòng)駕駛公司,而像是蘋果、英特爾、百度、上汽、通用、本田等IT巨頭、車企巨頭也加入到戰(zhàn)局之中,一場(chǎng)席卷全球的自動(dòng)駕駛技術(shù)爭(zhēng)奪戰(zhàn)已然打響。
正如前文所言,在研發(fā)高等級(jí)自動(dòng)駕駛技術(shù)時(shí),還原實(shí)際場(chǎng)景的路測(cè)數(shù)據(jù)或交通數(shù)據(jù),是關(guān)鍵“燃料”。在這場(chǎng)自動(dòng)駕駛技術(shù)爭(zhēng)奪戰(zhàn)的背后,高質(zhì)量的數(shù)據(jù)已然成為各大車企護(hù)城河建設(shè)的重中之重。
▲美國街頭的Waymo無人車
為了助力本國企業(yè)搶占自動(dòng)駕駛技術(shù)高地,各國政府也在迅速出臺(tái)政策為技術(shù)應(yīng)用落地鋪路,并規(guī)范行業(yè)發(fā)展。
例如今年2月份,發(fā)改委、工信部、財(cái)政部等11部委聯(lián)合印發(fā)的《智能汽車創(chuàng)新發(fā)展戰(zhàn)略》,給了智能汽車一個(gè)較為清晰準(zhǔn)確的發(fā)展時(shí)間規(guī)劃,在業(yè)內(nèi)人士看來,“戰(zhàn)略”勾勒出智能汽車發(fā)展的“遠(yuǎn)大前景”。
例如北京最近出臺(tái)的路測(cè)規(guī)定,已經(jīng)允許無人車進(jìn)行載人測(cè)試(即無人出租車可以上路測(cè)試了),但同時(shí)也提出了一系列要求,比如想要申請(qǐng)載人測(cè)試,需要先通過實(shí)車+仿真測(cè)試,且此前的無載人測(cè)試中,最近1年內(nèi)不能出現(xiàn)過交通事故。
毫無疑問,隨著自動(dòng)駕駛競(jìng)賽的逐漸白熱化和政策的不斷演變,自動(dòng)駕駛行業(yè)對(duì)行駛過程中涉及的真實(shí)場(chǎng)景數(shù)據(jù)的需求量可謂是日益劇增,誰擁有更多的數(shù)據(jù),誰就能夠在這場(chǎng)爭(zhēng)奪戰(zhàn)中取勝。而像特斯拉和Waymo這種車企采集到的數(shù)據(jù)又十分有限,所以高質(zhì)量的自動(dòng)駕駛數(shù)據(jù)提供商成為了整個(gè)行業(yè)的命脈之源。
三、云測(cè)數(shù)據(jù)深耕質(zhì)量 致力于為行業(yè)提供好數(shù)據(jù)
自動(dòng)駕駛研發(fā)離不開數(shù)據(jù)的支持,但數(shù)據(jù)也并非是“傻多”,還需要質(zhì)量到位才能發(fā)揮作用。
云測(cè)數(shù)據(jù)總經(jīng)理賈宇航告訴車東西,高質(zhì)量的數(shù)據(jù)有三個(gè)大框架——還原場(chǎng)景、大數(shù)據(jù)量、標(biāo)注精準(zhǔn)度高。
還原場(chǎng)景就是說自動(dòng)駕駛數(shù)據(jù)要有針對(duì)性,比如某自動(dòng)駕駛公司想訓(xùn)練一下無人車應(yīng)對(duì)十字路口行人摔倒這種突發(fā)情況的能力,那么算法需要的場(chǎng)景數(shù)據(jù)就必須是發(fā)生在十字路口,如果是高速公路則必然不行。
同樣的,即使是在十字路口這一特定場(chǎng)景下,還要盡可能多的讓數(shù)據(jù)豐富起來,比如是白天、黑夜、雨天、陰天的十字路口,同時(shí)行人的衣著、摔倒的姿勢(shì)、過程,也要盡可能的覆蓋更多的可能性。
只有這樣,才能讓無人車上的AI技術(shù)完整識(shí)別所需場(chǎng)景,并作出正確決策。
對(duì)自動(dòng)駕駛公司來說,想要收集到類似“路口行人摔倒”的場(chǎng)景數(shù)據(jù),自然十分耗時(shí)耗力。
為了解決這一難題,云測(cè)數(shù)據(jù)在北京、橫店、天津等地搭建了場(chǎng)景實(shí)驗(yàn)室,為的就是能夠模擬還原不同的場(chǎng)景來進(jìn)行數(shù)據(jù)采集。
▲云測(cè)數(shù)據(jù)的成員在搭建場(chǎng)景實(shí)驗(yàn)室
“比如我們?cè)谖覀冏约旱臄?shù)據(jù)采集基地搭建了路口這個(gè)場(chǎng)景后,會(huì)招募上千名群演過來模仿路人摔倒的情況,每個(gè)人的衣著、行為舉止都不一樣,并且還會(huì)考慮到白天、黑夜、黃昏等不同的光照條件,來還原客戶所需要的場(chǎng)景數(shù)據(jù),做到足夠真實(shí)?!辟Z宇航這樣說道。
通常情況下,云測(cè)數(shù)據(jù)團(tuán)隊(duì)會(huì)使用自動(dòng)駕駛公司提供的無人車來采集數(shù)據(jù),以完美匹配該公司的傳感器設(shè)定。而如果暫無車輛可用,云測(cè)數(shù)據(jù)團(tuán)隊(duì)也擁有自購的各類激光雷達(dá)、攝像頭等硬件設(shè)備,并擁有專業(yè)人員進(jìn)行傳感器標(biāo)定,可以滿足不同自動(dòng)駕駛公司需求。
采集足夠豐富的數(shù)據(jù)只是提供“養(yǎng)料”的第一步,隨后還要對(duì)數(shù)據(jù)中的關(guān)鍵物體(例如車輛、行人、甚至是固定物體)進(jìn)行標(biāo)注,才能供深度學(xué)習(xí)算法使用。
數(shù)據(jù)標(biāo)注工作不僅需要標(biāo)注人員擁有特定領(lǐng)域知識(shí)來保證數(shù)據(jù)標(biāo)注的精準(zhǔn)性,同時(shí)又對(duì)標(biāo)注工具的熟練使用、以及作業(yè)中的效率保證、標(biāo)準(zhǔn)化流轉(zhuǎn)管理等等眾多因素有著要求。對(duì)于自動(dòng)駕駛公司來說,將數(shù)據(jù)標(biāo)注工作交給云測(cè)數(shù)據(jù)這類專業(yè)公司其實(shí)是最好的選擇。
這方面,云測(cè)數(shù)據(jù)在華東、華南、華北等地?fù)碛兄越ǖ臄?shù)據(jù)標(biāo)注基地,通過具有自主知識(shí)產(chǎn)權(quán)的標(biāo)注平臺(tái)和專業(yè)的標(biāo)注人員團(tuán)隊(duì),為高質(zhì)量的AI數(shù)據(jù)交付提供著堅(jiān)實(shí)支撐、
“數(shù)據(jù)標(biāo)注的準(zhǔn)確率和貼合度至關(guān)重要,比如要在一個(gè)2D圖片或3D點(diǎn)云圖里標(biāo)注出汽車,要盡可能的不出現(xiàn)錯(cuò)標(biāo)和漏標(biāo)的情況。同時(shí),標(biāo)注的矩形框還要盡可能的與物體貼合?!辟Z宇航解釋道,“云測(cè)數(shù)據(jù)利用自主開發(fā)的標(biāo)注工具,即使是3D點(diǎn)云圖像,也可以保證數(shù)據(jù)標(biāo)注的流暢性和時(shí)效性,以及行業(yè)內(nèi)領(lǐng)先的數(shù)據(jù)標(biāo)注精準(zhǔn)度。而像是2D圖像中的標(biāo)度貼合度,也可以做到5個(gè)像素以內(nèi)。”
▲云測(cè)數(shù)據(jù)的團(tuán)隊(duì)在進(jìn)行3D點(diǎn)云標(biāo)注
正是定制化的場(chǎng)景、豐富的數(shù)據(jù)量,還有高質(zhì)量的標(biāo)注結(jié)果,讓云測(cè)數(shù)據(jù)獲得了行業(yè)內(nèi)幾乎所有的自動(dòng)駕駛客戶認(rèn)可,既包括自主、合資車企,大型Tier1,也有做無人出租車的自動(dòng)駕駛公司。
據(jù)賈宇航介紹,涉足自動(dòng)駕駛領(lǐng)域3年多來,云測(cè)數(shù)據(jù)僅在難度較大的3D點(diǎn)云數(shù)據(jù)上,就大概輸出了接近1000萬幀的數(shù)據(jù),可謂是經(jīng)驗(yàn)豐富。
“我們的產(chǎn)品價(jià)格處于主流區(qū)間,不僅能提供豐富的高質(zhì)量場(chǎng)景化數(shù)據(jù),還能保證項(xiàng)目的高效交付,獲得了很多客戶的好評(píng),有些自動(dòng)駕駛公司還會(huì)直接跟我們簽訂年度服務(wù)協(xié)議,把他們采集的數(shù)據(jù)交給我們來進(jìn)行標(biāo)注?!痹趯?duì)話最后,賈宇航這樣說道。