摘要
大名鼎鼎的橫店影視城有著這么一群人。他們每天穿梭于各大劇組,換上威武的武士服和漂亮的古裝,在滿滿的通告中獲取一份相對穩(wěn)定的收入。有時運氣好了可以講一兩句臺詞,和大明星合個影,也能自豪地給家里人講自己風(fēng)光的一面。
大名鼎鼎的橫店影視城有著這么一群人。他們每天穿梭于各大劇組,換上威武的武士服和漂亮的古裝,在滿滿的通告中獲取一份相對穩(wěn)定的收入。有時運氣好了可以講一兩句臺詞,和大明星合個影,也能自豪地給家里人講自己風(fēng)光的一面。
如果你看過爾冬升導(dǎo)演的《我是路人甲》,你可能對這幫“群演”的故事不會陌生。
隨著《甄嬛傳》、《瑯琊榜》和《慶余年》等熱門劇集的影響,橫店的勢頭也步步高升。然而,2015年隨著限古令”的公布,每年來橫店的劇組數(shù)量從幾十個銳減至十幾個。
以前一天可以跑三四個通告,現(xiàn)在可能兩天才能拿到一個。
通告的減少,不少“群演”收入銳減,甚至開始做起了快遞分揀、送外賣的兼職工作。而這其中,有這樣一批“演員”,還能幸運的靠演技謀得一份生路。雖然這次,雇主不再是影視公司,而是和人工智能密切相關(guān)的AI數(shù)據(jù)企業(yè)。
被作為“自動駕駛”數(shù)據(jù)采集的這批群演們自稱“車?!?在通過“數(shù)據(jù)測試”后,他們會被叫到幾輛汽車前,進(jìn)入規(guī)定車輛的駕駛位上做出轉(zhuǎn)頭、搖頭和拿水杯等動作。半小時的采集工作,可以給他們相當(dāng)于片場“半個工”(半個工作日)的薪水。
這些群演們可能自己都意識不到,自己在做的事情正在為這個智能時代產(chǎn)生巨大的價值。
人工智能時代,數(shù)據(jù)是和算法、算力一樣必不可少的生產(chǎn)力。我們無時無刻都在產(chǎn)生數(shù)據(jù),但“數(shù)量龐大“這一標(biāo)準(zhǔn)已遠(yuǎn)不能滿足這個時代的需要。
就如純度高的黃金需要雜質(zhì)少的原材料,像上面這樣找專業(yè)人士獲取特定的、高質(zhì)量的AI數(shù)據(jù)的需求,已經(jīng)成為一種常態(tài)。
AI數(shù)據(jù)的生產(chǎn)模式已經(jīng)從小作坊,轉(zhuǎn)向更專業(yè)的生產(chǎn)機(jī)構(gòu)。入局這一賽道的,除了BAT、京東等需要滿足自身數(shù)據(jù)需求的大廠,也有越來越多專業(yè)化的超高質(zhì)量數(shù)據(jù)服務(wù)平臺。
那么,各大人工智能廠商不惜重金、趨之若鶩的AI數(shù)據(jù),為什么這么重要呢?
”更高更快更強(qiáng)“:助推算法精準(zhǔn)度,高質(zhì)量數(shù)據(jù)必不可少
如果把人工智能研究比作一場奧運比賽,那么提高深度學(xué)習(xí)模型的契合度、努力刷新前人的記錄,是研究者們追求的共同目標(biāo)。對深度學(xué)習(xí)來說,算法提供了整體的框架,算力提供著訓(xùn)練的動能,而沒有高質(zhì)量數(shù)據(jù),再怎么萃取也不會有高質(zhì)量的精華。
行業(yè)中,開發(fā)人員會戲稱訓(xùn)練深度學(xué)習(xí)模型的過程為“煉丹”。想要煉出太上老君的仙丹,光有一口好爐子(算法)和充足的火力(算力)還遠(yuǎn)遠(yuǎn)不夠,純度高的原材料(數(shù)據(jù))萬萬不可或缺。而越是好爐子,對原材料的精細(xì)度越是挑剔。
近年來,大數(shù)據(jù)的井噴逐漸推動著算法和算力的發(fā)展。有了過硬的算法和算力,相較于數(shù)量上的競賽,各大公司爭先恐后地想搞出些“真刀真槍”來進(jìn)行比拼。在這樣的背景下,為了提升AI的準(zhǔn)確性,向產(chǎn)品落地的方向更進(jìn)一步,企業(yè)們已把眼光從之前對數(shù)據(jù)“數(shù)量”的要求轉(zhuǎn)向?qū)Α百|(zhì)量”的要求。
作為AI數(shù)據(jù)服務(wù)行業(yè)內(nèi)頭部代表企業(yè),云測數(shù)據(jù)總經(jīng)理賈宇航用簡單的實例為我們解釋了自動駕駛場景下精準(zhǔn)數(shù)據(jù)的重要性,“公司對數(shù)據(jù)精度的高要求,是由于很多算法落地的過程之中,AI需要達(dá)到這樣的精度,才能夠去做到一個相應(yīng)的運轉(zhuǎn)?!?/p>
“拿自動駕駛為例,如果你的訓(xùn)練數(shù)據(jù)中的車都是白車,實際情況中突然出現(xiàn)紅車,基于訓(xùn)練數(shù)據(jù)總結(jié)出的規(guī)律,可能AI就不認(rèn)為這是一輛汽車?!?/p>
在開頭描述的橫店群演們的“車?!毙鹿ぷ?就是云測數(shù)據(jù)為自動駕駛客戶提供的基于真實場景的數(shù)據(jù)采集服務(wù)。
復(fù)雜的場景中,高質(zhì)量數(shù)據(jù)拒絕AI的“錯誤”行為
人工智能正在進(jìn)入更加復(fù)雜的應(yīng)用領(lǐng)域,除了對數(shù)據(jù)精準(zhǔn)度的要求,現(xiàn)實場景的復(fù)雜度也成為人工智能落地前的痛點,兩者結(jié)合對AI數(shù)據(jù)提出了更高的要求。云測數(shù)據(jù)所提供的服務(wù)正是解決了當(dāng)下數(shù)據(jù)需求痛點。
微軟的沈向洋博士曾經(jīng)在清華的就職演講中,用這樣一個案例講述了在圖片識別領(lǐng)域,高質(zhì)量AI數(shù)據(jù)的重要性。
在一個認(rèn)出“哈士奇狗”的訓(xùn)練任務(wù)中,AI在六張圖片中鑒別對了其中五張,但進(jìn)一步觀察判斷的依據(jù),AI其實是在用“圖片中有沒有雪”這一特征進(jìn)行判斷。很顯然,由這樣的數(shù)據(jù)訓(xùn)練出來的AI不是一個“哈士奇分類器”,而變成了一個“場景分類器”。
AI之所以會在這里“錯誤”,是因為算法會讓它在訓(xùn)練過程中,確保大部分訓(xùn)練數(shù)據(jù)的準(zhǔn)確率夠高。大部分訓(xùn)練數(shù)據(jù)的準(zhǔn)確率高了,整體的準(zhǔn)確率就有保證。想要做到這一點,提取這大部分?jǐn)?shù)據(jù)中共有的關(guān)鍵特征,再根據(jù)數(shù)據(jù)中有無這些特征進(jìn)行判斷就可以了。在上面鑒別哈士奇圖片的例子中,圖片中“有沒有雪”就是這一關(guān)鍵特征,而高質(zhì)量(準(zhǔn)確)的數(shù)據(jù)在這里就顯得十分重要。
采訪中,云測數(shù)據(jù)也向我們指出了復(fù)雜的場景帶來的挑戰(zhàn)?!敖陙?因為使用的場景非常復(fù)雜,AI公司對數(shù)據(jù)的數(shù)據(jù)標(biāo)注的精度和場景多樣性的要求越來越高。某些人工智能應(yīng)用可能換一種情景就行不通,比如語音識別,可能在普通話的情況識別率很高,但換了方言就行不通。所以說,當(dāng)你訓(xùn)練數(shù)據(jù)的覆蓋場景越多、數(shù)據(jù)標(biāo)注的的精準(zhǔn)度越高,實際上AI總結(jié)出來的規(guī)律也就越正確?!辟Z宇航說道。
為了保證AI總結(jié)出正確的規(guī)律,訓(xùn)練數(shù)據(jù)的多樣性是一個關(guān)鍵。春夏秋冬的哈士奇,全身半身的哈士奇,只露一個耳朵的哈士奇,豐富的數(shù)據(jù)是避免AI錯誤的一劑良藥。
賈宇航介紹道:“舉個例子說,想要做一個全球適用的人臉識別系統(tǒng),黑、白、黃,各膚色的數(shù)據(jù)是必不可少的,甚至在每種膚色下面還要細(xì)分種類。同時各個年齡層面也都要考慮?!?/p>
通過這樣豐富的數(shù)據(jù),或者說,高質(zhì)量的數(shù)據(jù),我們訓(xùn)練出來的AI就會更有可信度,落地的產(chǎn)品也才會更加可靠。
以一敵百萬:隨機(jī)數(shù)據(jù)讓算法更聰明!
剛剛提到的方言識別是語音助手面對的挑戰(zhàn)之一,除此之外,外部噪音對人聲的影響也是語音識別行業(yè)一個亟待解決的問題。
借用吳恩達(dá)深度學(xué)習(xí)課程中的例子,訓(xùn)練車內(nèi)的語音AI時,我們需要人們在「車內(nèi)講話」的音源。這是因為由于行駛時的噪音的存在,我們在車中講話的聲音和平常是不同的。
為了提升模型識別的精準(zhǔn)度,我們需要為算法搜集定制化的車內(nèi)噪聲數(shù)據(jù)。傳統(tǒng)的實驗室做法是這樣的:為了制作出車中的人聲,將一段搜索到的白噪音與一萬條人聲數(shù)據(jù)分別拼接??瓷先ノ覀儷@得了一萬條車中人聲的數(shù)據(jù),但通過這樣的操作得出的模型,在現(xiàn)實場景中往往很快“撲街”。
為什么呢?這里就涉及到了數(shù)據(jù)搜集的“隨機(jī)性”問題。
我們對數(shù)據(jù)多樣性的要求,其實和統(tǒng)計學(xué)中隨機(jī)性這一概念息息相關(guān)。想要涵蓋各年齡層,各方言層的數(shù)據(jù),其實是給樣本注入隨機(jī)性–為了讓樣本更能代表整體。剛剛提到的合成人聲,數(shù)據(jù)量看起來很多,但實際情況的車內(nèi)人聲變化多端,我們合成的一萬條數(shù)據(jù)看似很多,但很可能并不具有現(xiàn)實代表性。
大家都知道隨機(jī)性很好,但它究竟好到什么程度?讓我們回到統(tǒng)計學(xué)的基本概念中來看看。
假設(shè)我們想要估計全國人民使用某電商品牌的比例,稱這個數(shù)字為p。我們可以使用互聯(lián)網(wǎng)上現(xiàn)成的觀測性大數(shù)據(jù)(observational data)。但在這個數(shù)據(jù)集中,一個人被抽到的概率和這個人使用電商的概率是相關(guān)的(稱這個相關(guān)性為r,r越小數(shù)據(jù)越隨機(jī))。
比較之下,我們還可以采取簡單隨機(jī)抽樣(SRS, simple random sample),避免相關(guān)性的問題。
假設(shè)我們在簡單隨機(jī)抽樣中抽取了n個樣本,而使用的觀測性大數(shù)據(jù)中包含的全國人口比例為f。我們用常用的MSE(Mean Squared Error,平均誤差)來衡量誤差,在這兩種情況下,MSE分別是:
上面的公式說明了什么?
如果我們樂觀地假設(shè)r=0.1,那么100個隨機(jī)樣本產(chǎn)生的誤差和一半人口(f=0.5, 7000萬人)的觀測數(shù)據(jù)產(chǎn)生的誤差一樣多。
如果我們有能力采集10000個隨機(jī)樣本(中國人口的十萬分之七),則它和涵蓋99%的中國人口(1.386億)的觀測數(shù)據(jù)會產(chǎn)生一樣大的誤差!
但在行業(yè)落地中,獲取更符合現(xiàn)實分布的隨機(jī)數(shù)據(jù)并不是一件容易的事情。
賈宇航告訴我們,“聲紋識別上,我們需要考慮到方言的語系語種,以及性別層面和年齡層面。“
就拿方言數(shù)據(jù)來說,云測數(shù)據(jù)在華東、華南、華北都設(shè)有自己的實驗室,從地理位置上保證八大方言體系的數(shù)據(jù)都有被涵蓋。 而在收集之前,云測數(shù)據(jù)還會進(jìn)行認(rèn)證和把關(guān),確保錄入人員講的方言符合標(biāo)準(zhǔn)。
有些公司需要底噪比較高的環(huán)境,比如之前提到的車內(nèi)語音,云測數(shù)據(jù)也會使用相應(yīng)的設(shè)備去調(diào)制這樣的場景,確保數(shù)據(jù)的采集達(dá)到標(biāo)準(zhǔn)。
賈宇航還給我們介紹道,也有一些對夸張表情進(jìn)行情緒識別的數(shù)據(jù)需求。比如在自動駕駛中,夸張的表情很可能表示駕駛員遇到了緊急情況。這些是并不常見但對于提升AI的安全性至關(guān)重要的數(shù)據(jù)。換句話說,是使自動駕駛安全落地的一個關(guān)鍵突破口。
為了收集這樣的表情數(shù)據(jù),云測數(shù)據(jù)想到的是在演藝界打開渠道,而開篇提到的橫店影視城群演就自然成為了高質(zhì)量的資源。在表情數(shù)據(jù)收集的過程中,云測數(shù)據(jù)和專業(yè)人士合作,采取了人員篩選、情緒引導(dǎo)、數(shù)據(jù)采集的三步法。類似于演員的面試,項目負(fù)責(zé)人先篩選出表演能力強(qiáng)的演員,再對篩選下來的人員進(jìn)行情緒引導(dǎo),最后采集表情數(shù)據(jù),來確保在數(shù)據(jù)采集初期的高質(zhì)量獲取,以達(dá)到客戶需要的水平。
除了對人的要求,數(shù)據(jù)采集的場景化還包括對光源的具體模擬。云測數(shù)據(jù)告訴我們,場景化的模擬包括不同光照條件、不同光照角度下以及遮擋物(如玻璃)等細(xì)節(jié)要求。某個項目中單是光源條件就分成了室內(nèi)和室外,強(qiáng)光、逆光、倒光等一共24種光照條件,不僅如此,玻璃反光度、模特臉部遮擋比例值等都有嚴(yán)格的要求。在這個項目中,玻璃的反光程度不僅與玻璃的材質(zhì)厚度有關(guān),也跟光源大小、光源與玻璃之間的角度和距離等一系列變量有關(guān)。云測數(shù)據(jù)最終搭建了一個將近3000平米的場景圓滿完成了此次項目。
數(shù)據(jù)智能的未來:專業(yè)數(shù)據(jù)服務(wù)機(jī)構(gòu)和人工智能攜手共進(jìn)
人工智能的產(chǎn)品正如雨后春筍一樣不斷冒出,但AI系統(tǒng)的質(zhì)量仍然制約著一些應(yīng)用的落地。即使系統(tǒng)已經(jīng)落地,人們對于精細(xì)度的打磨也在產(chǎn)生新的要求。
“我們希望和客戶一起成長,更加深化合作方向?!?/p>
賈宇航對于數(shù)據(jù)行業(yè)和人工智能間關(guān)系如此展望,”比如說語音助手原來只是做到對語句的識別,但隨著時代的發(fā)展,人們對于精細(xì)度的進(jìn)一步要求,我們同時也要做到情緒上的識別。同一句話在用不同的語氣講的時候,我們希望語音助手也可以用相對應(yīng)的語氣來回應(yīng),而不是像現(xiàn)在這樣,每一句話都是一個語調(diào)。大家肯定希望壓力大的時候,語音助手可以用溫柔的語氣送上問候。我們希望語音助手也可以更加擬人化,在這個層面上我們會去進(jìn)一步地深耕,利用場景的定制和設(shè)備的專業(yè)性進(jìn)行數(shù)據(jù)服務(wù)方案的進(jìn)一步調(diào)優(yōu)。”
為了進(jìn)一步滿足AI行業(yè)的需求,云測數(shù)據(jù)也在數(shù)據(jù)標(biāo)注的環(huán)節(jié)不斷拓展。以NLP為例,對一個語句的“主/謂/賓“或是”時間/地點/人物”式的劃分早已不能滿足應(yīng)用場景的細(xì)化要求。用人為的標(biāo)簽給平淡的語句加入適當(dāng)?shù)谋尘昂x,算法才能更加適應(yīng)場景。
想要達(dá)到高標(biāo)準(zhǔn)的標(biāo)注水平,需要對員工的專業(yè)培訓(xùn),甚至在某些領(lǐng)域,比如醫(yī)療圖像識別,AI數(shù)據(jù)標(biāo)注必須由領(lǐng)域的專家來完成。在不同的領(lǐng)域,建立起AI數(shù)據(jù)生產(chǎn)的標(biāo)準(zhǔn)流程,是數(shù)據(jù)行業(yè)當(dāng)下將要面臨的機(jī)遇和挑戰(zhàn)。
對于AI行業(yè)當(dāng)下發(fā)展非常敏感的數(shù)據(jù)隱私問題,云測數(shù)據(jù)也給出了自己的解決方案:“讓擁有數(shù)據(jù)成為企業(yè)的核心競爭壁壘”,通過數(shù)據(jù)隔離、質(zhì)量保障等一系列保護(hù)數(shù)據(jù)安全的方法,確保企業(yè)數(shù)據(jù)安全的情況下,持續(xù)為數(shù)據(jù)采集和標(biāo)注構(gòu)建和優(yōu)化自己的方案。
另一方面,賈宇航也希望云測數(shù)據(jù)可以和更多的行業(yè)進(jìn)行深度合作。“除了現(xiàn)在的智能駕駛、智能家居、智能安防、智慧金融、新零售等領(lǐng)域,我們也在往更多的行業(yè)去拓展。比如說文娛和教育,實際上我們現(xiàn)在都有涉及,并和這些行業(yè)一起進(jìn)步。我們希望把我們的AI數(shù)據(jù)服務(wù)帶到新的領(lǐng)域,在新的領(lǐng)域解決新的挑戰(zhàn),幫助更多的企業(yè) 實現(xiàn)產(chǎn)品智能化?!?/p>