楊帆
以下內(nèi)容是對(duì)楊帆先生的部分采訪整理。
楊帆在計(jì)算機(jī)視覺技術(shù)領(lǐng)域沉浸多年,在微軟任職期間,他主要從事計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)等領(lǐng)域的新技術(shù)孵化工作,包括人臉識(shí)別、圖像物體識(shí)別、人像三維重建等;楊帆認(rèn)為,AI技術(shù)并非新事物,但卻在過去的兩三年集中爆發(fā),其關(guān)鍵原因就在于今天對(duì)語音、圖像、視頻,有了更加信息化的處理技術(shù),在各個(gè)環(huán)節(jié)上具備了更強(qiáng)的技術(shù)儲(chǔ)備。從技術(shù)到落地,AI 技術(shù)所實(shí)現(xiàn)的這一切,都離不開場景的支持。
AI技術(shù)繼承了多種基礎(chǔ)技術(shù),在面向工業(yè)、金融、醫(yī)療、家居、自動(dòng)駕駛、安防、物流、農(nóng)業(yè)等不同應(yīng)用場景的解決方案,比如AI和醫(yī)療的融合應(yīng)該會(huì)體現(xiàn)在智能設(shè)備和識(shí)別診斷主要兩個(gè)方面;AI和金融的整合使金融交易和管理更加安全,實(shí)現(xiàn)精準(zhǔn)營銷、大數(shù)據(jù)征信和普惠金融;AI和安防的融合實(shí)現(xiàn)智能監(jiān)控、安保機(jī)器人等應(yīng)用場景;AI、大數(shù)據(jù)等這些東西純談概念是沒有任何意義的,最終都要回歸場景,可復(fù)用的基礎(chǔ)技術(shù)和平臺(tái)工具固然重要,但只有落在應(yīng)用場景里,我們才知道其明確的價(jià)值在哪里。
楊帆表示:“學(xué)術(shù)界有兩套觀念,一套觀念說知其然不知其所以然是離經(jīng)叛道、是不對(duì)的。對(duì)于這個(gè)觀念,楊帆表示認(rèn)可,其實(shí)現(xiàn)在已經(jīng)有很多團(tuán)隊(duì)也投入力量在進(jìn)行更加前沿、更加基礎(chǔ)性的科研,“這樣的基礎(chǔ)科研能夠指導(dǎo)我們將來在正確的方向上走得更遠(yuǎn)?!钡珬罘J(rèn)為,基礎(chǔ)研究與應(yīng)用科研,二者不可偏廢,完整的科學(xué)體系和持續(xù)的方向性指引非常重要,但是實(shí)證科學(xué)也非常重要,企業(yè)最終還是要以技術(shù)落地的結(jié)果說話?!?/p>
對(duì)于這兩年非?;鸬摹八⒛槨?,開始有各種基于人臉驗(yàn)證能力的實(shí)用化場景。在互聯(lián)網(wǎng)信息安全方面,對(duì)于賬戶的盜用能夠更好的分析和調(diào)查,包括線上的手機(jī)端、桌面端、H5,包括定制的攝像頭。操作邏輯非常簡單,最開始做刷臉的注冊(cè),現(xiàn)在刷臉的支付,手機(jī)逐漸去進(jìn)行刷臉的解鎖。在對(duì)于個(gè)人的認(rèn)證上,也有非常多的價(jià)值。人臉識(shí)別的技術(shù),可以判斷操作手機(jī)的是不是真實(shí)的人。
有一個(gè)活體檢測的技術(shù)服務(wù),也包括在線下一體機(jī)的形態(tài)。對(duì)身份證的關(guān)鍵信息進(jìn)行掃描,包括對(duì)身份證內(nèi)部照片的讀取和當(dāng)前采集人之間進(jìn)行判斷。基于人像的身份認(rèn)證也是一個(gè)非常有價(jià)值的工作,它是一個(gè)特殊的跨行業(yè)的解決方案。這個(gè)解決方案現(xiàn)在已經(jīng)從線上到線下開始極大范圍地蔓延。
對(duì)中國來說,個(gè)人公民身份信息的實(shí)名制是一個(gè)非常重要的訴求,這個(gè)訴求能夠有效地幫我們?cè)谝欢ǔ潭壬辖鉀Q互聯(lián)網(wǎng)的安全問題、解決線下的公共安全問題。所有線上的互聯(lián)網(wǎng)行業(yè)應(yīng)用,到各種線下行業(yè),包括機(jī)場、超市、酒店,都會(huì)有越來越多的對(duì)于個(gè)人身份信息核驗(yàn)的強(qiáng)烈需求。
近幾年,很多公司在人臉識(shí)別技術(shù)上投入了大量的研發(fā)并取得了亮眼的成績,其中識(shí)別率一直是各家宣傳的重點(diǎn),今年我們能在各類報(bào)道中頻繁看到各種99%、99.4%、99.8%等。雖然企業(yè)這么宣稱,但實(shí)際背后蘊(yùn)含的差異是非常大的,它會(huì)有非常多影響因素,所以準(zhǔn)確率跟行業(yè)背景以及前置假設(shè)會(huì)是一個(gè)強(qiáng)相關(guān)的關(guān)系。而不同的場景下取得的識(shí)別準(zhǔn)確率很難做類比。
當(dāng)識(shí)別率達(dá)到99%以后,人臉識(shí)別技術(shù)面臨的難點(diǎn)主要在于,如何在不同行業(yè)場景中深化這項(xiàng)技術(shù)。雖然看上去99%的識(shí)別率已經(jīng)很高了,但不同行業(yè)場景對(duì)于識(shí)別率的要求不同,99%可能只是該技術(shù)得以使用的入門條件;而安防場景下,照片模糊、有遮擋、角度不佳都給人臉識(shí)別帶來了更現(xiàn)實(shí)的挑戰(zhàn)。
“看似同質(zhì)化很強(qiáng)、很簡單的人臉識(shí)別,細(xì)分的技術(shù)場景其實(shí)非常復(fù)雜,所以脫離場景去談技術(shù)是沒有太大意義的,今天能看得到的,包括以安防、手機(jī)這樣的一些重點(diǎn)行業(yè)為代表,對(duì)于真正的人臉識(shí)別技術(shù)的全面深化存在著非常多的挑戰(zhàn),值得我們?nèi)スタ?。?/p>
首先,需求得是真實(shí)的。楊帆舉了個(gè)具體的例子:有一個(gè)家電廠商想通過人臉識(shí)別功能,實(shí)現(xiàn)“我進(jìn)去之后這個(gè)房間自動(dòng)調(diào)節(jié)成 16 度,我母親進(jìn)這個(gè)房間自動(dòng)調(diào)節(jié)成 26 度”。我問他:“如果你和你母親一塊進(jìn)去怎么辦,如果你背著身進(jìn)去怎么辦?”他說這個(gè)需求,其實(shí)最好的解決辦法就是搖控器。
其次,需求得是剛性的。需要考慮用戶愿不愿意買單,愿意花多少錢買單?往后更深層次的邏輯鏈,需要對(duì)場景的更深的了解。
今天完成一套解決方案成本很高。人臉識(shí)別這樣的技術(shù),在不同的場景中技術(shù)差異很大。我今天做金融,1:1的認(rèn)證,錯(cuò)誤率做到百萬分之一,千萬分之一,準(zhǔn)確性非常高,在金融場景中非常好用。如果放在安防的場景下,安防要求百萬人的黑名單庫。而且黑名單庫還要有誤報(bào),每一次誤報(bào)有一個(gè)出警。
同樣是人臉識(shí)別,不同場景下關(guān)注的技術(shù)指標(biāo)和任務(wù)是完全不同的。所以同樣一個(gè)技術(shù)概念,在不同場景下的差異性非常明顯。再者技術(shù)什么時(shí)候成熟需要在特定的需求場景下,離成熟多遠(yuǎn)要有一個(gè)預(yù)判力。
做AI技術(shù),數(shù)據(jù)閉環(huán)是非常重要的環(huán)節(jié)。為什么?我們做視頻的會(huì)發(fā)現(xiàn),當(dāng)你技術(shù)不成熟的時(shí)候你的業(yè)務(wù)不能用,業(yè)務(wù)沒有落地的時(shí)候就沒有數(shù)據(jù)。做不好,就形成死循環(huán)。這樣的死循環(huán)如何去打破?原動(dòng)力的突破來自于技術(shù),當(dāng)你的技術(shù)有小的突破,把其他場景遷移過來。
技術(shù)的突破可以帶來業(yè)務(wù)的落地,業(yè)務(wù)的落地帶來數(shù)據(jù)的累積,數(shù)據(jù)的累計(jì)可以帶來技術(shù)的進(jìn)步。這樣的數(shù)據(jù)閉環(huán),幫助整體業(yè)務(wù)拓展并能帶來非常大的價(jià)值。今天,數(shù)據(jù)面臨隱私性和安全性的質(zhì)問和考驗(yàn)。包括區(qū)塊鏈在內(nèi)的很多技術(shù),還有一些非技術(shù)的方式方法,可以帶來更深層次的探索。
光做出好產(chǎn)品是不夠的,還要在市場上真的有價(jià)值,并且能持續(xù)保有競爭力。任何新技術(shù)都會(huì)隨著時(shí)間的推移而擴(kuò)散,一般所擁有的時(shí)間窗口最多也就是一年多的時(shí)間。
在這一段時(shí)間內(nèi),如何看待當(dāng)前所面臨的場景?在這個(gè)場景中技術(shù)到底占據(jù)多大的地位?是非關(guān)鍵性的應(yīng)用還是關(guān)鍵性的應(yīng)用?技術(shù)上的突破和分配,是否產(chǎn)生根本性的問題?在技術(shù)的壁壘期,我們能否利用這一段時(shí)間構(gòu)建起技術(shù)以外的壁壘?
只有壁壘構(gòu)建出來,利用時(shí)間窗口期把技術(shù)優(yōu)勢轉(zhuǎn)化成其他的競爭性壁壘,這樣的行業(yè)才值得去做。
早在一兩年前,我們就搜集到大量用假照片和視頻去攻擊刷臉識(shí)別的行為,各種各樣的案例。當(dāng)我們擁有大量來自真實(shí)業(yè)務(wù)的攻擊數(shù)據(jù)時(shí),就能夠針對(duì)圖像視頻各種各樣的攻擊方式進(jìn)行非常好的防范,這來自于大量線上攻擊的業(yè)務(wù)數(shù)據(jù)的累積,以及對(duì)這些數(shù)據(jù)的二次挖掘和利用。這個(gè)給我們什么樣的啟示?
做刷臉一開始是做人臉識(shí)別,但后來我們發(fā)現(xiàn)人臉識(shí)別不是最重要的,最重要的活體識(shí)別,分清到底是一個(gè)真人還是仿冒攻擊。只有深入場景,才能發(fā)現(xiàn)你所面臨的技術(shù)挑戰(zhàn)跟你之前想象的不同。當(dāng)行業(yè)落地的時(shí)候所面臨的技術(shù)挑戰(zhàn),實(shí)際上需要重新定義、分解和解決。
從這五個(gè)閉環(huán)能夠幫助我們?nèi)ヅ袛?,把一個(gè)AI技術(shù)應(yīng)用在某一個(gè)場景是否真的有價(jià)值,是否真的有意義,是否帶來更大的用戶價(jià)值。從這幾個(gè)角度大家去進(jìn)行分析判斷,會(huì)有一個(gè)相對(duì)比較好的結(jié)論。
如楊帆所說,真正去看行業(yè)落地的時(shí)候,往往都是不同的技術(shù)疊加和組合的應(yīng)用,這里面人臉識(shí)別和動(dòng)作識(shí)別是最關(guān)鍵的技術(shù),但實(shí)際上想把落地場景做好,一定需要多種技術(shù)組合。
楊帆表示,將創(chuàng)新技術(shù)轉(zhuǎn)變?yōu)閷?shí)際產(chǎn)品是一條滿是荊棘的道路,行之不易,而其中最大的難點(diǎn),一是如何選對(duì)方向和時(shí)機(jī),二是如何找到合適的人才。
行業(yè)落地需要各種綜合性的關(guān)鍵技術(shù)的整合。行業(yè)的需求往往是一些相對(duì)模糊的,而且從技術(shù)上來看是非常不明確的東西,這時(shí)候就需要有人有足夠的能力去一一拆解。在楊帆看來,找到或培養(yǎng)一些既有技術(shù)背景、又對(duì)行業(yè)有足夠深的理解的人才,是企業(yè)實(shí)現(xiàn)AI技術(shù)落地最關(guān)鍵的一點(diǎn)。
他說到,“人才問題、團(tuán)隊(duì)組織問題、發(fā)展問題,特別是做2B行業(yè),標(biāo)準(zhǔn)化與非標(biāo)準(zhǔn)之間的平衡性掌握,任何一個(gè)技術(shù)性產(chǎn)品落地會(huì)面臨的共有問題,做AI技術(shù)落地,這些問題一個(gè)都不會(huì)少,而只會(huì)更嚴(yán)重。AI人才是個(gè)更大的坑,AI的技術(shù)性更深重,從過往來看,它跟行業(yè)的結(jié)合更弱,所以你想要真正去打磨出一個(gè)符合真正行業(yè)需求的產(chǎn)品的時(shí)候,需要把對(duì)行業(yè)的理解和對(duì)技術(shù)的理解融合在一起,這是當(dāng)前最具挑戰(zhàn)任務(wù)之一,因?yàn)檫^去可能這個(gè)世界上基本不存在這樣的人,對(duì)行業(yè)有理解的人很少?!?/p>
視覺AI技術(shù)的落地與AI人才的培養(yǎng)是個(gè)復(fù)雜而龐大的話題,需要對(duì)技術(shù)和人才都有比較深刻的理解和認(rèn)知,也是目前業(yè)內(nèi)廣泛關(guān)注的話題之一。2018年1月5日,在AI時(shí)代的移動(dòng)技術(shù)創(chuàng)新大會(huì)上,更多重量級(jí)大咖,將對(duì)AI、移動(dòng)應(yīng)用技術(shù)、前端開發(fā)等內(nèi)容進(jìn)行深度的分享,感興趣的小伙伴快來報(bào)名參加吧!
感興趣的伙伴可以掃描下圖中的二維碼,
免費(fèi)領(lǐng)取限量體驗(yàn)票。