郭律:大家下午好,非常榮幸有機會可以來分享騰訊云對于AI、AI在產業(yè)中的落地,應用開發(fā)中的落地,以及關于騰訊的一些觀點。
我叫郭律,來自于騰訊,騰訊云智天樞人工智能服務平臺,是這個平臺產品架構師。這個平臺目標講其實是用于解決AI應用開發(fā)出來到最后應用開發(fā)中,就從AI模型訓練出來到最后應用開發(fā)好以后,然后投入生產中使用后一公里,我們是目標為了這個里面的一些問題。
今天的交流主要分為三個部分:第一部分談一下對產業(yè)+AI的理解,今天的主題是說AI應用的落地,就是說如何把AI在產業(yè)中用起來,那就是產業(yè)+AI的理解。第二,企業(yè)在做AI應用的落地中,我們發(fā)現(xiàn)的在AI產業(yè)落地中可能跟數(shù)據(jù)有關的一些難點。第三,結合自己在實際的應用開發(fā)中發(fā)現(xiàn)的這些難點如何解決,最后沉淀下來去做這樣一個工具來解決這一塊的問題。
首先來講智慧產業(yè)在企業(yè)數(shù)字化轉型。我們認為是這其實就是一個趨勢。早年的時候,最開始英國工業(yè)革命機械化、自動化,接下來2000年初的時候,計算機普及、信息化、然后互聯(lián)網(wǎng)化、移動互聯(lián)網(wǎng)化,到現(xiàn)在這個階段2016年開始,智能化慢慢普及起來了。我認為這是我們在這個事情大的背景。
具體而言的話,我們認為其實企業(yè)里面AI用能到地方方方面面,包括產品生產,如何去降低研發(fā)成本。我們之前幫制藥的企業(yè)做藥物的分子,然后再做設計的時候需要做精心設計,這個時候用人工智能模擬不同的機型,可以大大降低藥物研發(fā)的成本,加快研發(fā)的速度。這是在產品設計生產的時候有幫助一些工業(yè)的企業(yè)通過這個圖象識別的技術做一些缺陷檢測這樣的功能。
在營銷、物流領域,現(xiàn)在推薦個性化的廣告這個事情非常多了。其實我們就認為做這個事情生產各個方面都是可以人工智能,具體怎么用,我們可以看到在能看到企業(yè)的IA應用中幾個類型:
第一種類似是計算機代替人的眼睛和耳朵來看和聽。這種具體應用很明顯,圖象識別、語音識別、這些都是屬于看和聽。自然語言理解,讓計算機去懂,獲得外界非結構化的信息可以理解下來。
第二塊應用就是智能交互,就是除了看,除了聽以外,還能給出一些反饋。比方說目前比較火的機器人,包括知識圖譜有很多這樣的一些功能,去獲得外界一些信息,然后去根據(jù)外界信息通過計算機自己去判斷,然后給出反饋。
第三塊,智能決策。就是說主要是指除了可以獲得信息,反饋信息基于獲得和反饋重新獲得這些信息做一些決策和判斷,比較類似于銀行做的信用卡支付反欺詐,包括工業(yè)做一些工業(yè)設備的預測性維護,這些事情其實都是屬于我們認為計算機做決策這樣的實例。
總體而言,AI可以來幫忙產業(yè)做提升。具體怎么提提升法?總結下來三點:降本增效、創(chuàng)新,后面會一一用例子解釋什么叫降本,怎么叫創(chuàng)新?
第一個降本的例子,降本增效和創(chuàng)新對于企業(yè)而言應該一個從低層次的訴求向高層次訴求往上走,現(xiàn)在可能降本增效多一些,創(chuàng)新的會少一點,但是我們相信后面會越來越多。
降本這一塊,幫保險公司做智能和保的案例,具體怎么來做?在以往的時候保險公司里面如果集中運營的中心經常會有大量的人去錄保單,做初審判斷這些事情。除了報單信息以外還有很多壽險提醒報告,還有醫(yī)院診斷通知書一類的內容。對于保險公司而言量太大,每個信息收集回來的話,成本太高了。對于保險公司怎么做?就是拿到這些報告,把認為幾個點或者是十幾個點信息收購錄進來,提交一份報告采集出來結構化信息有價值的信息,大概有2000項。也就是說100倍及保險公司因為成本的限制,可能丟失掉100倍的有用的信息,全部堆在檔案庫里面。
做智能核保的時候,我們主要用了OCR+NLP+分類引擎,相當于除了保單信息進來以后,把體檢這些其他的信息全部都結構化,再做一個大的核保引擎,錄進去全部信息,通過模型去算。下面有例子,最左邊的圖實際就是結構化出來的信息,外邊是體檢報告。這邊是健康的建議,比方說有什么風險是無,還是低風險,還是高?最右邊就是核保結論,給一個建議。
第二塊提升效率。幫北京地鐵做安檢時候的一個案例,也就是說過去安檢檢查違禁物品都是靠人去看的,我們把幾十種這樣的一些違禁物做訓練,訓練以后機器把特性提示出來。效率提高了20%,準確度達到了95.5%,提高安檢的速度。大家感覺過一個安檢儀耗時很長,這樣的技術手段可以改善感受,右邊有一個圖可以看到,用了這套技術以后,在高峰期基本上這個每小時通過可以通過200個。
還有一個提升效率的場景就是幫地鐵站做的人流監(jiān)控。有很多的傳統(tǒng)攝像頭,以往基本上靠人去做,因為出來全部是模擬影像數(shù)據(jù)流,都是靠人去去保安室去看,其實也做不出什么分析的東西。我們做的事情根據(jù)影像信息流用AI模型數(shù)人頭,可以判斷地鐵戰(zhàn)每個區(qū)域里面的人流密度,根據(jù)這個人流的密度調整地鐵站里面不同的通道的開關,可以幫地鐵站做疏導分流的決策。
創(chuàng)新這一塊其實現(xiàn)在來看會有一些比較有意思的,比方說講藥物做一個分析,在騰訊做得比較多。大家知道視頻、微信早幾年這些基于AI做小的創(chuàng)新場景的應用。
這么多的應用其實落地的時候遇到一些難題,怎么來看這些難題,怎么來解決這些難題?
人工智能應用開發(fā)與人工智能產業(yè)落地的挑戰(zhàn),我們認為主要五個方面:
第一,應用本身。也就是說場景越來越復雜,以往做一個應用可能只設計一個AI模型就夠了,越往后AI模型串接會越多,有一些涉及到里面一些分支、分杈不同的東西。這樣會帶來以往用煙囪式應用,這有點像早年的時候很多大的企業(yè)級架構,系統(tǒng)太多,煙囪式數(shù)據(jù)隔離了,系統(tǒng)之間的集成特別復雜。這個在未來AI應用越來越復雜也會有這樣的問題。
基礎設施的問題。大家知道做AI的應用,不管是訓練,其實對計算資源的要求非常高,比方說現(xiàn)在最近這幾個月比較火的NRP模型,這個模型覺得很好用,可以很快訓練出一個理解的模型,效果也很好。
這個模型訓練一下GPO成本都是好幾十萬美元,一般人肯定用不了。怎么樣把這個成本訓練成普通人可用的架構,這其實是需要考慮的一個問題。
數(shù)據(jù)的問題,在這邊其實看到幾個方面:AI模型對于數(shù)據(jù)的量和數(shù)據(jù)的質量都是很高的要求。
第二,你在訓練模型訓練好的以后,使用的時候有很多模型應用是包含了不同的AI模型,必然就會導致再使用這個應用的時候對這些不同的數(shù)據(jù)源就會存在很大一塊應用開發(fā)的量,對于概念里面去做AI都是模型訓練,數(shù)據(jù)科學家這種專門去研究算法,他們對于工程這一塊東西不是特別擅長,這一塊會出現(xiàn)提供AI的模型人,不知道怎么去關心怎么去數(shù)據(jù)集成進來。
應用這個模型的人就是客戶,他會覺得做這一塊的事情成本很高,很費勁。而且這一塊的事情跟業(yè)務的關聯(lián)不大,業(yè)務價值不高。例如,在一家面板廠做面板缺陷檢測,他提了七類缺陷,七類缺陷對應的每一類缺陷可能有不同的品牌的機臺,這樣的出來同一個缺陷表象一樣。也就是說對每一類機臺缺陷單獨建模,這樣帶來要建幾十個模型,導致標注成本上百萬。大家的共識就是得把這一塊的成本下來,解決大量標注的問題,以及在模型上線后需要不斷的迭代更新,否則效果會下降的。
迭代更新的時候如何把數(shù)據(jù)標注和迭代這一塊打通,這其實也是需要考慮的問題。另外還有跟設備有關,因為現(xiàn)在大部分的AI都是會和圖像、包括音頻有關系,這個肯定涉及到圖像的采集、包括OCR。這些都有設備,不同的設備其實標準比較多,如何接這些設備,是AI應用要去考慮的問題。
第二塊基礎設施的問題,大部分基礎設施第一是說貴,第二這些異構基礎設施如何托管,也是需要AI應用開發(fā)者考慮的問題。
第三,數(shù)據(jù)。不同的數(shù)據(jù)標準來自于國家、行業(yè)、來自于企業(yè),還有數(shù)據(jù)標注的量特別大,以往源源不斷的迭代就需要標注。
算法模型調優(yōu)這一塊,AI人工智能可以幫到我們,但是需要很大的建模的成本,需要很多人AI模型,一個模型是只能滿足一個問題。問題一多需要很多的模型,必然來大量一個建模成本的提高,所有廠商定制化建模解決種AI的滿足業(yè)務需求,其實都不太現(xiàn)實,因為成本太高了。
業(yè)界認為,解決人力的不足和大量這種多樣化、定制化需求,他的途徑其實有兩套路。自動機器學習,這個是可以看到未來擺脫人力在建模瓶頸一套可選的路。第二條路就是外部的力量,通過生態(tài)、引入、外部合作方式解決這個問題。眾人拾柴火焰高,其實這一塊也是可以在做AI應用考慮的一個問題。
再往后就是一些技術的手段,通過遷移學習,把以前網(wǎng)絡算法拿過來,強化學習,相當于可以去用獎懲機制提高模型的效果。
后面就是設備的問題,其實現(xiàn)在比較火一個概念就是云邊端協(xié)同,以往模型是放在云端的,那么前端的可能設備也好,或者是終端采集回來的數(shù)據(jù)往后臺丟,要么就是說可能有手機里面已經裝了小的AI模型在里面,那么這里面屬于端和云,現(xiàn)在的話最近提出一個概念,邊緣計算。
我們會在邊緣部署一個AI,它的好處會比端模型更復雜,但是它又會比云上的AI模型計算時候更快一點,因為更貼近場景。在這種情況下就會有大量的設備需要托管和管理的。
講了一下我們對AI產業(yè)落地中五個方面的難點,接下來看一下騰訊云怎么解決這個問題。我們認為應對上面五個挑戰(zhàn),比如說應用場景,需要對應用去做服務化的托管,做一些標準化的封裝。
另外,應用上面引入一些合作伙伴一起來做這個事情,涉及到合作伙伴的管理。接下來在資源這一層,我們認為可以去做一些引入微的服務架構,彈性伸縮,包括監(jiān)控容器化這樣的功能。包括對底層計算資源的一個托管,這樣的話其實用的容器化隔離地層易購的資源。
對于數(shù)據(jù),我們認為,其實異構的數(shù)據(jù)介入,還有不同的數(shù)據(jù)標準,數(shù)據(jù)標注。對于異構數(shù)據(jù)接入,我們的解決辦法市面上羅列出來的數(shù)據(jù)源的適配全部,做到對于應用開發(fā)者而言不用關心。
對于數(shù)據(jù)標準的適配也是一樣,我們會把一些主流標準、一些數(shù)據(jù)需要轉化或者是適配的模板做好。數(shù)據(jù)標注就兩條腿,對于不是特別敏感的數(shù)據(jù)可以這么做的。這個平臺關注模型訓練好以后應用就可以落地。
模型訓練完成了以后部署的服務,包括如何去迭代。模型的評估作為騰訊算是權威第三方對不同來源的做評估,供應用開發(fā)者去使用。包括邊緣的推理這也是需要解決的問題。
設備,主要做的幾個事情,一是設備的接入、設備的適配、設備模型的定義,包括設備升級和設備狀態(tài)監(jiān)控。為了達到前面講的這樣一些能力,我們推出這樣一款產品,云智天樞平臺全棧式人工智能服務平臺,這個平臺結構是像B字一樣。灰色的部分其實就是平臺本身,上面和下面其實都是屬于可以插在平臺上面外部一些能力。下面這一層把騰訊內部的AI的能力,包括外部合作的模型能力,包括數(shù)據(jù)、設備接在這個平臺上,上層可以基于原子能力通過服務化的調用和拼裝做應用。這個平臺主要會分成包含六個窗口,底層三個窗口算法倉庫、設備中心、數(shù)據(jù)中心,分別管理托管算法原子能力,設備原子能力的數(shù)據(jù)原子能力。AI工作室把底層這些原子能力通過一些工作流的調度傳接形成比較復雜的場景。
應用中心對這個封裝好的工作流做應用,應用可以在托管。管理一些基礎平臺管理的功能。
這一塊講平臺可以什么樣的方式來使用?我們這邊總結了有三種模式。
第一種模式AI中臺方式,作為一個企業(yè)級的AI中臺。
第二,某個客戶對某個應用場景有需求。
第三,有些AI應用廠商技術比較牛,它可能需要騰訊云提供拿到AI原子能力就可以,比如說人臉識別、語音、語意,這種情況以這種平臺作為模型托管的容器提供能力。
這邊是平臺的特性,我們認為有四個特性可以單獨講一講。
第一自動化的算法接入,我們這邊算法接入只需要點幾個按鈕就可以了。第二,全棧式的服務,從模型部署到模型的服務推理上線,反饋數(shù)據(jù)的采集、標注,模型的迭代包括設備的介入整個是打通的。第三,靈活定制。AI的工作室原子能力進行編排和調度的時候,其實需要少量的代碼。通過可視化、選擇配置就可以把一個工作流給配出來了。第四,對于云邊端混合部署和服務調度,包括數(shù)據(jù)終端的模型怎么推到邊緣,邊緣的狀態(tài)怎么回到云端等等這樣一些功能,我們都是支持。這是我們認為平臺的幾個特點。
對于平臺而言戶,其實不只是說企業(yè)級客戶,我們最早目標用戶客戶開發(fā)者,價值在于幫助開發(fā)者快速去構建應用,可以建模而言人分享自己的,獲得自己的收入。
以上就是我今天分享的內容。謝謝大家!