郭朝暉于1997年加盟寶鋼,長期從事信息,模型,自動控制,大數據等領域的技術研發(fā)工作,在企業(yè)一線積累了寶貴的經驗。
他表示,工業(yè)大數據能否真正落地,取決于能否創(chuàng)造經濟價值。要體現價值,必須找到合適的場景。而價值的持續(xù)創(chuàng)造,必須與日常的生產或管理流程相結合。為此,必須理解工業(yè)大數據的特殊要求,那就是可靠性。
可靠:工業(yè)的基本要求
工業(yè)數據分析的項目常常不了了之、虎頭蛇尾。為什么呢?
業(yè)界在談到數據應用的時候,往往是在說它好的一面,比如說數據中有信息,數據中有知識,數據是有用的;但是,業(yè)界往往會忽略其另外一面,比如說數據有假的,有錯的,有偏差很大的,有暫時性的。
特別地,人們對分析結果有一個基本的要求:可靠??煽啃砸蠛褪褂脙r值往往是硬幣的兩面:如果價值很大,則往往對分析結果的可靠性要求很高;反之,對可靠性要求不高的分析,價值也不會很大。如果正確的分析結果能夠帶來很大的效益,錯誤的分析結果往往也會帶來巨大的損失。
工業(yè)大數據分析結果的可靠性成為重中之重。然而,當前無論是從數據質量層面,亦或是在分析理論層面,工業(yè)大數據均面臨挑戰(zhàn)。
在工業(yè)過程中,數據質量差是種常態(tài)。在傳統(tǒng)的分析理論,同樣面臨挑戰(zhàn)。
場景一:鋼鐵的成分和工藝怎么提升煉鋼的性能,這個模型的建立非常重要,這是鋼鐵工業(yè)60多年來的一個夢想。但是在建模的過程中,分析師會發(fā)現模型的精度總是提不高,不同的人會得出完全不同的模型。
是否存在精確的模型?郭朝暉的結論是:不可能的。因為數據的誤差制約了模型的精度。
在實踐中,郭朝暉發(fā)現,如果自變量存在顯著誤差,用誤差最小化的優(yōu)化方法,可能都存在分析結果與真實性的偏離的問題。這對傳統(tǒng)建模理論是一個極大的沖擊。
場景二:相關性與因果性。比如,A鋼種,很少發(fā)生缺陷,所以不對其進行檢驗,B鋼種容易發(fā)生缺陷,必須經常進行檢驗;導致的結果卻是,A鋼種缺陷率高,B鋼種缺陷率低。
長期以來,在工業(yè)過程中,工程師往往采用前饋、反饋的手段,構成一個復雜的人造系統(tǒng)。所以常常有這樣的現象(幾乎是必然會發(fā)生的):某一個變量如果有重大影響,權重極高,分析師一定會想方設法降低其影響力。
這說明,從工業(yè)大數據中淘金,相關性分析可能是不夠的。
回歸分析與相關性分析,都存在某種程度的失效,工業(yè)大數據還能怎么玩?
工業(yè)條件往往不高,導致分析師不能提出不現實的數據的要求;分析的誤差也比較大,因為過程中看不見的原因有很多……這都是造成最后的分析結果似是而非,不了了之。
怎么辦?
提高數據質量 采用合理的分析方法
可靠性是工業(yè)大數據的靈魂,這與商務大數據(包括互聯網大數據)具有本質的不同。那么,怎么提高工業(yè)大數據的可靠性?數據質量和分析方法(思路),成為兩大關鍵,而組織好數據是基礎。
郭朝暉表示,在思維上,要認識到工業(yè)大數據要求數據的完整性與真實性,包括存儲數據時的真實性,組織數據時的結構化,分析數據時的預處理。
如果在開始時,數據沒有進行很好的組織,到最后肯定是分析不出結果的。因此,要想把工業(yè)大數據用好,在分析階段,在組織數據和收集數據時,就該想到數據是干什么用的,否則很有可能收集到的數據是不能用的。
“首先是為人的分析創(chuàng)造條件,然后才能有自動化的分析?!惫瘯熣f。
2013年3月,IBM公司在發(fā)布的《分析:大數據在現實世界中的作用》白皮書中,對大數據的4V理論進行了修改,把其中的商業(yè)價值(Value)修改為Veracity(真實性)。IBM認為,“前3個V涵蓋了大數據本身的關鍵屬性,但真實性是當前企業(yè)亟需考慮的重要維度,將促使他們利用數據融合和先進的數學方法進一步提升數據的質量,從而創(chuàng)造更高價值?!?/p>
據介紹,對于真實性,寶鋼老專家王洪水認為,真實性首先是數據的完整性,數據之間的聯系要盡可能完整地記錄下來。而郭朝暉認為,我們不僅要知道數據是什么,還要知道數據是怎么來的。有時候,這比數據本身更重要,是分析問題的關鍵所在。
一個完整性,不僅僅包含過程本身、對象本身的完整性,還要包含數據本身的邏輯的完整性。這樣,在使用的時候,才能不被假象所誤導。事實上,“做數據分析的,本身就是不斷地與假象做斗爭?!?/p>
有專家認為,數據分析無非有兩種方法,一種是先對數據的分布做出某種假設,結論的正確性依賴于假設的正確性;另外一種不作出假設,直接根據數據之間的關聯得出結論。所有的方法,離不開這兩種。如果第一種方法的前提可行,結論一定是可靠的。但現實問題卻是:數據分布往往不能滿足某些分析方法的要求。
郭朝暉認為,為此要把分析的重點轉到幕后去,也就是在原始數據的基礎上,通過人工分析來選定數據和創(chuàng)造條件,從而得到一個可靠的統(tǒng)計的辦法。
“絕對可靠是不存在的。我們只能得到相對的可靠。如果從多個維度去論證其合理性,并且沒有明顯的反例,我們或許就可以認可這個結論?!?/p>
從數據到數據的方法就像是坐井觀天:因為我們不知道數據產生背后的原因。同時,工業(yè)界的數據往往是多維度的,如果僅僅想從數據本身證明某個結論,數據量往往是不夠的。
“一定要把知識和機理融合進去,當這兩者同時滿足時,才有可能得到一個可靠的結果?!?/p>
合適的場景決定了工業(yè)大數據的價值
在現實中,往往先進的東西不實用,實用的東西往往不先進;對于新技術,只有運用于經濟活動并取得經濟成功才算是創(chuàng)新;同理,只有創(chuàng)造價值,工業(yè)大數據才有生命力,才能真正在企業(yè)落地。
郭朝暉認為,一個技術的價值,取決于用戶怎么看待它。大數據能不能落地,關鍵的問題,是能不能找到合適的場景,而不是技術本身的先進性;不僅如此,還要看投入產出比是否合適。
場景一:GE是用工業(yè)互聯網獲得大數據、降低維修成本,提高可靠度。由于航空發(fā)動機的維修成本很高,對可靠性的要求也非常高。因此,如果能通過大數據分析,找到恰當的知識,就可以復制到成千上萬個發(fā)動機產品上,能降低成本,提高可靠度。
場景二:河南省有一個小工廠,基本上沒有操作工。他們把每個環(huán)節(jié)的數據及時存儲起來。出了什么問題,怎么出的問題,哪個環(huán)節(jié)有問題,都能溯源。
所以:1.GE的想法非常好,可并不見得適用于每個企業(yè),因為投入產出比太高。2.高質量、無人化的場景之下,數據非常重要。
結論:數據是否有用,關鍵在于用戶是否對高質量的產品有很高的追求。如果有,那么數據的價值自然會被帶動;反之,當企業(yè)對質量不關注,再好的數據也是沒有用的。
場景三:上海寶山某豆腐工廠,員工有1000多人,但是豆腐質量不好,工人的操作水平無法得知。最后,豆腐廠老板在工廠里安裝了攝像頭,于是產品質量馬上變好了。
所以:雖然工廠領導并沒有看監(jiān)控,但無疑攝像頭起到了威懾的作用。
結論:中國的經濟起步于農業(yè)經濟,工業(yè)化還不成熟,人的規(guī)范性、職業(yè)道德各個方面有待提高,不具備精益求精的精神。所以,用大數據提高管理水平是重要的應用場景。
郭朝暉建議:能不能通過大數據,把每一個生產流程記錄下來,然后讓研發(fā),采購,銷售,設備維護,都很規(guī)范地運行,當出現違規(guī)時,就用一個算法進行示警?
“在某些傳統(tǒng)企業(yè),管理漏洞導致的浪費可能大于總利潤。大數據記錄可以看作一種抽象的‘錄像’,對提高管理水平的價值是很大的,或許適合很多中國企業(yè)?!彼硎?。
工業(yè)大數據是對生產、研發(fā)、服務過程的痕跡的數字化記錄,其目的是建立以數據說話的基礎,它常常是對數據資源的二次利用,是通過間接的途徑創(chuàng)造價值。因此,只有將大數據的功能和業(yè)務流程綁定,才能持續(xù)地創(chuàng)造價值。
“我認為工業(yè)大數據的主要價值,或許不在于發(fā)現規(guī)律性的知識,而在于提煉出有用的信息。用這些信息驅動軟件化、模型化的知識,可以智能化地解決管理問題?!惫瘯熑缡钦f。