石教授說,我們所說的大數據主要來源自三個方面,第一是政府,政府每天會產生非常多的數據,信息量也非常大,而且很多原始數據都應該對普通民眾公開。第二是企業(yè),現在企業(yè)間的數據不能共享,如果不共享,這個數據就沒有生命力,很多工作都是重復勞動。最后是我們看到的公開的互聯網上面的數據,其中主要是社會數據和個人交互產生的數據。有了這些大數據,一定要做數據挖掘,根據數據挖掘來做出的決策,會改變我們的管理結構,因為數據挖掘本身就是決策的過程。這個過程具體可以分為樣本選取、數據變換、數據挖掘和數據展示等過程。
石教授同時也提到,我們傳統(tǒng)理解的大數據的觀點并不是完全準確的。比如說大數據研究應該既要全體,又要抽樣,這種說法就有問題,大數據中說的全體,也不是真正的全體,而且也不可能用全體數據去做預測。另外說大數據應從相關關系中把握因果關系與必然關系,這種說法不科學,數據因素多了,關聯多了,并不一定能找到因果關系,這是不必然的。
石教授認為大數據是數字化生存時代的新型戰(zhàn)略資源,是驅動創(chuàng)新的重要因素,正在改變人類的生產和生活方式。通過最近幾年團隊的工作,他們在數據挖掘領域做出了不少基于大數據的相關應用。
比如針對銀行信用卡、保險和房地產貸款市場,要想做精準營銷,就需要通過非常多的客戶的交易記錄來把客戶分類,分成第一徹底破產,第二部分破產,第三是呆賬,第四是正常人,第五叫高端客戶,所以你發(fā)現,這個數據表是開展業(yè)務的基礎。通過類似的系統(tǒng),可以讓銀行信用卡辦理業(yè)務的時間由原來的一周減到2天,因為現在在美國辦理信用卡就是2天?,F在通過石教授的這個系統(tǒng),五秒鐘,只要把信息填進去,兩秒半在整個大數據計算里面跟庫里面的數據進行比較,跟你相近的找出來,很精準。
另外 ,在金融交易領域和一號店的客戶評分系統(tǒng),也都運用了石教授的系統(tǒng),為他們的業(yè)務提供了更加可靠的決策和支持。
大數據作為一個新生事物,才剛剛發(fā)展起來,未來還有很遠的路要走,石教授在演講的最后希望產業(yè)界的朋友能夠多多與學術界做交流互動,培養(yǎng)出更多更加專業(yè)的大數據人才。
(本文為作者根據現場的演講人意思整理,如有曲解,請石教授見諒)