噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

大數(shù)據(jù)商策聯(lián)盟創(chuàng)始人俞楠:如何愉快的和別人討論大數(shù)據(jù)

范喆 發(fā)表于:14年12月02日 19:24 [原創(chuàng)] DOIT.com.cn

  • 分享:
[導(dǎo)讀]2014(第十屆)中國存儲(chǔ)峰會(huì)今天在北京召開,大會(huì)以“掌控?cái)?shù)據(jù)經(jīng)濟(jì),重塑商業(yè)價(jià)值”為主題,詮釋在IT走向DT時(shí)代下,如何通過數(shù)據(jù)重塑商業(yè)價(jià)值。在當(dāng)天下午的大數(shù)據(jù)分論壇上,來自大數(shù)據(jù)商策聯(lián)盟創(chuàng)始人俞楠與大家一同分享了《如何愉快的和別人討論大數(shù)據(jù)》。

2014年12月2日DOIT編輯北京報(bào)道:2014(第十屆)中國存儲(chǔ)峰會(huì)今天在北京召開,大會(huì)以“掌控?cái)?shù)據(jù)經(jīng)濟(jì),重塑商業(yè)價(jià)值”為主題,詮釋在IT走向DT時(shí)代下,如何通過數(shù)據(jù)重塑商業(yè)價(jià)值。大會(huì)共邀請(qǐng)了 16位頂尖第三方嘉賓,數(shù)十位專家,帶來了35場前瞻性演講+2場圓桌討論,并首次推出硅谷創(chuàng)始人訪談和存儲(chǔ)夜宴活動(dòng)!

在當(dāng)天下午的大數(shù)據(jù)分論壇上,來自大數(shù)據(jù)商策聯(lián)盟創(chuàng)始人俞楠與大家一同分享了《如何愉快的和別人討論大數(shù)據(jù)》。

以下是演講實(shí)錄:

俞楠:大家好,我原來也是在存儲(chǔ)行業(yè)做了差不多快15年。在15年前,我在集成廠商做過,剛才他們講的一些歐美的企業(yè)廠商我也工作過,我自己本身從技術(shù)開始,一直跟著DOIT,在行業(yè)當(dāng)中也看到很多問題,今天跟各位分享一下我們的經(jīng)驗(yàn)和觀點(diǎn)。

為了搞笑一點(diǎn),我把我的抬頭改成無證數(shù)據(jù)科學(xué)家。上午有一位做科學(xué)數(shù)據(jù),我叫數(shù)據(jù)科學(xué),其實(shí)這個(gè)沒有什么太大區(qū)別,本身還是在于對(duì)數(shù)據(jù)的使用。前面很多專家,同行都講各自的方案,其實(shí)這里面會(huì)有一個(gè)問題。我們實(shí)際上發(fā)現(xiàn)業(yè)界所做的這些技術(shù)已經(jīng)遠(yuǎn)遠(yuǎn)超過了產(chǎn)業(yè)界的需要跟發(fā)展。事實(shí)上我們假設(shè)它在處理數(shù)據(jù)的時(shí)候會(huì)碰到各種各樣的問題。比如處理新聞的慢,帶寬不足,事實(shí)上他們還沒有到這個(gè)階段,在這個(gè)階段之前有一個(gè)更前端的問題,就是他們?cè)趺从玫。所以,在這個(gè)角度,我們可以從商業(yè)的角度談一下我們?cè)趺纯创髷?shù)據(jù)這件事情,你跟別人聊天是怎么聊的。

所以,今天我的議題大概也是從三個(gè)方面開始進(jìn)行著手。第一、跟大家進(jìn)行一些簡單的交流,把我對(duì)大數(shù)據(jù)的看法跟認(rèn)識(shí)跟大家做一些討論。第二、剛才聽了很多技術(shù),我分享一些案例,這個(gè)案例產(chǎn)生的時(shí)候,那時(shí)候沒有大數(shù)據(jù)。但是,你竟然的發(fā)現(xiàn)這家公司所做的就是大數(shù)據(jù),而且是非常成功的大數(shù)據(jù)。最后給大家做一點(diǎn)小小的科普,雖然來的都是專家,但是這個(gè)科普會(huì)給大家講一些可能大家以為很熟悉,其實(shí)你發(fā)現(xiàn)完全不是那么回事的技術(shù)。

從交流開始,大家定一下什么是大數(shù)據(jù)。如果把每個(gè)人對(duì)于大數(shù)據(jù)的定義比作盲人摸象,其實(shí)每個(gè)人對(duì)大數(shù)據(jù)的定義都不一樣。你們認(rèn)為大數(shù)據(jù)可能是一種思維,是一種武器,有些人甚至認(rèn)為它是一種技術(shù),像今天我們會(huì)偏重大數(shù)據(jù)的技術(shù)角度。還有些人認(rèn)為大數(shù)據(jù)是將來競爭的手段,我們從IT轉(zhuǎn)到DT,轉(zhuǎn)的就是資產(chǎn)。還有人認(rèn)為大數(shù)據(jù)代表商業(yè)的環(huán)境,其實(shí)這些概念都對(duì)。所以,我們可以這么想,大數(shù)據(jù)是一個(gè)整體的產(chǎn)品,不能脫離任何的一個(gè)層面。你跟別人談大數(shù)據(jù),怎么把這個(gè)話題真正切入到大數(shù)據(jù)范疇。

這是一個(gè)悖論,維克托·邁爾-舍恩伯格的《大數(shù)據(jù)時(shí)代》里面談到他的一些觀點(diǎn),我認(rèn)為也對(duì),也不對(duì),他說數(shù)據(jù)越多越好,其實(shí)多是一個(gè)相對(duì)概念,多少算多。依然取決于你取得數(shù)據(jù)的能力。數(shù)據(jù)量的增大會(huì)帶有原有規(guī)律的嚴(yán)重失真。今天中午吃飯跟幾個(gè)專家在聊天,他們說其實(shí)業(yè)界對(duì)大數(shù)據(jù)的定義都認(rèn)為Excel做透視表。數(shù)據(jù)量的增大只會(huì)造成結(jié)果的不準(zhǔn)確,所以我們剛才談了很多,如何處理它,如何處理瓶頸,其實(shí)前面還有很多,構(gòu)造怎么清晰,怎么過濾,這才是大數(shù)據(jù)之前要做的事情,完全才會(huì)到我們底層,你用Hadhoop,還是用類似數(shù)據(jù)庫。我們今天這個(gè)論壇的主題叫做用大數(shù)據(jù)挖掘商業(yè)價(jià)值,其實(shí)應(yīng)該把商業(yè)放在第一位。

樣本=全量,根本不存在全量就算有,你也得不到,任何企業(yè)只能拿到相當(dāng)有限的數(shù)據(jù)。在國內(nèi)P2P音容非;,有一家排名前三的P2P,他怎么做P2P的風(fēng)險(xiǎn)審核,找了200多人的風(fēng)控團(tuán)隊(duì)拿著Excel為表看,分初控、中控跟終審,這樣的一家公司,公司發(fā)展規(guī)模這么大,每天處理200筆P2P貸款業(yè)務(wù)。如果把200筆想象成IO,7200轉(zhuǎn)一秒鐘過了IO可能都達(dá)不到峰值。

第二、放棄精準(zhǔn)性,接受混雜性,因?yàn)槟阋牟⒉皇勤厔?shì),而是根據(jù)在座每一位的特點(diǎn)定制出一個(gè)產(chǎn)品,這才是將來商業(yè)需要做的。有一些人是投資者,還有一些初創(chuàng)的,其實(shí)就算初創(chuàng)型的公司也分不同的行業(yè)。

第三、知道“是什么”就夠了,沒有必要知道“為什么”數(shù)據(jù)最終為個(gè)人服務(wù),這個(gè)為什么談到個(gè)人隱私,就是這個(gè),如果個(gè)人只是作為一個(gè)ID,或者基于這個(gè)ID一系列數(shù)據(jù)分析匯總統(tǒng)計(jì),你知道數(shù)據(jù)不代表什么。所以,這里其實(shí)每一個(gè)話都要設(shè)一個(gè)前提條件,如果沒有這個(gè)前提條件,你跟別人聊,我是大數(shù)據(jù),大數(shù)據(jù)就是樣本等于全量,這個(gè)其實(shí)是開玩笑的,很典型你不是甲方的人,你也沒有做過甲方。

這里有一個(gè)迷思,是大,我們這里講了Google、或者百度,或者Bing。上午一個(gè)專家講,如果你在阿里上搜索一樣?xùn)|西,然后你把瀏覽器關(guān)掉,你這個(gè)時(shí)候打開優(yōu)酷,或者打開別的什么網(wǎng)站,你會(huì)發(fā)現(xiàn)旁觀有一個(gè)你剛才瀏覽過的東西的推薦,這是基于Cookie做的。如果你在阿里上瀏覽一個(gè)冰箱,你發(fā)現(xiàn)這個(gè)東西價(jià)格差的太大,我轉(zhuǎn)到京東上看一下,然后到京東上看完,京東不錯(cuò),我又到蘇寧網(wǎng)站看了一下,最終在京東下了訂單,這時(shí)候你再打開瀏覽器,還是會(huì)有,因?yàn)榘⒗锊豢赡苤滥阍诰〇|上已經(jīng)買完個(gè)東西,談何精準(zhǔn)營銷呢?所以,事實(shí)證明光“大”是不行的,真正的指標(biāo)是什么?這個(gè)值得大家思考。

還有一些迷思是統(tǒng)計(jì)算法,上午談到過了雙十一以后,哪個(gè)地區(qū)的女生會(huì)買什么Size的內(nèi)衣,會(huì)給你一個(gè)統(tǒng)計(jì),因?yàn)檫@個(gè)統(tǒng)計(jì)非常簡單,一看湖南省發(fā)貨量C Size多少個(gè),這些數(shù)據(jù)未必百分之百準(zhǔn),但是它代表一定的趨勢(shì)。還有一個(gè)他不關(guān)心原因,而關(guān)心相關(guān)性,但是核心的問題不在于相關(guān)性。你看一下,其實(shí)基于數(shù)據(jù)科學(xué),或者我們一直強(qiáng)調(diào)數(shù)據(jù)科學(xué),如果大家關(guān)心這幾年趨勢(shì)的峰值服務(wù),你發(fā)現(xiàn)大數(shù)據(jù)在前兩年屬于頂峰期,今年已經(jīng)很下降了,跟前幾年的云計(jì)算是一樣的。今年取而代之在大數(shù)據(jù)的就是數(shù)據(jù)科學(xué),因?yàn)樗皇怯蓴?shù)據(jù)出發(fā),而是由業(yè)務(wù)作為出發(fā)點(diǎn)。所以,它之間的相關(guān)很可能不具有價(jià)值,所以這是一個(gè)英文的職業(yè),所以說,這個(gè)我們所說的數(shù)據(jù)科學(xué)家不應(yīng)該是一個(gè)人,它應(yīng)該是一個(gè)團(tuán)隊(duì),是業(yè)界專家,優(yōu)秀的數(shù)據(jù)科學(xué)家。如果我們做團(tuán)隊(duì),怎么從業(yè)務(wù)出發(fā),從里面挖掘數(shù)據(jù)呢?

目前來講,我認(rèn)為現(xiàn)在很多大數(shù)據(jù)分析都是偽大數(shù)據(jù),我都會(huì)從幾個(gè)可操作成本考慮,目前大數(shù)據(jù)在商業(yè)方面的用途主要集中在三個(gè)方面。第一、Social-CRM。第二、推薦系統(tǒng)。第二、營銷系統(tǒng)。因?yàn)檫@兩個(gè)系統(tǒng)的容錯(cuò)空間比較大,推薦給你錯(cuò)了,大不了再推薦一次。如果你把大數(shù)據(jù)用在一個(gè)商業(yè)指標(biāo)上,讓今年的股票上升一塊錢,你看看敢不敢這樣做,因?yàn)樗粶?zhǔn)。所以,我們今天看到營銷,這也是為什么你拿樣本,拿全量,不如拿到一個(gè)人小規(guī)模的樣本,因?yàn)槟悴涣私馑?/p>

所以,這個(gè)里面特一些我覺得稍微比較老土,或者學(xué)術(shù)化的觀點(diǎn)。大家都是做IT的,可能有一天都會(huì)變成一個(gè)創(chuàng)業(yè)者,你任何思考角度不應(yīng)該從底層角度思考。比如要學(xué)會(huì)量化事物,大數(shù)據(jù)主要做量化分析,如果妹子們將來跟男朋友說,你不愛我,我建議你這樣講,上周你陪了我七天,每周1個(gè)小時(shí),本周你陪了我3天,每次25分鐘,從數(shù)據(jù)表明,你對(duì)我的關(guān)心在下降。第二、不要現(xiàn)象分析及要做預(yù)測(cè)。大部分時(shí)間,其實(shí)這個(gè)商業(yè)應(yīng)用是市場或營銷人員。對(duì)于技術(shù)人員,更多考慮實(shí)現(xiàn)的手段和效率,大數(shù)據(jù)其實(shí)應(yīng)該是怎么去實(shí)現(xiàn)?比如你有大量的文本文件,有大量的語音語義的分析系統(tǒng),比如剛才講了一個(gè)叫輿情分析系統(tǒng),就是評(píng)價(jià)這個(gè)人的傾向。上海一個(gè)汽車廠說,有了這樣一個(gè)東西真好,微博,我可以在上面做民意調(diào)查,有一款樣車要投產(chǎn),他發(fā)現(xiàn)轉(zhuǎn)發(fā)率非常高,結(jié)果虧了幾千萬。再仔細(xì)一看,發(fā)現(xiàn)很多人在底下轉(zhuǎn)的是說從來沒有見過這么難看的車。還有一句,重音放在哪個(gè)字節(jié)上,這句話完全有不同的含義,但是重音在大字上是看不出來的,比如這句話?我沒有說你不好,把重音放在“說”上,或者把重音放在“你”上,我沒有說你不好,我說小明不好。所以,這個(gè)方面科大訊飛走的非常領(lǐng)先,可以根據(jù)你的語音得到你的情感。還有不單是互聯(lián)網(wǎng)思維,更要移動(dòng)互聯(lián)網(wǎng)思維。手機(jī)可以作為你器官的一個(gè)延伸。數(shù)據(jù)要獲取,前提是要被量化,然后是情景化,這個(gè)采集好,才能做后面的分析乃至于挖掘,所以第一步非常重要。

我問過很多人,關(guān)于量化是什么意思?我做過小測(cè)試,如何量化湖里魚的總數(shù),答案非常多。其實(shí)這里混淆了一個(gè)概念,就是量化跟精確技術(shù)是不一樣的,你要做的只是把這件事情量化,但是不是精確的使用這數(shù)據(jù),比如今天來了76個(gè)人,我看了一下今天大概來了70多個(gè)人,這是量化。海外科學(xué)家怎么做的?它先抓一批魚,假設(shè)1000條,然后把魚打了標(biāo)記再放回去,過一段時(shí)間,再打一批魚,發(fā)現(xiàn)有多少打了標(biāo)記,如果還有50%,這說明有1000條左右。這其實(shí)才是我們今天要討論的,就是要設(shè)定情境,情境在學(xué)術(shù)當(dāng)中叫基于上下文。如果你要獲取大數(shù)據(jù)資源,從哪里采集數(shù)據(jù),一定要設(shè)定一個(gè)情境,情境構(gòu)造一個(gè)特定的環(huán)境,情境是屬于每個(gè)人在這個(gè)情境當(dāng)中所做的事情是完全不一樣,會(huì)根據(jù)環(huán)境進(jìn)行區(qū)分,而不是你這個(gè)人進(jìn)行區(qū)分,這是大數(shù)據(jù)獲取的第一步。

我們可以看到,如果把情境的影響因子解釋成X,當(dāng)情境變化的時(shí)候,這件事情會(huì)發(fā)生改變,比如同樣今天坐在這里,假設(shè)今天換一個(gè)情境,假設(shè)是復(fù)旦的校友會(huì),情境完全不一樣。比如這些情境,流失模型、購物籃分析、推薦系統(tǒng),比如有一個(gè)客戶畫像系統(tǒng),基本上通過手機(jī)號(hào)可以知道你年齡是多少,因?yàn)槭謾C(jī)號(hào)碼不會(huì)告訴你性別,平時(shí)買過什么東西,大概可能住在哪里?這怎么可能?當(dāng)然有可能。

如果在一個(gè)大數(shù)據(jù)的系統(tǒng)當(dāng)中,可能涉及到的東西非常多,在樹干上可以延展出這么多枝丫,宏觀的、微觀的,做洞察的,我們上個(gè)星期給車聯(lián)網(wǎng)的做了一個(gè)畫像,這是宏觀的,另外有一個(gè)微觀的。另外這群人,它的社交頻度都不一樣,有一個(gè)挺有意思的現(xiàn)象,就是車友會(huì),你覺得你開寶馬能不能加入馬薩拉迪的車,這是不可能的,但是誰規(guī)定開包車的人不可以認(rèn)識(shí)馬薩拉迪的人,是人為的畫了一些界限。還有一個(gè)做完這些分析以后,你最終要做汽車后市場,舉個(gè)例子,怎么做汽車后市場,如果我知道你開的是別克,2012款,紅色,2.0T排量,當(dāng)時(shí)買車預(yù)估28萬,經(jīng)過兩年,假設(shè)沒有任何大的碰撞,現(xiàn)在車假跌到18萬。現(xiàn)在要對(duì)接一個(gè)金融,就是要推一輛奧迪A1車,這輛車30萬,我為什么要推給你,因?yàn)槟阍趧e的網(wǎng)站經(jīng)?催@輛車。所以,這就是我說,他知道真正精準(zhǔn)的了解你,才能做真正精準(zhǔn)的匹配,這才是大數(shù)據(jù)將來做營銷的意義。所以,一定要看到微觀和宏觀的畫像。

這個(gè)人的社交、活躍度,這個(gè)比較簡單,它只是代表他不同的緯度而已。從平臺(tái)角度來看,排除掉剛才我們所講的任何的公司,產(chǎn)品,所以公司的大數(shù)據(jù)架構(gòu)幾乎都是這個(gè)樣子。在前面少了什么東西?我們把采集系統(tǒng)跟清洗系統(tǒng),有人知道ETL,ETL其實(shí)很難,因?yàn)槟阋麓驑?biāo)簽,再做清洗,再做過濾。上海有一個(gè)實(shí)時(shí)的抓套牌車,如果你車停在紅綠燈這邊,首先有一個(gè)攝象頭,把你的車牌拿到,OCR掃描出來,放到庫里做碰撞比對(duì),庫里大概10億多,原來碰一次到半個(gè)多月,等你車開到安徽,它在里面還沒有,現(xiàn)在要求5秒鐘之內(nèi),你想這個(gè)難度有多高,這就是實(shí)時(shí)的,而且還沒完,分析出你這輛車是套牌車,要通知刑警在下一個(gè)可能的路口布控把他逮到。交通警跟刑警沒有關(guān)系,你怎么調(diào)配它的系統(tǒng)。還有要實(shí)時(shí)相應(yīng)的是12306,買火車票,你說你按一下查詢,結(jié)果它半個(gè)月以后告訴你沒有票了,這簡直是開玩笑,你不用回家了。所以說,不同的反映對(duì)于大數(shù)據(jù)的架構(gòu)不一樣。比如金融,上海有一家公司叫大智慧,做股票分析行情的,它的就是把所有數(shù)據(jù)拿回來,清洗以后給你一個(gè)新聞,幾千億。所以,其實(shí)不同的大數(shù)據(jù)下,應(yīng)該選擇不同的應(yīng)用,這是我們?cè)谇岸丝吹降母蟮膯栴}。

講一下算法,算法要做什么東西?你想解決什么問題,你就后面有什么算法,我等一下會(huì)跟大家講一個(gè)算法,這個(gè)算法在我的公眾號(hào)上也有這個(gè)例子,這個(gè)例子非常經(jīng)典,它里面就用一個(gè)算法,我的想法,希望不管用不用IT技術(shù),這個(gè)算法可以在一分鐘之內(nèi)學(xué)會(huì)。這是其他的一些常用算法。

今天重點(diǎn)想跟大家分享一個(gè)案例,這個(gè)案例是2009、2010年做的,在當(dāng)年沒有大數(shù)據(jù),但是這個(gè)案例非常經(jīng)典。這是一個(gè)啤酒廠。這家啤酒廠本來要倒閉了,廠里有5000多人,在中國的南部,一個(gè)本地的小啤酒廠。他發(fā)現(xiàn)原來啤酒產(chǎn)能要靠代理商下訂單計(jì)算出來,下10萬箱,生產(chǎn)10萬箱,總有淡季、旺季。所以,廠長找到我們,我每天就想三件事兒。第一、產(chǎn)能怎么調(diào)整的準(zhǔn)一點(diǎn)。第二、怎么知道別人愛不愛喝我的啤酒。第三、我每天養(yǎng)5000多人,他沒有說Hadhoop怎么做,廠長不關(guān)心這個(gè)東西,廠長關(guān)心這個(gè)東西,這個(gè)是做商業(yè)。所以,你一定要把一把手拉進(jìn)來。

其實(shí)我們想了一個(gè)業(yè)務(wù)目標(biāo)的轉(zhuǎn)化過程,廠長提了三個(gè)問題,中國人開會(huì),一群人開會(huì),說怎么才能調(diào)整,我需要知道市場上真實(shí)的數(shù)據(jù),不是代理商給我10萬箱,8萬箱。第二、需要市場調(diào)研,原來沒有做。第三、根據(jù)上面的兩點(diǎn)制定新的銷售目標(biāo),這時(shí)候生成了一些最終的他可能要生產(chǎn)的東西。

當(dāng)時(shí)廠長說,第一、每個(gè)產(chǎn)線工人都去給我干銷售。第二、每個(gè)人配一臺(tái)智能那個(gè)什么東西。第三、工人的工資根據(jù)銷售量來決定。工人有固定工資,產(chǎn)能多少跟你沒關(guān)系,銷售的工資才是根據(jù)銷售量的。這是一個(gè)很大的創(chuàng)新。然后他做了這樣的業(yè)務(wù),大家對(duì)這個(gè)LoGo有沒有了解,當(dāng)年的Windows系統(tǒng)。他說你們明天不要來上班了,中間給我一家一家問,只問兩個(gè)問題,你昨天買了多少箱啤酒,今天你還進(jìn)多少箱,所以第二天可以精確到瓶。然后又延伸出幾個(gè)非常有意義的東西。第一、電子簽到,你不要來我們這兒,直接從街上小河邊簽到。第二、終端情況,他最后做到多細(xì),娃哈哈送水站,要多少箱啤酒。簽約情況。第三、GPS拜訪路徑,這個(gè)非常恨,這個(gè)東西才是最好玩的,本來當(dāng)時(shí)工人就差那啤酒砸我了,后來說我怎么知道你在不在,原來一小時(shí)上報(bào)一次地理位置,現(xiàn)在你每多出一家,給你一塊錢。后來工人提出能不能把上報(bào)時(shí)間改稱一分鐘,因?yàn)槲遗艿暮芸。后來他說為什么我去過那家,你沒有我的路徑,他會(huì)求你把他的路徑報(bào)上去。這時(shí)候你跟他說,這張圖出來,為什么河那邊沒有人買我們的啤酒,這是每天都會(huì)有,派一批人,你承包這一片,你承包那一片。到最后達(dá)到一個(gè)反效果,本來要開除5000工人,結(jié)果發(fā)現(xiàn)工人不愿意回來上班,產(chǎn)線上沒有工人。

他做了什么呢?第一、移動(dòng)營銷新平臺(tái)。第二、精準(zhǔn)考核。第三、數(shù)據(jù)上報(bào)準(zhǔn)確率提高。第四、對(duì)競爭對(duì)手的掌握了如指掌。第五、經(jīng)銷商的服務(wù)質(zhì)量監(jiān)控。第六、市場動(dòng)態(tài)精準(zhǔn)化。第七、及時(shí)提供決策依據(jù)。這家啤酒廠在廣西那邊。

講完啤酒,跟大家科普一下啤酒這個(gè)東西。大家知道啤酒與尿布這個(gè)案例嗎?這個(gè)故事我先重復(fù)一遍,就是美國一家超市沃爾瑪,發(fā)現(xiàn)啤酒和尿布的銷售是呈正關(guān)聯(lián),所以把尿布放在啤酒邊的位置可以帶動(dòng)銷售。他怎么知道這兩個(gè)東西有正相關(guān)。這個(gè)故事有兩個(gè)意思,第一、大家對(duì)大數(shù)據(jù)實(shí)際的使用機(jī)制不了解,只知道Hadhoop,還是在內(nèi)存應(yīng)用,其實(shí)企業(yè)主關(guān)心這個(gè),他想問你,如何用數(shù)據(jù)和算法給我?guī)韺?shí)實(shí)在在的利潤,所謂價(jià)值就是利潤,不然你怎么叫商業(yè)價(jià)值?談到賺錢,談到利潤,大體就兩個(gè)思路。第一、提高門檻。第二、發(fā)現(xiàn)一些規(guī)則。你怎么發(fā)現(xiàn)?其實(shí)啤酒和尿布的關(guān)聯(lián)性只為了提高銷量。什么叫關(guān)聯(lián)呢?假設(shè)你買了牙膏,你會(huì)發(fā)現(xiàn)旁邊還有一個(gè)柜子賣牙刷,這是最基本的嘗試。啤酒和尿布為什么深入人心呢?是因?yàn)槟惆l(fā)現(xiàn)這個(gè)組合很有想象力。因?yàn)樗搅朔N族,竟然能關(guān)聯(lián)起來,你說尿布,或者不同品牌的尿布它可能有關(guān)聯(lián)性,或者嬰兒用品,或者奶粉,怎么跟啤酒有關(guān)聯(lián)性呢?所以說,這個(gè)最大的問題在于它是怎么超越種族進(jìn)行關(guān)聯(lián)?給大家隆重介紹一下這個(gè)算法,叫Apriori。

假設(shè)現(xiàn)在有六張購物清單,現(xiàn)在開始數(shù)數(shù),每種東西出現(xiàn)在幾張購物單上,比如大家看到火腿,1345、雞蛋是125號(hào)購物單。最后火腿占4/6,雞蛋占3/6等于。第二步,假設(shè)出現(xiàn)概率在50%,這個(gè)屬于偶發(fā)事件,把3/6以下的全部去掉,這個(gè)時(shí)候發(fā)現(xiàn)只有四張。接下來把這四種兩兩組合,這樣會(huì)產(chǎn)生六種組合。第三件事情,還是數(shù)數(shù),數(shù)一下這種組合在購物單中出現(xiàn)過幾次,這是原始的購物單,這是數(shù)出來的購物單;鹜群碗u蛋出現(xiàn)了兩次,火腿加啤酒出現(xiàn)兩次,火腿加尿布出現(xiàn)了一次,后來把這個(gè)算法做到沃爾瑪POS機(jī),沃爾瑪買了裝了這個(gè)算法的POS機(jī)才有這個(gè)案例。還有一個(gè)問題,我要把這兩個(gè)東西放在一起及是買啤酒的人伸手買尿布,還是買尿布的人伸手買啤酒呢?

買尿布的購物單一共四個(gè),在這四個(gè)購物單中出現(xiàn)的比例是1、2、4、6,而在這4個(gè)購物單中出現(xiàn)啤酒的購物單是246,因此是3/4,類似的算一下啤酒,買啤酒的購物單一共有3個(gè),分別2、4、6,而在這3個(gè)購物單中出現(xiàn)尿布的購物單是246,因此是百分之百。所以其實(shí)尿布和啤酒,還是啤酒和尿布,這個(gè)是有順序的。

感謝大家!

[責(zé)任編輯:范喆]
2014(第十屆)中國存儲(chǔ)峰會(huì)今天在北京召開,大會(huì)以“掌控?cái)?shù)據(jù)經(jīng)濟(jì),重塑商業(yè)價(jià)值”為主題,詮釋在IT走向DT時(shí)代下,如何通過數(shù)據(jù)重塑商業(yè)價(jià)值。近兩年對(duì)于年輕人來說創(chuàng)業(yè)是他們實(shí)現(xiàn)人生價(jià)值最好的方式,在美國硅谷這樣的事情天天都在發(fā)生,今天我們有幸請(qǐng)到美國硅谷初創(chuàng)明星企業(yè)、希智數(shù)據(jù)創(chuàng)始人陳文賢!由DOIT傳媒集團(tuán)創(chuàng)始人兼CEO鄭信武先生為大家?guī)砭实膭?chuàng)業(yè)人訪談。
官方微信
weixin
精彩專題更多
存儲(chǔ)風(fēng)云榜”是由DOIT傳媒主辦的年度大型活動(dòng)。回顧2014年,存儲(chǔ)作為IT系統(tǒng)架構(gòu)中最基礎(chǔ)的元素,已經(jīng)成為了推動(dòng)信息產(chǎn)業(yè)發(fā)展的核心動(dòng)力,存儲(chǔ)產(chǎn)業(yè)的發(fā)展邁向成熟,數(shù)據(jù)經(jīng)濟(jì)的概念順勢(shì)而為的提出。
華為OceanStor V3系列存儲(chǔ)系統(tǒng)是面向企業(yè)級(jí)應(yīng)用的新一代統(tǒng)一存儲(chǔ)產(chǎn)品。在功能、性能、效率、可靠性和易用性上都達(dá)到業(yè)界領(lǐng)先水平,很好的滿足了大型數(shù)據(jù)庫OLTP/OLAP、文件共享、云計(jì)算等各種應(yīng)用下的數(shù)據(jù)存儲(chǔ)需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會(huì)
 

公司簡介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.