新用戶登錄后自動創(chuàng)建賬號
登錄這是一個不說自己搞大數(shù)據(jù)就不好意思和人打招呼的時代。阿里巴巴用大數(shù)據(jù)貸款,百度用大數(shù)據(jù)推廣告。那么,沒有巨頭的天然優(yōu)勢,創(chuàng)業(yè)公司具體怎么搞大數(shù)據(jù)?
開搞之前,先明確一下目前大數(shù)據(jù)主要是用來預判,挖掘用戶的需求(也有用過去的大數(shù)據(jù)判斷現(xiàn)在的需求,如大數(shù)據(jù)種菜判斷菜目前的長勢情況)。那么,預判的依據(jù)是什么?就是所謂樣本,例如我通過前幾年的平均氣溫判斷今年的溫度是高是低。
這里還可以分為三種情況:一種是我的大數(shù)據(jù)軟件自帶了很多樣本可以作為分析依據(jù),一種是我把之前的交易數(shù)據(jù)作為樣本。第二種較先進,要求系統(tǒng)有自我學習建立樣本模型的能力,也就是邊干邊學。第三種最牛不光能做出預判,還能告訴你下一步怎么做,例如一家賣拖拉機的公司,為用戶提供何時在哪里種植何種作物,犁地的最佳路線。
首先說一下數(shù)據(jù)來源問題,可以是平時經(jīng)營過程中積攢下來的也可以向別的公司購買(像京東那樣買騰訊的數(shù)據(jù),目前國內(nèi)貴州大數(shù)據(jù)交易中心和DATACOMB很出名,后面細說).
技術關鍵:積攢數(shù)據(jù)同時要根據(jù)自己的需求為用戶和產(chǎn)品貼標簽,例如我希望了解和用戶年齡段有關的規(guī)律,那么年齡就是必須采集的一個標簽。
積攢數(shù)據(jù)的方式大致分兩類,一類是圍繞用戶,一類是圍繞產(chǎn)品,將兩者每次交易的數(shù)據(jù)都采集下來,可用人力,例如飯店服務員每次交易記錄下菜品,性別,滿意度之類,這一步又叫企業(yè)數(shù)據(jù)化。
然后是數(shù)據(jù)的初步處理:租服務器,建立自己的數(shù)據(jù)分析架構,例如日報表月報表這些都OUT了,應該明確適合公司的格式,如果需要這些定制需求的報表,目前流行的大數(shù)據(jù)的解決方案大部分都是以Hadoop為基礎架構。什么是Hadoop?
簡單來說Hadoop是一個分布式計算的解決方案,分布式通俗來說就是把一件事分布到幾臺計算機上運行。由多臺計算機同時運行和存儲數(shù)據(jù),比一臺計算機運行速度快,而且如果數(shù)據(jù)量大了,或者報表復雜導致運算速度慢,只要再加計算機就解決了。
當每臺計算機運算完畢后,會把中間結(jié)果集中到一臺計算機上,再把這些中間結(jié)果匯總起來得出最終結(jié)果。把手頭的數(shù)據(jù)進行預處理,包括將不同數(shù)據(jù)庫的數(shù)據(jù)導入到一個數(shù)據(jù)庫中.
數(shù)據(jù)的粗選,分析,分類,會用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構化數(shù)據(jù)的需求可以使用Hadoop。先別頭大,如果你不是淘寶京東這樣的巨頭沒有那么大數(shù)據(jù)量可以不這么麻煩,剔除那些和其他數(shù)據(jù)差別很大的就行
接下來,就是最核心的,數(shù)據(jù)挖掘。這一步可以挖掘出你意想不到的信息,比如,買啤酒的顧客通常會買尿布,持續(xù)買無香精面霜的顧客通常接下來會買母嬰用品。這些數(shù)據(jù)怎么挖?需要用到以下工具:
1.決策樹,各種可能性的展示圖,主要用來精確分類。例如,樹的根部是雜貨鋪里所有商品,往上走就是第一個分叉,分叉處有一個判斷標準-吃的還是用的,于是所有商品被分開為兩個樹枝,吃的再往上走又出現(xiàn)分叉,于是被分成甜的和咸的...
2.神經(jīng)網(wǎng)絡,例如,計算機預判迎面走來的這個軟妹子會買奶茶,因為根據(jù)神經(jīng)網(wǎng)絡顯示,上次買咖啡,上上次買酸奶的,這次99.99%的概率會買奶茶。什么?這貨買的啤酒?那計算機就會根據(jù)這次的結(jié)果修改神經(jīng)網(wǎng)絡。沒錯,神經(jīng)網(wǎng)絡是具有學習能力的模擬人腦總結(jié)教訓的分析模式,他會自己得到一個穩(wěn)定準確的結(jié)果。
3.關聯(lián)規(guī)則,例如上文說的買啤酒的一定買尿布。
先看一個簡單的例子,假如有下面數(shù)據(jù)集,每一組數(shù)據(jù)ti表示不同的顧客一次在商場購買的商品的集合:
t1: 牛肉、雞肉、牛奶
t2: 牛肉、奶酪
t3: 奶酪、靴子
t4: 牛肉、雞肉、奶酪
t5: 牛肉、雞肉、衣服、奶酪、牛奶
t6: 雞肉、衣服、牛奶
t7: 雞肉、牛奶、衣服
假如有一條規(guī)則:牛肉—>雞肉,那么同時購買牛肉和雞肉的顧客比例是3/7,而購買牛肉的顧客過一段時間也購買了雞肉的顧客比例是3/4。這兩個比例參數(shù)是很重要的衡量指標,它們在關聯(lián)規(guī)則中稱作支持度(support)和置信度(confidence)。
前者反映了牛肉雞肉組合的吸引力,后者可用來預判消費行為。好了,現(xiàn)指定你想要的支持度和置信度是多少,然后把牛奶雞肉,衣服奶酪等各種組合用程序算一遍,找出支持度和置信度滿足你要求的組合。
其中,假如一條關聯(lián)規(guī)則的支持度和置信度很高時,不代表這個規(guī)則之間就一定存在某種關聯(lián)。舉個最簡單的例子,假如X和Y是最近的兩個比較熱門的商品,大家去商場都要買,比如某款手機和某款衣服,都是最新款的,深受大家的喜愛,那么這條關聯(lián)規(guī)則的支持度和置信度都很高,但是它們之間沒有必然的聯(lián)系。
所以,搞大數(shù)據(jù)既要對專業(yè)精通又要對你公司的業(yè)務精通,這也是現(xiàn)在公司經(jīng)常碰到的難題,此事古難全啊。
除了這些,大數(shù)據(jù)還經(jīng)常用到一些數(shù)學工具如,線性回歸,支持向量機等來幫助進行比對和分類。不要小看這些輔助工具,有時候他們是主力。美國警察用電力公司的數(shù)據(jù)與培養(yǎng)大麻的LED燈用電曲線進行比對,數(shù)學工具就是線性回歸,只要發(fā)現(xiàn)哪家用電曲線和樣本相符(相符的程度用方差表示,標準老警自己定),直接踹門抓人一抓一個準。
這些數(shù)學工具很多都是用來分類的,分類在大數(shù)據(jù)中是個大事,例如國外有的門戶網(wǎng)站首頁分類用大數(shù)據(jù)直接篩選出詳細頁使用頻率較高的詞匯作為各個大類的標題。
工具列完了,下面數(shù)據(jù)挖掘正式開幕:
大數(shù)據(jù)對于什么時候用人力什么時候用計算機也能看出來功力,中小公司更應該注意巧妙利用人力,可避免在技術上過多拼財力。比如以上的例子中大家可以看到,相似不相似,是不是關聯(lián),這些標準都是人定的。
計算機常負責一些同一個算法算大批量數(shù)據(jù)的活。美國大數(shù)據(jù)公司的老大Palantir就因精于此道而著稱。中小公司在這方面也有做的不錯的,最近開始流行的圖片新聞APP 網(wǎng)新聞的策略就很值得借鑒:
網(wǎng)新聞主要是用關系圖,時間軸各種圖片展示更豐富信息,一條新聞,用戶希望在哪一點上獲取更深入的信息是網(wǎng)新聞最想分析的,明確了這個目的又積累了一定用戶行為的數(shù)據(jù)后,網(wǎng)新聞做了如下工作:舉個栗子,把一個新聞如釋永信事件,讓小編寫完這條新聞就分析用戶關注這條新聞的點在哪,并且把各種可能性列出來。列出的結(jié)果是:
1、用時間軸展示少林寺背后的利益紛爭事件,用關系圖展示各利益相關方的關系,這兩條可以滿足求知欲,用戶也可以說出去秀知識。
2、說明佛門中的禪宗一派特點就是不避世俗。古代就在寺廟做小買賣。進而拓展到律宗,密宗是怎么回事。
3、傳聞釋永信嫖娼,有情婦,桃色因素是一個。
4、中國法律目前對寺廟住持是怎么定性的,有哪些法律來約束,觸犯了這些法律會受到什么樣的懲罰,對事件目前形勢未來預判也是一個吸引人的因素...
這樣列出來后,進行關聯(lián)性分析,點擊量高的新聞,一定是具備因素2和因素3?還是因素1和因素3?...網(wǎng)新聞用這種方法得出很多有價值的信息,如用戶對用圖片解釋“經(jīng)理人采購指數(shù)”感興趣還是對展示某經(jīng)濟指標對自己生活的影響更感興趣,然后用這些數(shù)據(jù)指導小編擺圖寫稿。
另外,不要覺得分析數(shù)據(jù)預判用戶需求很屌,其實路邊賣手抓餅的也經(jīng)常能猜出你這次要不要放辣椒,就是調(diào)用的他腦中的大數(shù)據(jù)??梢宰層脩羲⒋蛘劭ɑ蛘呤峭ㄟ^QQ定外賣時顯示他平時的偏好。
這個方法需要對數(shù)據(jù)預處理去掉那些和其他數(shù)據(jù)偏離較大的數(shù)據(jù)可獲得基本的“用戶畫像”。另外還可以結(jié)合其他因素數(shù)據(jù)豐富“用戶畫像”,例如天氣炎熱或寒冷的情況下用戶的喜好,每到周末是不是多買一些等。
還有一個很重要的使用人力的節(jié)點就是先想好你想了解什么。例如,買啤酒的顧客會買尿布這個例子中,數(shù)據(jù)挖掘工程師其實提前就想到有必要查看一下啤酒和其他商品的關聯(lián),才有了這個發(fā)現(xiàn),而不是計算機自己去找這兩者關系。這需要洞察力!福布斯網(wǎng)站發(fā)文稱“首先制定好策略,然后奔著結(jié)果找出答案”,并由此得出“問題比答案重要”的結(jié)論。
使用大數(shù)據(jù)的流程就這些了??偨Y(jié)一下哪些地方使用人力:收集什么樣的數(shù)據(jù)需要人來做決定,想好要弄清楚哪些規(guī)律需要人來做決定。電腦主要用來存儲,以及用數(shù)學工具來進行具體計算。哈哈,原來大數(shù)據(jù)不是巨頭們買一個塞滿房子的超級計算機把海量數(shù)據(jù)統(tǒng)統(tǒng)輸進去然后“度昂”一下就出來結(jié)果了!我們小公司一樣可以搞??!
由于“問題比答案重要”,再說一下大數(shù)據(jù)領域提出的幾個有代表性的“問題”。既然除了利用之前積累的數(shù)據(jù)了解用戶偏好向用戶推銷這次的產(chǎn)品,還可以用大數(shù)據(jù)讓用戶方便的消費來提高用戶體驗:快餐業(yè)的視頻分析。
該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內(nèi)容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。這個案例門檻極低,只要人為設定隊伍多長算長,做食物的速度多塊算快即可,也可以人工標定一下哪些是快食哪些是慢食。
不僅可以預判需求予以滿足,營銷時還可以定點營銷。此類打法常常是從別的機構購得數(shù)據(jù)或者連錢都不花從政府開放的數(shù)據(jù)中拿,一家領先的專業(yè)時裝零售商,通過當?shù)氐陌儇浬痰辍⒕W(wǎng)絡及其郵購目錄業(yè)務為客戶提供服務。
公司希望向客戶提供差異化服務,如何定位公司的差異化,他們通過從Twitter 和Facebook 上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認識到必須保留兩類有價值的客戶:高消費者和高影響者。然后通過免費化妝服務,對這兩類消費者進行精準的宣傳。這個案例中,需要用到的工具有用于歸類的線性回歸,聚類分析等。
數(shù)據(jù)的來源問題:由于沒有巨頭那樣的數(shù)據(jù)積累,中小企業(yè)經(jīng)常想到購買數(shù)據(jù),或使用政府公開的免費數(shù)據(jù)。目前國內(nèi)掌握大數(shù)據(jù)的巨頭不夠開放,形成了讓仁人志士頭大的“數(shù)據(jù)堰塞湖”。雖然也有開放數(shù)據(jù)的,例如中國首個大數(shù)據(jù)開放平臺DataComb,對于掌握一些數(shù)據(jù)的公司來說也多了一些數(shù)據(jù)變現(xiàn)的渠道,然而對疏通“堰塞湖”并沒有太大作用。
也有好消息,8月19日,國務院常務會議審議通過《關于促進大數(shù)據(jù)發(fā)展的行動綱要》,全面公開應該就在眼前了。在美國最重要的數(shù)據(jù)開放平臺就是奧巴馬政府在2009年推出的Data.gov,奧巴馬同學對搞大數(shù)據(jù)一向蠻拼的。
另外,創(chuàng)業(yè)公司切記,巨頭們整天嚷嚷的“大數(shù)據(jù)不必追求精確,犧牲精確性可以換取效率和更多規(guī)律的發(fā)現(xiàn)”,可問題是那是在數(shù)據(jù)量異常大的情況下,對中小企業(yè)數(shù)據(jù)量不太大時務必要精確。
總的來說,大數(shù)據(jù)分析可謂是兵無常勢,水無常形,真正厲害的數(shù)據(jù)挖掘大師是碰到什么樣的形勢知道用什么樣的工具來解決的人。中小企業(yè)玩大數(shù)據(jù)切記:1.不炒概念。2.不燒錢。切實用大數(shù)據(jù)提升企業(yè)競爭力才是王道。