大數據是一個復雜的體系,大數據大部分來源于各類信息的轉換。中培大數據分析與可視化專家蔣老師認為,在這一轉換過程中,如何確保數據的真實,將決定這些數據的價值,進而決定著企業能否用這些數據創造出最大的價值。
我們知道,數據的源頭是信息,因此,要確保數據的真實,首先要確保信息的真實。在當今信息大爆炸的時代,面對各種各樣信息的狂轟濫炸,如何去有針對性的接收那些真實有用的信息,然后將這些信息轉化成為數據,從而得到真實的數據,這樣的數據才能為企業的發展帶來幫助。
很多人常常的影響就是大數據是真實而客觀,但現實的結果是,因為在收集整理以及分析過程中的疏失和錯誤,企業獲得的大數據數據往往也會是不真實和錯誤的。
企業為什么常常會有不真實的大數據,原因就在于大數據是由信息經過轉換而來,企業通過對心滾信息進行收集整理,然后通過轉換,形成數據,一旦企業在手機信息的過程中采用了虛假的信息,就會導致數據的不真實。
此外,企業對大數據的使用雖然應該是全面的,但這里的大數據一般指的是核心數據。也就是通過對所有的核心數據進行全面的營銷和企業的發展有用的相關信息。如果收集到的是細枝末葉,無關緊要的信息,那么這些信息即使是真實的,也會導致核心數據被稀釋和掩蓋,因此,在信息收集的過程中,一定要有側重,將對企業最有影響和相關性的信息收集起來,只有這樣,轉換而來的數據才會是核心數據,這樣的數據才能讀企業額發展真正帶來幫助。否則,企業的決策者們就會在大量無用的數據中不知所措,陷入迷失。
因此,要想獲得真實的數據,就必須要在信息的收集、整理和分析的整個環節確保質量。在信息的手機上,一定要追求第一手資料,盡量避免通過七拼八湊,從別人那里直接拿來作為自己的數據,這樣的結果是,所收集到的數據因為無法體現企業和產品的特殊性而失靈,從而實質上造成數據的失真。
在國內眾多的應用書企業中,農夫山泉可以算得上是一個極富特質的品牌,農夫山泉之所以會發展成為國內最具知名度的品牌之一,企業對大數據收集的真實性嚴苛要求是重要的原因。
在上海程翔結合部的一處小超市的角落,擺放著很多農夫山泉,正是這樣一個看似很小的超市,每天卻有農夫山泉工作人員前來光顧,他們都是一手信息的采集員,這些信息包括水的擺放位置、狀態和高度,這些信息通過十張照片記錄下來,這樣的超市,每個工作人員每天需要跑15個,然后在下班之前將反映片區產品信息的150找照片傳回位于杭州的企業總部,每個業務員傳回的信息的總量為10M,這10M的數據最終成為該企業大數據中的一小部分。
對大數據的收集拉說,這10M的量實在太小了,但在整個農夫山泉,卻有超過一萬名業務員在進行著這樣的數據采集工作,其每天的數據采集量超過100G,經過長時間的累積,就能形成規模可觀的大數據,更重要的是,這些數據不僅可觀,而且還十分客觀,因為它都是來自于第一手資料。
胡健想知道的問題包括:怎樣擺放水堆更能促進銷售?什么年齡的消費者在水堆前停留更久,他們一次購買的量多大?氣溫的變化讓購買行為發生了哪些改變?競爭對手的新包裝對銷售產生了怎樣的影響?不少問題目前也可以回答,但它們更多是基于經驗,而不是基于數據。
2008年開始,業務員拍攝的照片就這么被收集起來,如果按照數據的屬性來分類,“圖片”屬于典型的非關系型數據,還包括視頻、音頻等。要系統地對非關系型數據進行分析是胡健設想的下一步計劃,這是農夫山泉在“大數據時代”必須邁出的步驟。如果超市、金融公司與農夫山泉有某種渠道來分享信息,如果類似圖像、視頻和音頻資料可以系統分析,如果人的位置有更多的方式可以被監測到,那么攤開在胡健面前的就是一幅基于人消費行為的畫卷,而描繪畫卷的是一組組復雜的“0、1、1、0”。
SAP全球執行副總裁、中國研究院院長孫小群接受《中國企業家》采訪時表示,企業對于數據的挖掘使用分三個階段,“首先就是要將數據清晰透明化,讓大數據能夠明確的曾現在人們眼前,能夠看到數據越來越多;第二步是可以提問題,可以形成互動,很多支持的工具來幫我們做出實時分析;而3.0時代,信息流來指導物流和資金流,現在數據要告訴我們未來,告訴我們往什么地方走。”
關于運輸的數據場景到底有多重要呢?將自己定位成“大自然搬運工”的農夫山泉,在全國有十多個水源地。農夫山泉把水灌裝、配送、上架,一瓶超市售價2元的550ml飲用水,其中3毛錢花在了運輸上。在農夫山泉內部,有著“搬上搬下,銀子嘩嘩”的說法。如何根據不同的變量因素來控制自己的物流成本,成為問題的核心。
基于上述場景,SAP團隊和農夫山泉團隊開始了場景開發,他們將很多數據納入了進來:高速公路的收費、道路等級、天氣、配送中心輻射半徑、季節性變化、不同市場的售價、不同渠道的費用、各地的人力成本、甚至突發性的需求(比如某城市召開一次大型運動會)。
在沒有數據實時支撐時,農夫山泉在物流領域花了很多冤枉錢。比如某個小品相的產品(350ml飲用水),在某個城市的銷量預測不到位時,公司以往通常的做法是通過大區間的調運,來彌補終端貨源的不足。“華北往華南運,運到半道的時候,發現華東實際有富余,從華東調運更便宜。但很快發現對華南的預測有偏差,華北短缺更為嚴重,華東開始往華北運。此時如果太湖突發一次污染事件,很可能華東又出現短缺。”
這種沒頭蒼蠅的狀況讓農夫山泉的管理層頭疼不已。在采購、倉儲、配送這條線上,農夫山泉特別希望大數據獲取解決三個頑癥:首先是解決生產和銷售的不平衡,準確獲知該產多少,送多少;其次,讓400家辦事處、30個配送中心能夠納入到體系中來,形成一個動態網狀結構,而非簡單的樹狀結構;最后,讓退貨、殘次等問題與生產基地能夠實時連接起來。
“日常運營中,我們會產生銷售、市場費用、物流、生產、財務等數據,這些數據都是通過工具定時抽取到SAP BW或Oracle DM,再通過Business Object展現。”胡健表示,這個“展現”的過程長達24小時,也就是說,在24小時后,物流、資金流和信息流才能匯聚到一起,彼此關聯形成一份有價值的統計報告。當農夫山泉的每月數據積累達到3TB時,這樣的速度導致農夫山泉每個月財務結算都要推遲一天。更重要的是,胡健等農夫山泉的決策者們只能依靠數據來驗證以往的決策是否正確,或者對已出現的問題作出糾正,仍舊無法預測未來。
對所有希望擁抱大數據的企業來說,要想用好大數據,讓大數據為企業帶來實實在在的利益,首先就需要在數據的收集階段,保持清醒的頭腦,不要因為盲目崇拜而在大數據面前陷入迷失,將一些虛假、錯誤的信息一股腦兒收集起來,讓數據收集陷入假大空的怪圈。只有懂得分辨和篩選,在數據收集的各個環節做到嚴格把關,去偽存真,精益求精,只有這樣,才能獲得真實而優質的大數據,造福于企業的發展。