在大數據炙手可熱的時代,眾多企業(yè)紛紛引入和擁抱大數據,然而小數據對企業(yè)的價值同樣不可忽視。那么,大小數據各有哪些優(yōu)勢?企業(yè)是否需要大數據?在面臨大數據和小數據時,企業(yè)究竟該何去何從呢?
大數據和小數據的優(yōu)勢
“大數據”這一概念自從被提出之后,得到了業(yè)界廣泛的關注和討論。那么大數據的概念是什么呢?
維基百科對大數據的定義是“所涉及的數據量規(guī)模巨大到無法通過傳統(tǒng)方式,在合理時間內進行截取、管理、處理,并整理成為人類所能解讀的信息”。這個概念主要在描述大數據體量大這一特征。而美國白宮在2014年發(fā)布的《大數據白皮書》中這樣定義:“大數據集是龐大的、多樣化的、復雜的、縱深的和分布式的,它由各類儀器設備、傳感器、網上交易、電子郵件、視頻、點擊流以及現(xiàn)在與未來所有可以利用的其他數字化信號源產生。”
目前,大數據的概念沒有一個權威而統(tǒng)一的定義,但普遍認為大數據具有四大特征:
1.體量大(Volume):事無巨細的數據記錄,過程數據遠多于結果數據;
2.速度快(Velocity):數據稍縱即逝,需要實時采集;商機時不再來,必須實施應用;
3.多樣化(Variety):多種數據來源,內容五花八門;多種數據結構,標準無法統(tǒng)一;4.價值高(Value):可以幫助企業(yè)提高收入、降低成本;通過提升預測力帶來價值。
而“小數據”是指什么呢?大體上來說,小數據或者傳統(tǒng)數據,和大數據相比,體量比較小;實時性偏低,離線采集數據比較多,如問卷數據;沒有大數據多源異構的特征。一方面,小數據基本采集于單一數據源,例如CRM系統(tǒng)或財務系統(tǒng)等,而大數據傾向于采集多種數據源,打破企業(yè)信息系統(tǒng)之間存在的數據孤島。另一方面,小數據基本以結構化數據為主,而大數據涵蓋了企業(yè)里種種非結構化數據,如圖片數據、客服系統(tǒng)的語音留言、網站日志數據等。
首先,小數據一般來說都比較準確,信息含金量高,分析成本較低;而大數據價值密度較低,需要沙里淘金,分析成本也比較高,一般需要服務器集群進行支撐。
其次,大數據涉及的維度比較多,多數情況只能研究和解決相關性問題,而不是因果性問題。例如在大數據應用的較廣的個性化推薦、互聯(lián)網廣告領域,業(yè)界經常會利用機器學習算法構建各種“黑盒”模型,目標是為消費者推薦他可能購買的商品,或者展示給消費者他可能感興趣的廣告,但很少有模型能揭示出其內在的機制和原理。而小數據研究就能精確衡量某些因素對消費者行為的影響,無論是學界還是業(yè)界,都可以通過實驗室、問卷、A/B組等研究方法解釋消費者的偏好和選擇,小數據的研究和應用更具備可解釋性。
最后,小數據專注于研究消費者的心理、態(tài)度、品牌認知等這種看不見、不完全由行為體現(xiàn)的問題。
企業(yè)是否需要大數據?企業(yè)是否應該引入和擁抱大數據呢?
這個問題需要因行業(yè)而定,因企業(yè)而定,具體問題具體分析。我們看到有些行業(yè)在大數據應用上走得很快,例如金融行業(yè)利用大數據解決征信問題、輔助反欺詐業(yè)務;廣告行業(yè)利用大數據做精準廣告投放、消費者觸達;零售快消行業(yè)利用大數據做用戶畫像、標簽體系等。而另一些行業(yè)則發(fā)展得慢一些,如建材、環(huán)保等行業(yè)。
另一方面,一般來說規(guī)模大、數據多的企業(yè)在大數據使用方面比較得心應手,而規(guī)模小、數據少的企業(yè)在這方面的投入要少一些。很多企業(yè)在看到大數據給其他企業(yè)、行業(yè)帶來很高的價值時,都會急于想要引入這一流行的技術方案,而沒有做充分的研究和論證。
那么,基于企業(yè)現(xiàn)狀,我們應該如何去應用大數據呢?在這里建議企業(yè)在做大數據選型之前先回答以下幾個問題:
1.企業(yè)有哪些數據?只有盤點好自己的數據資產才能意識到自己的數據現(xiàn)狀和存在的問題。從生產、銷售、營銷、財務等領域做綜合的盤點,將歷史數據盤算清楚,這是第一步。在做數據資產盤點的過程中,要注意核實數據的質量、價值、準確性和有效性,對內外部數據的所有權進行定義,整理出企業(yè)目前的數據資產列表。
2.企業(yè)的哪些業(yè)務需要大數據支撐?這是一個非常關鍵的問題。很多不太成功的大數據項目大多忽略了一個問題,就是我們的業(yè)務是否需要大數據的支撐。如果只是為了做大數據而做大數據是沒有意義的。相反,如果企業(yè)在引入大數據技術之前,能夠先召集業(yè)務部門進行探討,傾聽業(yè)務部門的困難和訴求,對日后引入大數據技術是非常有幫助的。企業(yè)需要堅信一點,最好的大數據應用一定是為業(yè)務服務的。
3.企業(yè)需要構建的大數據應用是否有足夠的數據支撐?在回答完第二個問題之后,企業(yè)可能會意識到,我們需要解決的業(yè)務問題,目前并沒有足夠的數據進行支撐。這時候,就需要通過某些方式增加、積累企業(yè)需要的數據了。補充數據有很多種方式,例如利用爬取技術獲取互聯(lián)網公開網頁的數據,又如采購一些對口的外部數據等。
4.企業(yè)需要的大數據應用優(yōu)先級是怎樣的?大多數企業(yè)需要的不僅是一個大數據應用,而是通過構建一系列的大數據應用,全面提升企業(yè)的技術能力,同時支撐不同業(yè)務部門不同的訴求。大部分企業(yè),尤其是大型企業(yè)在推進大數據規(guī)劃的時候都采取“平臺先行、應用跟上”的思路,先在整個企業(yè)內部構建一個匯聚全渠道數據的大數據平臺,或稱數據湖,將企業(yè)多源異構、零散的數據孤島進行打通,建立基于消費者、產品等不同領域的統(tǒng)一視圖。在此基礎上,有針對性地構建面向生產、銷售、營銷、服務等不同業(yè)務部門的大數據應用。
大數據+小數據=智能數據
企業(yè)在積極擁抱大數據的同時,亦不能忽略了小數據對于企業(yè)業(yè)務的價值。舉例來說,寶潔、聯(lián)合利華等大型快消品廠商,每年在問卷收集這種小數據項目上的投入是巨大的,通過對小數據的分析,有利于他們的市場部門準確定位品牌、細分消費者、開發(fā)新產品、把握消費者心理等。
傳統(tǒng)的市場研究領域曾是小數據的天下,而這種格局隨著互聯(lián)網的興起和大數據技術的普及正在逐漸被改變。如今的市場研究領域正流行將大數據和小數據結合在一起進行分析。
例如老牌市場研究公司尼爾森與中國電信合作開發(fā)的產品,依托于中國電信的線上行為數據,結合尼爾森的市場研究方法,提供不同品牌的消費者特征、線上表現(xiàn)等信息。再如擁有中國最大在線樣本庫之一的極速洞察公司,與京東云聯(lián)合開發(fā)的Zeus洞察系統(tǒng),結合了百萬級消費者的問卷信息與京東億級規(guī)模的消費者行為大數據,為品牌商更好地了解他們商品的受眾群體、競爭態(tài)勢和線上購物路徑提供了完整的解決方案。對于快消品牌的市場部來說,這無疑是升級了的新型武器—大小數據結合的智能數據工具。
同樣的例子在金融行業(yè)也逐漸盛行起來。傳統(tǒng)的銀行業(yè)也開始嘗試將大數據與小數據結合起來進行深入分析,以指導業(yè)務。銀行業(yè)傳統(tǒng)線下業(yè)務產生的小數據包括客戶基本信息、資產信息、財務信息等,金融屬性強、價值密度高,但卻單一,只體現(xiàn)了消費者在金融維度的特征。
而隨著電子銀行和手機銀行的興起,銀行客戶的行為逐漸向線上轉型,這使得銀行的營銷部門、零售部門不得不思考,如何結合線上大數據更好地對客戶進行分析和提供差異化的服務。如今越來越多的銀行開始打造線上線下大小數據結合的用戶畫像標簽體系,結合客戶在銀行網點注冊時留下的小數據,以及在線上渠道留下的瀏覽、點擊、收藏等行為大數據,建立維度完整的用戶畫像,為客戶提供更加個性化的服務。
在一個案例中,某大型連鎖經營銀行將第三方大數據引入,與行內小數據結合進行建模分析,發(fā)現(xiàn)“近三個月有過金融相關互聯(lián)網媒體網站瀏覽行為”的客戶對這款貸款產品更感興趣,而這一洞察如果沒有結合三方大數據是不能被認知到的。最終經過大小數據融合的營銷建模分析,使得營銷效果響應率由20%提升至45%,單個客戶的營銷成本節(jié)省50元,極大地提高了銀行的營銷效能。
大數據時代,不少企業(yè)面臨選擇大數據還是小數據的矛盾。事實上,選擇什么樣的數據戰(zhàn)略,需要基于企業(yè)的現(xiàn)狀和目標進行判斷,建設最能支撐企業(yè)業(yè)務發(fā)展的數據戰(zhàn)略。在推進大數據規(guī)劃之前,企業(yè)一定要深入思考和規(guī)劃,而不是盲目投入。大數據和小數據各有所長,有機地整合在一起能發(fā)揮更大的價值,相信在可預見的未來,我們能看到更多行業(yè)產生“大數據+小數據”的智能數據應用。