石教授說,我們所說的大數(shù)據(jù)主要來源自三個方面,第一是政府,政府每天會產(chǎn)生非常多的數(shù)據(jù),信息量也非常大,而且很多原始數(shù)據(jù)都應(yīng)該對普通民眾公開。第二是企業(yè),現(xiàn)在企業(yè)間的數(shù)據(jù)不能共享,如果不共享,這個數(shù)據(jù)就沒有生命力,很多工作都是重復(fù)勞動。最后是我們看到的公開的互聯(lián)網(wǎng)上面的數(shù)據(jù),其中主要是社會數(shù)據(jù)和個人交互產(chǎn)生的數(shù)據(jù)。有了這些大數(shù)據(jù),一定要做數(shù)據(jù)挖掘,根據(jù)數(shù)據(jù)挖掘來做出的決策,會改變我們的管理結(jié)構(gòu),因為數(shù)據(jù)挖掘本身就是決策的過程。這個過程具體可以分為樣本選取、數(shù)據(jù)變換、數(shù)據(jù)挖掘和數(shù)據(jù)展示等過程。
石教授同時也提到,我們傳統(tǒng)理解的大數(shù)據(jù)的觀點并不是完全準確的。比如說大數(shù)據(jù)研究應(yīng)該既要全體,又要抽樣,這種說法就有問題,大數(shù)據(jù)中說的全體,也不是真正的全體,而且也不可能用全體數(shù)據(jù)去做預(yù)測。另外說大數(shù)據(jù)應(yīng)從相關(guān)關(guān)系中把握因果關(guān)系與必然關(guān)系,這種說法不科學(xué),數(shù)據(jù)因素多了,關(guān)聯(lián)多了,并不一定能找到因果關(guān)系,這是不必然的。
石教授認為大數(shù)據(jù)是數(shù)字化生存時代的新型戰(zhàn)略資源,是驅(qū)動創(chuàng)新的重要因素,正在改變?nèi)祟惖纳a(chǎn)和生活方式。通過最近幾年團隊的工作,他們在數(shù)據(jù)挖掘領(lǐng)域做出了不少基于大數(shù)據(jù)的相關(guān)應(yīng)用。
比如針對銀行信用卡、保險和房地產(chǎn)貸款市場,要想做精準營銷,就需要通過非常多的客戶的交易記錄來把客戶分類,分成第一徹底破產(chǎn),第二部分破產(chǎn),第三是呆賬,第四是正常人,第五叫高端客戶,所以你發(fā)現(xiàn),這個數(shù)據(jù)表是開展業(yè)務(wù)的基礎(chǔ)。通過類似的系統(tǒng),可以讓銀行信用卡辦理業(yè)務(wù)的時間由原來的一周減到2天,因為現(xiàn)在在美國辦理信用卡就是2天。現(xiàn)在通過石教授的這個系統(tǒng),五秒鐘,只要把信息填進去,兩秒半在整個大數(shù)據(jù)計算里面跟庫里面的數(shù)據(jù)進行比較,跟你相近的找出來,很精準。
另外 ,在金融交易領(lǐng)域和一號店的客戶評分系統(tǒng),也都運用了石教授的系統(tǒng),為他們的業(yè)務(wù)提供了更加可靠的決策和支持。
大數(shù)據(jù)作為一個新生事物,才剛剛發(fā)展起來,未來還有很遠的路要走,石教授在演講的最后希望產(chǎn)業(yè)界的朋友能夠多多與學(xué)術(shù)界做交流互動,培養(yǎng)出更多更加專業(yè)的大數(shù)據(jù)人才。
(本文為作者根據(jù)現(xiàn)場的演講人意思整理,如有曲解,請石教授見諒)