周建丁 發(fā)表于:14年06月05日 16:13 [原創(chuàng)] DOIT.com.cn
斯諾登帶來的啟發(fā),不僅僅在于信息安全和自主可控的重要性,還包括如何避免大數據項目的一些誤區(qū)。
斯諾登最新的爆料涉及911和NSA(美國國家安全局)的監(jiān)控手段。據央視日前報道,斯諾登稱,美國在911事件發(fā)生前已獲得必要的情報信息,CIA(中情局)也都知道恐怖分子是誰,但在所有搜集到的海量機密信息中,他們沒能完全理解信息之間的關聯,以致沒能及時做出決策性判斷,有效的措施也就更無從說起了。
NSA的新信息來自《紐約時報》的報道。除了收集電話元數據和郵件通訊內容,NSA每天還收集數百萬張圖像,建造一個大型數據庫以便更好地追蹤和識別目標人物,斯諾登說,其中約5.5萬張具備“面部識別質量”。
通過上述信息,無論從“4V(Volume、Velocity、Variety、Value)”的哪個角度來看,美國情報部門所做的事情都應該算得上是“大數據”項目。事實上,受斯諾登事件影響而卸任的原NSA局長、美軍網絡司令部司令、四星上將Gen. Keith Alexander(基思·亞歷山大)曾表示,未來屬于大數據。
明確價值點
“我們生活在大數據的時代,我們必須弄清楚如何利用它。”Alexander說。NSA在他主政長達8年多的時間里,所收集的海量信息甚至令該機構的諸多前高管感到難以置信。據悉,Alexander引入了大數據解決方案為NSA加速數據的分類和處理,其中一款名為“Apache Accumulo”的工具可以處理PB級數據。
結果,盡管Alexander辯護稱棱鏡項目在反恐工作中發(fā)揮了作用,但不管CIA還是NSA,911這樣本來可以預防的重大恐怖襲擊事件畢竟還是發(fā)生了。所以說,斯諾登的爆料,再次驗證了Value(價值)才是大數據的核心。組織如果要實施大數據項目,價值最大化一定是評估項目的第一要素。
按照斯諾登的說法,美國投入大量資金的監(jiān)控項目并沒能保證美國公民的安全,反而剝奪了人們的權利。這可能是是斯諾登和Alexander對價值的理解有差異。信奉數據的人,不便以陰謀論去推測Alexander和NSA的具體用意,但監(jiān)控百余名外國領導人這樣的行動,確實似乎和美國公民安全沒有直接的聯系,更不用說未經授權監(jiān)控美國公民了。
我們能夠得到兩點啟示:資源要用到刀刃上,否則大數據也會成為廢數據或者大浪費——畢竟,數據的收集和存儲需要人力、財力、時間和IT基礎設施的投入,甚至還可能有組織架構的調整;更為重要的是,你要弄清楚刀刃在哪里,也就是說實施大數據要樹立正確的目標。
相信奉行利益最大化的現代企業(yè)一定能想到大數據要追求大價值,迷茫的更多在于刀刃在哪里。這可以參考互聯網公司,在大數據概念走紅之前,壓榨數據的潛能作為企業(yè)核心競爭力就已經是他們的信條。例如,百度和谷歌借助用戶瀏覽行為提供個性化的搜索,淘寶亞馬遜因為根據用戶購物習慣為用戶提供精準的喜好物品。學習互聯網企業(yè),從營銷入手,更快速地定位到你的客戶,或者更好地理解和響應客戶的需求,改善產品的用戶體驗,是一個不錯的切入點,相對易于實施和見效。
另外,從此前報道的“CIA每年花費千萬美元向電信運營商AT&T公司購買國際電話數據”來看,神秘的NSA,盡管對通訊的監(jiān)控很到位,但其數據庫并不能為CIA的同行所用,而后者出于業(yè)務需求,也建設有自己的大數據。這種數據壁壘的現象,無疑會帶來重復建設的問題,資源浪費嚴重,無法做到將資源用到刀刃上。隨著IT的發(fā)展逐步推進的信息化,煙囪式的系統(tǒng)帶來的數據孤島已是現實,如果要更好地發(fā)揮數據的價值,是時候考慮數據集中、云平臺的建設或者利用了。
當然,如果實現數據的共享,NSA的保密性就要差很多,普通的項目,還可能涉及奧巴馬的智囊團最近提醒白宮的大數據隱私問題(在NSA和CIA面前應當可以無視隱私了)。但在一個企業(yè)組織內部,如果沒有必要,故意設置數據壁壘,是不利于大數據價值的發(fā)揮的。
關注分析而非數據量
更重要的一點,CIA未能提前預防911,是因為不能完全理解信息之間的關聯。但維克托·邁爾-舍恩伯格早已指出,大數據的相關關系分析法,更準確,更快,而且不易受偏見的影響。換言之,建立在相關關系基礎上的預測應該是大數據的核心,這種預測更加靠譜。對于911事件而言,盡管大數據工具足夠給力,但Alexander和他的同行在關聯性分析方面還做得不夠。殷鑒不遠,我們就更要根據關聯性來收集數據并分析,提升大數據的價值。
和整個業(yè)界產生的數據量相比,有選擇地收集的數據、甚至只是利用已有的數據可能還太小,但不必懊喪,我們要的是數據的價值,沒必要糾結是不是大數據,也沒必要為滿足占有欲望而保有數據(當然合規(guī)性需求不在此列)。
JMP數據分析大中華地區(qū)總經理嚴雪林就對大數據的概念不甚熱心。在他看來,數據分析的本質是用來改善運營的,大小數據分析的差別只是數據量及其對數據存儲、查詢及分析吞吐量的要求不同;從手頭、身邊保有的小數據當中提取價值,是大數據時代數字化決策的基礎。
所以說,分析才是數據實現價值的保障。其實,上述CIA不能理解關聯性,也是業(yè)務分析技能不足的一種表現。但嚴雪林從Google的搜索結果分析得出結論,中國用戶對大數據看得太重,對分析看得太輕。
當然,也有一些務實的企業(yè),譬如百度,注重數據分析結果的呈現,年初基于LBS利用的“春運大數據”就是代表之作,而其開放的大數據引擎,提供的也是大數據存儲、分析及挖掘的技術能力,至于其后端的分布式基礎設施,用戶就無需了解太多。
高大上的IT基礎設施提供商或者分析解決方案提供商,是不太愿意承認春運大數據是真正的大數據的——它雖然容易為民眾接受,但確實也和我們早前的認知有所差距?墒菍τ谏鐣芾怼⑸罘⻊丈袒蛘邆人生活安排來說,這種展現自有其價值。
中國氣象局與阿里云的攜手是另外一個例子。借助于阿里云基礎設施的計算能力,氣象局在全國雷達數據的處理即使再快速,天氣預報再精確,似乎也只是“數據大”而非大數據,但氣象數據和阿里積累的商業(yè)數據交匯融合之后形成的服務,其對各行各業(yè)的價值之大顯然是不可估量的。
更加務實的是教育行業(yè)。在日前第六屆中國云計算大會的云計算大數據教育行業(yè)應用論壇,來自清華、國防科大、北航等名校的專家教授們就MOOC(大型開放式網絡課程)的發(fā)展趨勢進行熱烈的討論,他們認為MOOC是當前云計算大數據在教育領域的最佳實踐,并提出了計算教育學的概念——通過對教育全過程的大數據進行精確分析,把以定性研究為主體、以經驗為基礎的教育學,轉變?yōu)橐詳祿䴙榛A、以計算和模型為手段的定量科學。
不過,在他們的探討中,MOOC目前也只是比傳統(tǒng)方式多了簡單的統(tǒng)計,甚至沒有涉及數據分析技術的應用。一般而言,教授們對概念摳的比企業(yè)要細得多,但他們都已經接受了這就是大數據。這再次證明價值才是根本。
