在本次揭牌儀式上,有專家表示:中國雖然擁有全球14%的數據量,利用率卻不到0.4%,大量數據未能發(fā)揮其應有作用。

既然如此,大數據分析系統(tǒng)國家工程實驗室的成立能夠解決或者緩解存在問題嗎?你說什么,要一個國家實驗室來解決問題,未免有些差強人意吧?!的確如此。但是,國家工程實驗室的成立也應該有針對性的,目的是從國家頂層設計的高度解決問題,目標也是為推動大數據應用,因此從這個思路出發(fā),投資“大數據分析系統(tǒng)國家工程實驗室”發(fā)揮作用也非常重要。

“大數據分析系統(tǒng)國家工程實驗室”會發(fā)揮作用呢?這就需要對于中國大數據應用存在的問題把把脈:是技術問題,數據問題。此前有專家認為是數據定價問題(參見:太扯了:承認數據是資產有個卵用?數據共享靠的不是這個!),也有認為是隱私保護等政策法規(guī)的問題。

從國家實驗室的方向看,中國工程院院士、曙光公司董事長、大數據分析系統(tǒng)國家工程實驗室李國杰表示:實驗室建設總體規(guī)劃是面向大數據分析全生命周期的技術與應用環(huán)路,系統(tǒng)化地構建大數據分析三大平臺:

1、大數據分析基礎設施平臺;

2、軟硬一體的大數據開放分析平臺;

3、大數據分析示范應用與服務平臺;

通過三大平臺的建設,切實開展大數據分析領域的科學研究與技術研發(fā)。

這樣的表述,是不是可以得出這樣的結論:目前的問題是基礎設施和分析平臺,似乎更加側重數據和分析技術。有意思的是:全球大數據頂級技術峰會Strata + Hadoop World主辦方O’Reilly日前宣布,會議改名為 Strata Data Conference,也將重點集中在技術平臺。換句話說, 他們也認為Hadoop 時代終結,聚光燈應該從大數據轉移到機器學習(以及諸如深度學習等更先進的技術領域)。當然。大數據應用的基礎還是分布式和可擴展處理。

有專家表示Apache Spark搶了Hadoop的風頭。其實,無論Hadoop、Map/Reduce、Spark、機器學習等,還都是技術問題。真是這些技術問題延緩了中國大數據應用的腳步嗎?

在我看來,所謂“技術問題都不是問題”。如果技術存在根本問題,國內外就應該被技術問題羈絆。盡管在掌握技術的成熟度上,國內存在差距。但也沒有必要先成為技術高手,再來討論應用的問題。這個結論是不成立的。

如果技術不是問題,更多的可能性還來自投資和商業(yè)模式上。

大數據往往涉及的是戰(zhàn)略決策的問題。其依據來自對于數據關系深入研究,從中洞察數據背后潛藏商業(yè)價值。其中,數據量、數學模型等都會對結果產生影響。大數據應用的過程,也是一個反復研究和推理的過程,需要數據科學家豐富的經驗。

簡單來說,數據積累、數據分析工具和分析方法將非常重要。對于但一行業(yè)或者企業(yè)來說,盡管擁有數據,但數據積累還是會有局限的。數據建模和商業(yè)應用是更加難以逾越的障礙。

如何解決數據豐富性的問題。對此,曙光公司的加入會讓問題有所緩解。曙光在全國各省市提供了大量的云計算服務,產生大量數據。從技術上,這些數據可以支持“黑盒”使用,所謂“人人為我,我為人人”。作為大數據應用的國家隊,“大數據分析系統(tǒng)國家工程實驗室”完全可以承擔:數據輸出的角色。一句話,數據就在哪里,就看你怎么分析和挖掘了。數據是不能直接輸出的,但大數據分析的結論是可以輸出的,如此,也就規(guī)避了數據隱私和數據定價的問題。

“大數據分析系統(tǒng)國家工程實驗室”有數據,有平臺,有技術,從這個意義上說,就應該輸出商業(yè)化的大數據服務。完全可以承擔大數據應用服務商的角色。對此,國家工程實驗室有一個很好的學習樣板:上海超算。

對于國家工程實驗室,我們最期待的不是技術、不是示范,更加期待的是服務。這也是它最應該輸出的內容。就像2年前,Splunk專家所說的,用戶需要不是Hadoop、Map/Reduce,數據就在那里,如何分析,分析視角,這是熟悉業(yè)務的用戶最為擅長的。至于機器學習,通過機器算法分析的東西,其中秘密也只有業(yè)務專家才能夠進行判讀和解讀。

分享到

songjy

相關推薦