程學(xué)旗 發(fā)表于:14年02月14日 14:21 [來稿] DOIT.com.cn
程學(xué)旗先生是中科院計(jì)算所副總工、研究員、博士生導(dǎo)師、網(wǎng)絡(luò)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室主任。本次程學(xué)旗帶來了中國(guó)大數(shù)據(jù)生態(tài)系統(tǒng)的基礎(chǔ)問題方面的內(nèi)容分享。大數(shù)據(jù)的發(fā)展越來越快,但是對(duì)于大數(shù)據(jù)的認(rèn)知大都還停留在最初的階段——大數(shù)據(jù)是一類資源、一類工具,其實(shí)“大數(shù)據(jù)”更多的體現(xiàn)的是一個(gè)認(rèn)知和思維,是一種戰(zhàn)略、認(rèn)知和文化。
一年多來,通過組織中國(guó)大數(shù)據(jù)技術(shù)大會(huì)、CCF大數(shù)據(jù)學(xué)術(shù)會(huì)議以及各類大大小小的應(yīng)用峰會(huì)與學(xué)術(shù)論壇,結(jié)合我們科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室所承擔(dān)的與大數(shù)據(jù)相關(guān)的重大基礎(chǔ)課題研究以及與情報(bào)分析、互聯(lián)網(wǎng)數(shù)據(jù)分析相關(guān)的應(yīng)用開發(fā)實(shí)踐,我談?wù)勛约旱囊恍┧伎肌?/p>
今天引導(dǎo)性討論的內(nèi)容可以包括三大塊,包括:對(duì)大數(shù)據(jù)的再認(rèn)識(shí)、引擎平臺(tái)系統(tǒng)支撐下的大數(shù)據(jù)分析技術(shù)、建立大數(shù)據(jù)產(chǎn)學(xué)研生態(tài)環(huán)境的基礎(chǔ)性問題思考。
1、關(guān)于大數(shù)據(jù)的再認(rèn)識(shí)
大數(shù)據(jù)是一個(gè)寬泛的概念,見仁見智。關(guān)于大數(shù)據(jù)的概念,當(dāng)前比較普遍使用的定義都與維基百科中的描述類似:“大數(shù)據(jù),指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊”。而這類定義的一個(gè)明顯的局限是僅僅從大數(shù)據(jù)的計(jì)算機(jī)處理視角給出的關(guān)于大數(shù)據(jù)的一個(gè)特點(diǎn)描述。
我們知道,對(duì)一門學(xué)科的認(rèn)識(shí),往往是從分類開始的。就像達(dá)爾文提出進(jìn)化論,原始的動(dòng)機(jī)就是將從全世界觀察到的動(dòng)物和植物進(jìn)行劃分,形成體系。在分類體系上進(jìn)行提煉,最終形成了一個(gè)全新的世界觀和認(rèn)識(shí)論。我們現(xiàn)在所關(guān)注的網(wǎng)絡(luò)大數(shù)據(jù)、金融大數(shù)據(jù)、科學(xué)大數(shù)據(jù)等相關(guān)領(lǐng)域的問題,正像歐洲文藝復(fù)興開始的的時(shí)候那樣,從不同領(lǐng)域觀察現(xiàn)象,挖掘價(jià)值,而最終我們可能能夠發(fā)現(xiàn)本質(zhì),形成全新的“數(shù)據(jù)認(rèn)識(shí)論”,從而產(chǎn)生本質(zhì)性的價(jià)值效應(yīng)。
我個(gè)人認(rèn)為,“大數(shù)據(jù)”更多的體現(xiàn)的是一個(gè)認(rèn)知和思維,它與錢學(xué)森先生提倡的“大成智慧學(xué)”的要義非常接近。錢老將“大成智慧”翻譯成“WisdominCyberspace”,強(qiáng)調(diào)“必集大成,才能得智慧”。大數(shù)據(jù)從內(nèi)涵來看的四個(gè)V的特性,體現(xiàn)出來的是大量的“零金碎玉”,相互之間還有關(guān)聯(lián)性和作用力,但是局部看都非常零散、價(jià)值不明顯。所以有了數(shù)據(jù),不等于就有價(jià)值、出智慧,出智慧的關(guān)鍵在“集”。大數(shù)據(jù)中包括的全部事實(shí)、經(jīng)驗(yàn)、信息都是“集”的對(duì)象和內(nèi)容。采集到的原始數(shù)據(jù)往往是些沒有什么邏輯,不一定能直接用現(xiàn)在掌握的科學(xué)技術(shù)解釋,需要集成融合各個(gè)側(cè)面的數(shù)據(jù),才能挖掘出前人未知的大價(jià)值。每一種數(shù)據(jù)來源都有一定的局限性和片面性,事物的本質(zhì)和規(guī)律隱藏在各種原始數(shù)據(jù)的相互關(guān)聯(lián)之中。只有融合、集成各方面的原始數(shù)據(jù),才能反映事物的全貌。開展大數(shù)據(jù)研究和應(yīng)用,因此,大數(shù)據(jù)不僅僅是一類資源、一類工具,而是一種戰(zhàn)略、認(rèn)知和文化,要大力推廣和樹立“數(shù)據(jù)方法論”、“數(shù)據(jù)價(jià)值觀”。
當(dāng)然,我們既要抬頭看路,更要腳踏實(shí)地。因此,在大數(shù)據(jù)概念滿天飛的時(shí)候,我們既要抓住時(shí)機(jī),挖掘價(jià)值,還要思考本質(zhì),不在混亂的時(shí)候迷失方向!
從業(yè)界來看,當(dāng)前大數(shù)據(jù)系統(tǒng)有三個(gè)明顯的特點(diǎn)與我們2013年底發(fā)布的十大趨勢(shì)相關(guān)!
【1】大數(shù)據(jù)的高效深度分析需要專用化的系統(tǒng)
在應(yīng)用數(shù)據(jù)快速增長(zhǎng)的背景下,為了降低成本獲得更好的能效,大數(shù)據(jù)系統(tǒng)需要逐漸擺脫傳統(tǒng)的通用技術(shù)體系,趨向?qū)S没募軜?gòu)和處理技術(shù)。這方面,國(guó)內(nèi)百度、阿里巴巴和騰訊三大互聯(lián)網(wǎng)巨頭做出了嘗試并取得了很好的效果。眾所周知,百度的大數(shù)據(jù)典型應(yīng)用是中文搜索,阿里巴巴的大數(shù)據(jù)典型應(yīng)用是基于交易日志分析的數(shù)據(jù)服務(wù),騰訊的大數(shù)據(jù)典型應(yīng)用是圖片數(shù)據(jù)存儲(chǔ)和基于用戶行為的廣告實(shí)時(shí)推薦。百度去年底成立專門的大數(shù)據(jù)部門,旨在深度挖掘大數(shù)據(jù)的價(jià)值。阿里巴巴已將不同業(yè)務(wù)部門的大數(shù)據(jù)技術(shù)整合在一起為數(shù)據(jù)產(chǎn)品提供統(tǒng)一的服務(wù)。騰訊的數(shù)據(jù)平臺(tái)部正在將全公司的數(shù)據(jù)納入統(tǒng)一管理平臺(tái)。阿里巴巴在技術(shù)上與開源社區(qū)結(jié)合得最為緊密;騰訊大數(shù)據(jù)目前正在向開源技術(shù)靠攏;百度在技術(shù)層面偏好自行研發(fā),包括軟硬件定制化方案也是最先投入實(shí)用。技術(shù)上,他們的共同之處是,不再依賴傳統(tǒng)的IOE,而基于開源系統(tǒng)(如Hadoop等)開發(fā)面向典型應(yīng)用的大規(guī)模、高通量、低成本、強(qiáng)擴(kuò)展的專用化系統(tǒng)。
【2】大數(shù)據(jù)處理架構(gòu)多樣化模式并存
當(dāng)前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以來逐漸被互聯(lián)網(wǎng)企業(yè)所廣泛接納,并成為大數(shù)據(jù)處理領(lǐng)域的事實(shí)標(biāo)準(zhǔn)。但2013年出現(xiàn)的Spark作為一匹黑馬終結(jié)了這一神話,大數(shù)據(jù)技術(shù)不再一家獨(dú)大。由于應(yīng)用不同導(dǎo)致Hadoop一套軟件系統(tǒng)不可能滿足所有需求,在全面兼容Hadoop的基礎(chǔ)上,Spark通過更多的利用內(nèi)存處理大幅提高系統(tǒng)性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出現(xiàn)并不是取代Hadoop,而是擴(kuò)大了大數(shù)據(jù)技術(shù)的生態(tài)環(huán)境,促使生態(tài)環(huán)境向良性化和完整化發(fā)展。今后在非易失存儲(chǔ)層面、網(wǎng)絡(luò)通信層面、易失存儲(chǔ)層面和計(jì)算框架層面還會(huì)出現(xiàn)更多、更好和更專用化的軟件系統(tǒng)。
【3】實(shí)時(shí)計(jì)算逐步受到業(yè)界關(guān)注
Google于2010年推出了Dremel,引領(lǐng)業(yè)界向?qū)崟r(shí)計(jì)算邁進(jìn)。實(shí)時(shí)計(jì)算是針對(duì)MapReduce這種批量計(jì)算的性能問題提出的,可分為流式計(jì)算和交互式分析計(jì)算兩種模式。在大數(shù)據(jù)背景下,流式計(jì)算源于服務(wù)器日志的實(shí)時(shí)采集,如Facebook開源的Scribe是分布式日志收集系統(tǒng),ApacheFlume是類似的系統(tǒng)。ApacheKafka是高吞吐率的分布式消息系統(tǒng),特點(diǎn)是高通量和容錯(cuò)。Storm是容錯(cuò)的分布式實(shí)時(shí)計(jì)算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時(shí)處理,單機(jī)性能可達(dá)到百萬記錄每秒。Storm可集成ApacheKafka作為其隊(duì)列系統(tǒng)。作為批量計(jì)算的補(bǔ)充,交互式分析計(jì)算的目標(biāo)是將PB級(jí)數(shù)據(jù)的處理時(shí)間縮短到秒級(jí)。ApacheDrill是開源的Dremel實(shí)現(xiàn),雖已有應(yīng)用但尚不成熟。由Cloudera主導(dǎo)的Impala也參照Dremel實(shí)現(xiàn),同時(shí)還參考了MPP的設(shè)計(jì)思想,目前已經(jīng)接近實(shí)用階段。Hortonworks主導(dǎo)開發(fā)了TEZ/Stinger,TEZ是運(yùn)行在YARN(Hadoop2.0的資源管理框架)上的DAG計(jì)算框架,而Stinger是下一代的Hive。2013年底,由Facebook開源的Presto分布式SQL查詢引擎可對(duì)250PB以上的數(shù)據(jù)進(jìn)行交互式分析,比Hive的性能高出10倍。類似的Shark是Spark上的SQL執(zhí)行引擎,得益于Shark的列存儲(chǔ)和Spark的內(nèi)存處理等特性,Shark號(hào)稱可以比Hive的性能提高100倍。
2、系統(tǒng)支撐下的大數(shù)據(jù)分析技術(shù)
【1】?jī)?nèi)容分析與深度學(xué)習(xí)
要挖掘大數(shù)據(jù)的大價(jià)值必然要對(duì)大數(shù)據(jù)進(jìn)行內(nèi)容上的分析與計(jì)算。這其中一個(gè)核心問題是如何來對(duì)數(shù)據(jù)的進(jìn)行有效表達(dá)、解釋和學(xué)習(xí),無論是對(duì)圖像、聲音還是文本數(shù)據(jù)。傳統(tǒng)的研究也有很多數(shù)據(jù)表達(dá)的模型和方法,但通常都是較為簡(jiǎn)單或者淺層的模型,不能獲得好的學(xué)習(xí)效果。大數(shù)據(jù)的出現(xiàn)提供了使用更加復(fù)雜的模型來更有效地學(xué)習(xí)數(shù)據(jù)表征、解釋數(shù)據(jù)的機(jī)會(huì),深度學(xué)習(xí)就是這樣一個(gè)研究領(lǐng)域,它已經(jīng)在計(jì)算機(jī)視覺、語音識(shí)別等應(yīng)用取得了成功。在國(guó)際上,微軟將RBM和DBN引入語音識(shí)別中,使得錯(cuò)誤率相對(duì)減低30%;Google的深度學(xué)習(xí)系統(tǒng)(DistBelief)在獲取數(shù)百萬YouTube視頻數(shù)據(jù)后,能夠精準(zhǔn)地識(shí)別出這些視頻的關(guān)鍵元素貓。在國(guó)內(nèi),2011年科大訊飛首次將DNN技術(shù)運(yùn)用到語音云平臺(tái),并提供給開發(fā)者使用,并在訊飛語音輸入法和訊飛口訊等產(chǎn)品中得到應(yīng)用。百度成立了IDL(深度學(xué)習(xí)研究院),專門研究深度學(xué)習(xí)算法,目前已有超過8項(xiàng)深度學(xué)習(xí)技術(shù)在百度產(chǎn)品上線。深度學(xué)習(xí)對(duì)百度影響深遠(yuǎn),在語音識(shí)別、OCR識(shí)別、人臉識(shí)別、圖像搜索等應(yīng)用上取得了突出效果。此外,國(guó)內(nèi)其它公司如搜狗、云知聲等紛紛開始在產(chǎn)品中使用深度學(xué)習(xí)技術(shù)。
【2】知識(shí)計(jì)算
基于大數(shù)據(jù)的知識(shí)計(jì)算是大數(shù)據(jù)分析的基礎(chǔ)。當(dāng)前,基于開放網(wǎng)絡(luò)大數(shù)據(jù)構(gòu)建知識(shí)庫是國(guó)內(nèi)外工業(yè)界開發(fā)和學(xué)術(shù)界研究的一個(gè)熱點(diǎn)。世界各國(guó)各個(gè)組織建立的知識(shí)庫多達(dá)50余種,相關(guān)的應(yīng)用系統(tǒng)更是達(dá)到了上百種。其中,有代表性的知識(shí)庫或應(yīng)用系統(tǒng)有KnowItAll,TextRunner,NELL,Probase,atori,PROSPERA,SOFIE以及一些基于維基百科等在線百科知識(shí)構(gòu)建的知識(shí)庫DBpedia,YAGO,Omega,WikiTaxonomy。除此之外,一些著名的商業(yè)網(wǎng)站、公司和政府也發(fā)布了類似的知識(shí)搜索和計(jì)算平臺(tái),如Evi公司的TrueKnowledge知識(shí)搜索平臺(tái)美國(guó)官方政府網(wǎng)站Data.gov,Wolfram的知識(shí)計(jì)算平臺(tái)wolframalpha,Google的知識(shí)圖譜(Knowledgegraph),Facebook推出的類似的實(shí)體搜索服務(wù)graphsearch等。在國(guó)內(nèi),中文知識(shí)圖譜的構(gòu)建與知識(shí)計(jì)算也有大量的研究和開發(fā)工作。代表性工作有中科院計(jì)算所的基于OpenKN(開放知識(shí)網(wǎng)絡(luò))的“人立方、事立方、知立方”系統(tǒng),中科院數(shù)學(xué)院陸汝鈐院士提出的知件(Knowware),上海交通大學(xué)構(gòu)建的中文知識(shí)圖譜平臺(tái)zhishi.me,百度推出的中文知識(shí)圖譜搜索,搜狗推出的知立方平臺(tái),復(fù)旦大學(xué)GDM實(shí)驗(yàn)室推出的中文知識(shí)圖譜展示平臺(tái)等。
【3】在線社會(huì)計(jì)算
社會(huì)媒體計(jì)算是大數(shù)據(jù)分析的典型應(yīng)用之一。以Facebook、Twitter、新浪微博等為代表的社會(huì)媒體正深刻改變著人們傳播信息和獲取信息的方式,人和人之間結(jié)成的關(guān)系網(wǎng)絡(luò)承載著網(wǎng)絡(luò)信息的傳播,人的互聯(lián)成為信息互聯(lián)的載體和信息傳播的媒介,社會(huì)媒體的強(qiáng)交互性、時(shí)效性等特點(diǎn)使其在信息的產(chǎn)生、消費(fèi)和傳播過程中發(fā)揮著越來越重要的作用,成為一類重要信息載體。正因如此,當(dāng)前社會(huì)媒體計(jì)算無論在學(xué)術(shù)圈和工業(yè)界都備受重視,大家關(guān)注的問題包括有對(duì)社交網(wǎng)絡(luò)的分析、網(wǎng)絡(luò)信息傳播的內(nèi)在機(jī)理以及社會(huì)媒體中的信息檢索與挖掘(包括用戶搜索、用戶關(guān)系挖掘、話題發(fā)現(xiàn)、情感分析等)。在這些面向社會(huì)媒體計(jì)算的研究中,面對(duì)的社交網(wǎng)絡(luò)是一個(gè)異常龐大、關(guān)系異質(zhì)、結(jié)構(gòu)多尺度和動(dòng)態(tài)演化的網(wǎng)絡(luò),通常有億級(jí)的節(jié)點(diǎn),幾十億條連邊,對(duì)它的分析、建模和計(jì)算不僅需要提出適配這樣的復(fù)雜網(wǎng)絡(luò)的關(guān)系抽象、結(jié)構(gòu)建模和演化計(jì)算方法,更關(guān)鍵的也是更基礎(chǔ)的是需要支持這樣大規(guī)模網(wǎng)絡(luò)結(jié)構(gòu)的圖數(shù)據(jù)存儲(chǔ)和管理結(jié)構(gòu),以及高性能的圖計(jì)算系統(tǒng)結(jié)構(gòu)和算法,這也催生了當(dāng)前很多圖數(shù)據(jù)庫和圖計(jì)算平臺(tái)的產(chǎn)生(如neo4j,GraphLab等)
【4】可視化成為大數(shù)據(jù)分析的熱點(diǎn)
大數(shù)據(jù)引領(lǐng)著新一波的技術(shù)革命,對(duì)大數(shù)據(jù)查詢和分析的實(shí)用性和實(shí)效性對(duì)于人們能否及時(shí)獲得決策信息非常重要,決定著大數(shù)據(jù)應(yīng)用的成敗。越來越多的企業(yè)在直面紛繁的海量數(shù)據(jù)沖擊時(shí)面露難色。一個(gè)原因是因?yàn)閿?shù)據(jù)容量巨大,類型多樣,數(shù)據(jù)分析工具面臨性能瓶頸。另一原因在于,數(shù)據(jù)分析工具通常僅為IT部門熟練使用,缺少簡(jiǎn)單易用、讓業(yè)務(wù)人員也能輕松上手實(shí)現(xiàn)自助自主分析即時(shí)獲取商業(yè)洞察的工具。因此,數(shù)據(jù)可視化技術(shù)正逐步成為大數(shù)據(jù)時(shí)代的顯學(xué)。對(duì)大數(shù)據(jù)進(jìn)行分析以后,為了方便用戶理解也需要有效的可視化技術(shù),這其中交互式的展示和超大圖的動(dòng)態(tài)化展示值得重點(diǎn)關(guān)注。如果一個(gè)機(jī)構(gòu)嘗試邁向大數(shù)據(jù)模式,那么一定要有相當(dāng)分量的數(shù)據(jù)可視化投入。
總結(jié):系統(tǒng)支撐下的大數(shù)據(jù)分析技術(shù),從學(xué)界的關(guān)注點(diǎn)以及業(yè)界的突破點(diǎn)來看,當(dāng)前可以總結(jié)為四個(gè)特點(diǎn):“深度學(xué)習(xí)提高精度”、“知識(shí)驅(qū)動(dòng)提高深度”、“社會(huì)計(jì)算與仿社會(huì)計(jì)算促進(jìn)認(rèn)知”、“可視化與分析算法互為因果”。當(dāng)然,數(shù)據(jù)分析技術(shù)解決的問題還是如何有效的挖掘和利用數(shù)據(jù)價(jià)值。
3、關(guān)于中國(guó)大數(shù)據(jù)生態(tài)系統(tǒng)的基礎(chǔ)問題思考
【1】建立良性生態(tài)環(huán)境的目標(biāo)
針對(duì)國(guó)家安全、社會(huì)經(jīng)濟(jì)等領(lǐng)域的數(shù)據(jù)化生存與競(jìng)爭(zhēng)的需求,我們需要切實(shí)解決網(wǎng)絡(luò)化數(shù)據(jù)社會(huì)與現(xiàn)實(shí)社會(huì)缺乏有機(jī)融合、互動(dòng)以及協(xié)調(diào)機(jī)制的難題,形成大數(shù)據(jù)感知、管理、分析與應(yīng)用服務(wù)的新一代信息技術(shù)架構(gòu)和良性增益的閉環(huán)生態(tài)系統(tǒng),達(dá)到大幅度提高數(shù)據(jù)消費(fèi)指數(shù)、數(shù)據(jù)安全指數(shù),降低數(shù)據(jù)能耗指數(shù)等目標(biāo)。我們認(rèn)為,建立良性的大數(shù)據(jù)生態(tài)系統(tǒng)是有效應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)關(guān)鍵問題,需要科技界、產(chǎn)業(yè)界以及政府部門在國(guó)家政策的引導(dǎo)下共同努力,通過轉(zhuǎn)變認(rèn)識(shí)、消除壁壘、建立平臺(tái),突破技術(shù)瓶頸等途徑,建立可持續(xù)、和諧的大數(shù)據(jù)生態(tài)系統(tǒng)。
【2】評(píng)價(jià)先行,提出考量大數(shù)據(jù)生態(tài)的三大指數(shù),包括數(shù)據(jù)消費(fèi)指數(shù)、數(shù)據(jù)能效指數(shù)、數(shù)據(jù)安全指數(shù)。
1)數(shù)據(jù)消費(fèi)指數(shù):
數(shù)據(jù)消費(fèi)指數(shù)是指使用或者消費(fèi)的數(shù)據(jù)占產(chǎn)生的數(shù)據(jù)的比例,旨在衡量數(shù)據(jù)消費(fèi)的能力。當(dāng)前由大數(shù)據(jù)引發(fā)的新產(chǎn)品、新服務(wù)、新業(yè)態(tài)大量涌現(xiàn),不斷激發(fā)新的消費(fèi)需求,成為日益活躍的消費(fèi)熱點(diǎn)。然而,數(shù)據(jù)消費(fèi)指數(shù)受到多方面發(fā)展?fàn)顟B(tài)的制約,包括數(shù)據(jù)開放和互通程度、大數(shù)據(jù)分析技術(shù)、智能訪問終端的普及、數(shù)據(jù)服務(wù)基礎(chǔ)設(shè)施的建設(shè)、數(shù)據(jù)服務(wù)新興產(chǎn)業(yè)的發(fā)展等等。當(dāng)前大數(shù)據(jù)消費(fèi)指數(shù)低,美國(guó)NSA聲稱只是掃描1.6%的全球網(wǎng)絡(luò)流量(約29.21PB),分析其中0.025%的數(shù)據(jù)來支持其分析和決策。我國(guó)數(shù)據(jù)消費(fèi)面臨基礎(chǔ)設(shè)施支撐能力有待提升、產(chǎn)品和服務(wù)創(chuàng)新能力弱、市場(chǎng)準(zhǔn)入門檻高、行業(yè)壁壘嚴(yán)重、機(jī)制不適應(yīng)等問題,亟需采取措施予以解決。
2)數(shù)據(jù)能效指數(shù):
數(shù)據(jù)能效指數(shù)是指大數(shù)據(jù)處理中的價(jià)值能耗比例,是衡量大數(shù)據(jù)價(jià)值獲取的綠色指數(shù)。當(dāng)前面對(duì)大數(shù)據(jù),通常采取基于數(shù)據(jù)中心的粗放式的分析處理和價(jià)值提煉方式,導(dǎo)致數(shù)據(jù)能效低下。一方面,由于缺乏適應(yīng)大數(shù)據(jù)的計(jì)算模式,往往采取集中式全量處理方式,導(dǎo)致數(shù)據(jù)處理效率低,獲取單位價(jià)值所需的數(shù)據(jù)規(guī)模非常龐大,形成了大數(shù)據(jù)價(jià)值密度低的現(xiàn)象;另一方面,為了適應(yīng)大數(shù)據(jù)爆炸式的增長(zhǎng),數(shù)據(jù)中心存儲(chǔ)系統(tǒng)的容量、擴(kuò)展能力、傳輸瓶頸等方面面臨巨大挑戰(zhàn),直接結(jié)果就是數(shù)據(jù)中心的能耗越來越大。有關(guān)調(diào)查顯示在過去5年全球數(shù)據(jù)中心的能耗增長(zhǎng)率是56%,我國(guó)對(duì)數(shù)據(jù)中心流量處理能力的需求增長(zhǎng)更快,數(shù)據(jù)中心能耗的問題就更加突出。目前國(guó)內(nèi)數(shù)據(jù)中心的PUE平均值基本都在2.5以上,與歐美地區(qū)的PUE(能源使用效率)普遍值1.8以下還存在著較大的差距。且目前其全球的數(shù)據(jù)中心50%是完全用自然冷卻的,前十大數(shù)據(jù)中心的PUE都在1.2以下。因此數(shù)據(jù)能效指數(shù)是在大數(shù)據(jù)發(fā)展中必須面對(duì)的,關(guān)乎國(guó)家能源消耗的重要指數(shù)。
3)數(shù)據(jù)安全指數(shù):
數(shù)據(jù)安全指數(shù)包括了數(shù)據(jù)從創(chuàng)建、傳輸、存儲(chǔ)到分析的全生命周期的安全指標(biāo),旨在衡量數(shù)據(jù)安全、隱私保護(hù)等方面的能力。數(shù)據(jù)安全是一個(gè)囊括個(gè)人,企業(yè)和國(guó)家的全方位的大數(shù)據(jù)安全體系。從個(gè)人層面,大數(shù)據(jù)對(duì)于隱私將是一個(gè)重大挑戰(zhàn),哈佛大學(xué)近期的一項(xiàng)研究顯示,只要知道一個(gè)人的年齡、性別和郵編,從公開的數(shù)據(jù)庫中便可識(shí)別出該人87%的身份。對(duì)于企業(yè),數(shù)據(jù)作為一種資產(chǎn),其安全保護(hù)問題十分重要,隨著大數(shù)據(jù)的不斷增加,對(duì)數(shù)據(jù)存儲(chǔ)的物理安全性要求會(huì)越來越高,從而對(duì)數(shù)據(jù)的多副本與容災(zāi)機(jī)制提出更高的要求。而在國(guó)家層面,來自外部的威脅在大數(shù)據(jù)時(shí)代顯然比以往更加突出和危險(xiǎn)。舉世矚目的“維基解密”和“棱鏡”事件生動(dòng)昭示著大數(shù)據(jù)的嚴(yán)酷挑戰(zhàn)。“維基解密”幾次泄露美國(guó)軍事外交等機(jī)密,規(guī)模之大,影響之廣,震驚全球。“棱鏡”事件向全世界曝光出網(wǎng)絡(luò)空間國(guó)家與個(gè)人,國(guó)家與國(guó)家之間的安全對(duì)抗。因此評(píng)估數(shù)據(jù)安全指數(shù),有利于推動(dòng)大數(shù)據(jù)安全體系的完善,提升國(guó)家、社會(huì)和個(gè)人的信息安全。
1.如何建立支撐數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)新范式的基礎(chǔ)設(shè)施:這包括了建立一系列通用的工具,以支撐從數(shù)據(jù)采集、驗(yàn)證到管理、分析和長(zhǎng)期保存等整個(gè)流程,支持跨工具、跨項(xiàng)目、跨領(lǐng)域的數(shù)據(jù)共享與整合,將是支持?jǐn)?shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的基礎(chǔ)問題。
2.如何建立數(shù)據(jù)全生命周期的計(jì)算模型:研究以數(shù)據(jù)為中心的新型計(jì)算架構(gòu),將計(jì)算推送到數(shù)據(jù)從獲取、存儲(chǔ)、處理、交換到服務(wù)的全生命周期的各個(gè)部分,研究數(shù)據(jù)全生命周期中不同計(jì)算之間的關(guān)聯(lián)、互動(dòng)和共享機(jī)制,在提高數(shù)據(jù)消費(fèi)能力的同時(shí)有效降低數(shù)據(jù)計(jì)算能耗,形成數(shù)據(jù)安全體系,這是大數(shù)據(jù)計(jì)算的關(guān)鍵問題。
3.如何完成數(shù)據(jù)資產(chǎn)化和形成數(shù)據(jù)資產(chǎn)流轉(zhuǎn)體系:亟需建立數(shù)據(jù)資產(chǎn)化的基本標(biāo)準(zhǔn),讓不同機(jī)構(gòu)、不同領(lǐng)域的數(shù)據(jù)形成規(guī)范化資產(chǎn);建立數(shù)據(jù)資產(chǎn)訪問、連接和共享機(jī)制,搭建數(shù)據(jù)資產(chǎn)交易平臺(tái),形成數(shù)據(jù)流轉(zhuǎn)的層次化體系結(jié)構(gòu);研究數(shù)據(jù)資產(chǎn)的所有權(quán)、使用權(quán)以及價(jià)值評(píng)估體系,通過市場(chǎng)化模式保障數(shù)據(jù)資產(chǎn)流轉(zhuǎn)的可行性。
原文:程學(xué)旗:“大數(shù)據(jù)”相關(guān)產(chǎn)學(xué)研實(shí)踐后的思考與小結(jié)
公司簡(jiǎn)介 | 媒體優(yōu)勢(shì) | 廣告服務(wù) | 客戶寄語 | DOIT歷程 | 誠(chéng)聘英才 | 聯(lián)系我們 | 會(huì)員注冊(cè) | 訂閱中心
Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術(shù)有限公司 版權(quán)所有.