中國(guó)工程院副院長(zhǎng)、院士、國(guó)家信息化專家咨詢委員會(huì)委員 鄔賀銓
尊敬的北大的各位老師、各位專家、各位CIO,很高興來(lái)參加這次論壇。最近這幾天好像有點(diǎn)“CIO熱”,上個(gè)禮拜Gartner在北京有CIO論壇,明天在上海也有CIO論壇,大數(shù)據(jù)論壇也是到處在開(kāi)。今天的標(biāo)題是“大數(shù)據(jù)應(yīng)用”,我知道今天后面的幾位報(bào)告人會(huì)講到大數(shù)據(jù)在教育、醫(yī)療、商業(yè)等等方面的應(yīng)用,所以我這里就只講一下大數(shù)據(jù)時(shí)代的ICT趨勢(shì),會(huì)講到四個(gè)方面的問(wèn)題:大數(shù)據(jù)浪潮的到來(lái)、大帶寬發(fā)展的趨勢(shì)、大網(wǎng)絡(luò)布局的演變、大數(shù)據(jù)挖掘的挑戰(zhàn)。
第一,大數(shù)據(jù)浪潮的到來(lái)。綠色圖表示每個(gè)網(wǎng)民人均每個(gè)月下載流量,1998年每個(gè)網(wǎng)民一個(gè)月只需要一兆流量,2003年就需要一百兆,2008年就是1G,到2014年每個(gè)月要10個(gè)G的下載量。右邊的圖是講全世界互聯(lián)網(wǎng)流量累計(jì)達(dá)到1EB所需要的時(shí)間,2001年需要一年,2004年需要一個(gè)月,而今年只需要一天。2012年去年全世界互聯(lián)網(wǎng)一天的信息量大概是1EB,可以刻滿1.68億張DVD,?,F(xiàn)在全世界新產(chǎn)生的數(shù)據(jù)量每年增加40%,每?jī)赡陻?shù)據(jù)翻一番。2012年、2013年產(chǎn)生數(shù)據(jù)量總和是人類有歷史以來(lái)到2011年產(chǎn)生數(shù)據(jù)量的總和,兩年的數(shù)據(jù)量等于一萬(wàn)年的總和,這個(gè)數(shù)據(jù)規(guī)模為1.8ZB,假如把這個(gè)數(shù)據(jù)裝在32G的IPad上,要裝575億個(gè),把這些iPad摞起來(lái),可以摞起兩座中國(guó)的長(zhǎng)城。2020年全球數(shù)據(jù)將達(dá)到40ZB,如果將數(shù)據(jù)裝在光盤上,這些光盤總重量等于424艘尼米茲號(hào)航母。所以說(shuō),大數(shù)據(jù)時(shí)代到來(lái)了。
大數(shù)據(jù)有網(wǎng)絡(luò)數(shù)據(jù)、企事業(yè)單位數(shù)據(jù)、政府?dāng)?shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)自媒體數(shù)據(jù)(比如社交網(wǎng)絡(luò)、博客、微博等),有日志數(shù)據(jù)(比如搜索引擎,大家上網(wǎng)等等都會(huì)留下很多足跡),還有富媒體數(shù)據(jù)(視頻、音頻等等),每天的數(shù)據(jù)量很大。比如淘寶每天數(shù)據(jù)量就超過(guò)50個(gè)TB;新浪微博晚上高峰的時(shí)候一秒鐘就要接收100萬(wàn)以上的響應(yīng)請(qǐng)求;百度每天大概處理60億次搜索請(qǐng)求,幾十PB;中國(guó)聯(lián)通每天記錄用戶上網(wǎng)條數(shù),一秒鐘記錄83萬(wàn)條,一個(gè)月大概是300TB;國(guó)家電網(wǎng)信息中心目前累計(jì)收集了2PB的數(shù)據(jù);北京公交一卡通,每天用公交一卡通的旅客有4000萬(wàn)刷卡記錄,而北京地鐵每天乘客1000萬(wàn),把這些數(shù)據(jù)每天收集起來(lái)分析數(shù)據(jù)可以用于改善北京的交通狀況,優(yōu)化北京的公交線路。
最大的流量是視頻。美國(guó)TouTube網(wǎng)站一分鐘有72小時(shí)的視頻上載,到2016年互聯(lián)網(wǎng)上的忙時(shí)流量是720Tbps,相當(dāng)于全世界有6億人同時(shí)看不一樣的高清電影。到2016年每3分鐘互聯(lián)網(wǎng)傳送360萬(wàn)小時(shí)視頻,相當(dāng)于全球已經(jīng)生產(chǎn)的全部電影。這個(gè)電影用什么量衡量呢?如果一個(gè)人要看3分鐘所傳送的電影,需要34年不吃飯、不睡覺(jué)才能看完。最近兩個(gè)月在TouTube上載的視頻量是美國(guó)三大電視臺(tái)–ABC、NBC、CBS自1948年以來(lái)24/7/365連續(xù)播出的內(nèi)容,可以看到視頻流量非常大。
大數(shù)據(jù)無(wú)所不在。圖中是美國(guó)的一家醫(yī)院(UPMC),一年能收500TB數(shù)據(jù);倫敦有200個(gè)交通攝像頭,每天是8TB數(shù)據(jù);倫敦才200個(gè),北京有八十萬(wàn)個(gè)攝像頭,數(shù)據(jù)量要比倫敦大得多了。還有其他方面的數(shù)據(jù)量,大數(shù)據(jù)無(wú)所不在。就監(jiān)控而言,很多城市的攝像頭多達(dá)幾十萬(wàn)個(gè),一個(gè)月的數(shù)據(jù)就達(dá)到數(shù)十個(gè)PB。北京公安局規(guī)定,所有超市,只要有開(kāi)放食品架的,全都要裝高清攝像頭,能清晰的拍攝到走在架前人的臉部,以防投毒,防用針管裝艾滋病毒、傳染病毒打到液體里等,那么產(chǎn)生的數(shù)據(jù)就更大了。飛機(jī)的汽輪機(jī)產(chǎn)生的數(shù)據(jù)是Twitter的七倍,例如波音787,它每一個(gè)飛行來(lái)回可產(chǎn)生TB級(jí)的數(shù)據(jù),美國(guó)每個(gè)月收集360萬(wàn)次飛行記錄;監(jiān)視機(jī)隊(duì)25000個(gè)引擎,每個(gè)引擎的數(shù)據(jù)一天產(chǎn)生588GB;空客380軟件有10億行,每30分鐘產(chǎn)生10TB的數(shù)據(jù);風(fēng)力發(fā)電機(jī)裝有測(cè)量風(fēng)速、螺距、油溫等多種傳感器,每隔幾毫秒測(cè)一次,用于檢測(cè)葉片、變速箱、變頻器等的磨損程度;一個(gè)具有500個(gè)風(fēng)機(jī)的風(fēng)場(chǎng)一年會(huì)產(chǎn)生2PB的數(shù)據(jù)。這些數(shù)據(jù)用于預(yù)防性維護(hù),可使風(fēng)機(jī)壽命延長(zhǎng)3年即達(dá)到18年,每年每風(fēng)機(jī)的成本將降低17%。根據(jù)上面監(jiān)測(cè)的統(tǒng)計(jì),今天所有企業(yè)的信息存儲(chǔ)總量已達(dá)2.2ZB,未來(lái)幾年將年增67%。
大數(shù)據(jù)的應(yīng)用很多,比如淘寶,通過(guò)采集淘寶網(wǎng)上成交額比較高的390個(gè)類目的商品價(jià)格來(lái)搞出淘寶的CPI,比國(guó)家統(tǒng)計(jì)局公布的CPI更早的預(yù)測(cè)到經(jīng)濟(jì)狀況。為什么?國(guó)家統(tǒng)計(jì)局統(tǒng)計(jì)的CPI主要根據(jù)是剛性的物品;比如食品,經(jīng)濟(jì)好、經(jīng)濟(jì)不好,人們都要吃飯,因此差別不大??墒翘詫毶隙际琴I化妝品、電子產(chǎn)品、服裝,經(jīng)濟(jì)不好就會(huì)少買,因此淘寶CPI更能反映價(jià)格走勢(shì),一般來(lái)講比我們國(guó)家統(tǒng)計(jì)局公布的CPI,能提前一個(gè)月到半個(gè)月預(yù)測(cè)到走勢(shì)。中央首長(zhǎng)到了淘寶看了以后就說(shuō)“你們每天把淘寶的CPI送到中南海”。最近經(jīng)濟(jì)情況的下行壓力很大,很多中小企業(yè)貸款很難,因?yàn)樗麄儧](méi)用擔(dān)保。阿里公司根據(jù)在淘寶網(wǎng)上中小公司遭遇的狀況,篩選出財(cái)務(wù)健康、誠(chéng)信企業(yè),不要他們擔(dān)保,阿里放貸300多億元,壞賬率僅0.3%。去年公布的四大商業(yè)銀行壞賬率是這個(gè)數(shù)字的13倍。商業(yè)銀行是有擔(dān)保的,而阿里沒(méi)有擔(dān)保。