早在30年前,我們就開(kāi)始使用“海量數(shù)據(jù)”這一術(shù)語(yǔ),現(xiàn)在,應(yīng)該叫“巨量數(shù)據(jù)”。據(jù)2018年IDC發(fā)布預(yù)測(cè)報(bào)告稱,2025年全球數(shù)據(jù)量將達(dá)到175ZB。然而,今年IDC的最新預(yù)測(cè)已經(jīng)將數(shù)據(jù)量上調(diào)至188ZB,再過(guò)兩年其增量會(huì)增加100ZB,未來(lái)它的預(yù)測(cè)還會(huì)調(diào)高。
這些數(shù)據(jù)從哪里來(lái)?有這樣幾個(gè)來(lái)源,以前講物理空間,信息空間,今天給大家講的是三域空間加一個(gè)思維空間。
第一個(gè)空間是從物理空間中,現(xiàn)實(shí)客觀存在,我們把它用各種方法用照相語(yǔ)音文字變成信息空間,現(xiàn)在把信息空間這些視頻照片文字都轉(zhuǎn)成數(shù)據(jù)。第二個(gè)空間是思維空間?,F(xiàn)在我把第一個(gè)從物理空間的數(shù)據(jù),叫做物生數(shù),從物理空間影射而來(lái),思維空間叫做人生數(shù),就是從思維空間影射而來(lái),我們這里的數(shù)據(jù)基本上是這兩個(gè)空間產(chǎn)生的。
而2023年,是信息革命歷程中一個(gè)值得紀(jì)念的時(shí)間節(jié)點(diǎn),這個(gè)數(shù)據(jù)可以由機(jī)器自己產(chǎn)生,是AIGC的應(yīng)用元年,AGI(通用人工智能)將在2030年前實(shí)現(xiàn),它有了自主意識(shí),產(chǎn)生的數(shù)據(jù)既不是從物理空間來(lái),也不是從人這來(lái),它自己還會(huì)產(chǎn)生一些新數(shù)據(jù),我叫做機(jī)生數(shù),我們的數(shù)據(jù)會(huì)越來(lái)越多。
我們以微信朋友圈為例,每天會(huì)上傳12億張以上的圖片,第一天假如平均每張圖片有10次點(diǎn)擊10次點(diǎn)贊就是百億訪問(wèn)量,需要極高的訪問(wèn)是熱數(shù)據(jù),一周以后訪問(wèn)頻率極低,冷數(shù)據(jù)就是訪問(wèn)頻次很低的數(shù)據(jù),但后者占數(shù)據(jù)的80%,熱數(shù)據(jù)只占20%。
冷數(shù)據(jù)面臨成本+能耗+壽命挑戰(zhàn)
那么冷數(shù)據(jù)面臨哪些挑戰(zhàn)?冷數(shù)據(jù)既是大數(shù)據(jù),也是長(zhǎng)數(shù)據(jù)。冷數(shù)據(jù)需要保存的數(shù)量很大,保存時(shí)間又很長(zhǎng),因此,面臨成本,能耗還有長(zhǎng)壽命的挑戰(zhàn)。
先來(lái)看看冷數(shù)據(jù)目前的兩個(gè)存儲(chǔ)主角。IDC報(bào)告顯示,到2025年我們有50%的數(shù)據(jù)還保存在硬盤上。出于時(shí)間成本考慮,SSD等閃存介質(zhì)不適合保存冷數(shù)據(jù),因此保存冷數(shù)據(jù)的磁帶現(xiàn)在有復(fù)興趨勢(shì),百度公司就是采用磁帶,使其成本降低了一倍。
如果我們?nèi)糜脖P存冷數(shù)據(jù),成本是100%,如果采用40%的硬盤和60%的磁帶,成本會(huì)降低40%,全用磁帶則會(huì)降低77%。
這兩個(gè)主角如果按75年的總體應(yīng)用成本對(duì)比相差太大,因?yàn)橛脖P壽命只有5年,每隔5年要把數(shù)據(jù)遷移到另外的硬盤上,要換15次,硬盤堆在一起又容易產(chǎn)生熱量產(chǎn)生故障盤,還要冷卻它,又需要制冷的能量。
一個(gè)數(shù)據(jù)中心有上百萬(wàn)塊硬盤,我們換15次,換15個(gè)幾百萬(wàn)塊硬盤,再提供一個(gè)合適的環(huán)境,才能保存75年,磁帶壽命10年,光盤長(zhǎng)一些,光盤是目前壽命最長(zhǎng)的,但光盤容量比較小。
目前,光存儲(chǔ)是更好的選擇,而壽命是重要問(wèn)題之一,現(xiàn)在硬盤5年,固態(tài)盤5年,磁帶10年光盤可以到50年,新AD光盤有100年壽命,但玻璃可以進(jìn)行永久存儲(chǔ)。
長(zhǎng)壽命的存儲(chǔ),本質(zhì)上都是光存儲(chǔ),我們把信息刻在石頭上,其實(shí)和我們刻在光盤上的原理沒(méi)有太大區(qū)別,只要把反射的介質(zhì)做的足夠長(zhǎng),信息就可以長(zhǎng)久保存。
當(dāng)前光存儲(chǔ)產(chǎn)品進(jìn)程方面,大家印象中的光盤還是藍(lán)光,現(xiàn)在這個(gè)單張50G的藍(lán)光容量已經(jīng)變成500GB,比如華錄公司單張光盤最大容量就是500GB。12張光盤裝在一個(gè)盒子里面和一盤磁帶體積差不多。
這里的技術(shù)更新包括,AD技術(shù)減少了藍(lán)光光盤的道間距和位間距,將點(diǎn)變得深淺不同。還有一個(gè)技術(shù)是多層,幾個(gè)技術(shù)加起來(lái)可以做到單盤2T容量,比現(xiàn)在又提高4倍。
現(xiàn)在國(guó)家已經(jīng)安排一個(gè)重點(diǎn)研發(fā)計(jì)劃,目前的國(guó)際最高水平是500G,中國(guó)研發(fā)計(jì)劃是每1個(gè)盤1TB,這是由華錄、華為、華中科技大學(xué)、上海理工大學(xué)、清華大學(xué)等一起做的技術(shù),目標(biāo)是三年后量產(chǎn),而且可以告訴大家這個(gè)是完全可以做到的。
光存儲(chǔ)原理突破與未來(lái)三種變革性技術(shù)
藍(lán)光之后的下一代技術(shù),我們有三個(gè),現(xiàn)在都正在做,國(guó)家都安排了計(jì)劃。第一個(gè)是全息光存儲(chǔ),容量可以做到單盤容量2-8TB,好處是比現(xiàn)在的光盤更快,不像光盤一次讀一個(gè)點(diǎn),它一次就讀一幅圖。
第二個(gè)技術(shù)是突破光學(xué)衍射極限的雙光束超分辨技術(shù),這是武漢光電國(guó)家研究中心的一個(gè)結(jié)果,相當(dāng)于把一個(gè)點(diǎn)超越光學(xué)的衍射極限,這樣它的容量就可以很大,理論上單張光盤可存容量接近1PB。
第三個(gè)技術(shù)是玻璃多維永久存儲(chǔ)。最早,是日立公司在玻璃上,類似于做激光微調(diào)技術(shù),在玻璃上打點(diǎn)。但2009年以后,一直沒(méi)有繼續(xù)做,理由是打點(diǎn)以后閃射很大,幾層就把光閃射沒(méi)了,容量上不去。
但2003年有一篇文章指出,飛秒激光可以在石英玻璃上形成一個(gè)納米光柵,一個(gè)很重要的特點(diǎn)是透光性好,99%都可以透下去,這樣就可以做很多層,但由于這些人是物理學(xué)家,文章發(fā)表后,不知用在哪里。
一篇文章雖然發(fā)表十幾年,但鮮有實(shí)際應(yīng)用。直到2014年,這篇文章吸引了張靜宇博士的注意。張博士是華中科技大學(xué)的優(yōu)秀畢業(yè)生,曾參與國(guó)內(nèi)的光存儲(chǔ)項(xiàng)目,他在海外讀博期間看到了這篇文章,并研發(fā)出了玻璃存儲(chǔ)技術(shù),成為該技術(shù)的第一發(fā)明人,當(dāng)時(shí)還設(shè)計(jì)了相應(yīng)的讀寫裝置。
藍(lán)光光盤只有50G,玻璃存儲(chǔ)的單盤容量理論上可以做到360TB。張博士的這一突破性成果在國(guó)際上產(chǎn)生了巨大影響,該技術(shù)還被吉尼斯紀(jì)錄認(rèn)證為最長(zhǎng)使用壽命的光存儲(chǔ)技術(shù)。
微軟玻璃存儲(chǔ)的產(chǎn)業(yè)化進(jìn)程。之后這項(xiàng)技術(shù)被微軟看中,進(jìn)行了產(chǎn)業(yè)化。微軟CEO親自講解了玻璃存儲(chǔ)技術(shù),現(xiàn)在微軟已經(jīng)把一部電影存進(jìn)去了,之后馬斯克也刻了一張光盤帶到太空中,說(shuō)可以遨游太空10億年,萬(wàn)一哪天碰到外星人,發(fā)現(xiàn)這張光盤就可以讀到我們?nèi)祟惖男畔ⅰ?/p>
先來(lái)看微軟的一些進(jìn)展。這是寫玻璃的過(guò)程,用激光在玻璃上掃描,一層層的掃,這就是寫過(guò)程。然后是一層層的往上寫,微軟現(xiàn)在寫到100多層。
微軟現(xiàn)在把玻璃碟片做成一個(gè)大型的光盤庫(kù),可以擴(kuò)展。2022年還是視頻演示,2023年已經(jīng)公布了一個(gè)實(shí)物,工程化進(jìn)展極快,他們做了一個(gè)很炫的光盤庫(kù),可擴(kuò)展性很好,一個(gè)小機(jī)械手可以優(yōu)化調(diào)度,把數(shù)據(jù)用最短時(shí)間寫到裝置上去,這就是微軟用張靜宇博士的發(fā)明做出的成果。
張博士回國(guó)以后,覺(jué)得其實(shí)還有兩個(gè)問(wèn)題沒(méi)有解決。一個(gè)是寫入比較慢。另一個(gè)寫多層的時(shí)候閃射率和透射率還不夠高。所以針對(duì)這兩個(gè)問(wèn)題,張博士進(jìn)行了更深入的原理性和機(jī)理性的研究,包括光與物質(zhì)的相互作用,各種模型,最后把兩個(gè)問(wèn)題解決了,并發(fā)表了一系列文章。
它可以寫單根的線,光通過(guò)率更高,而且密度可以做到更大,可以做更多層,目前已經(jīng)實(shí)現(xiàn)了400層的寫入,微軟只有100多層,而且一個(gè)脈沖就可以寫一個(gè)結(jié)構(gòu),以前要十幾個(gè)脈沖,甚至二十個(gè)脈沖才能寫一個(gè)結(jié)構(gòu),因此速度問(wèn)題和容量問(wèn)題進(jìn)一步得到了解決,可以開(kāi)始國(guó)內(nèi)的產(chǎn)業(yè)化之路。和微軟那個(gè)方法對(duì)比,我們現(xiàn)在還采用轉(zhuǎn)動(dòng)的方法,進(jìn)一步降低了成本。
最后——光存儲(chǔ)產(chǎn)業(yè)化行進(jìn)中
巨量冷數(shù)據(jù)對(duì)現(xiàn)有的存儲(chǔ)系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn),我們認(rèn)為冷數(shù)據(jù)的未來(lái)希望在光,就是希望之光,因?yàn)楣獾木S度還沒(méi)有充分利用,還有巨大的潛力,我們現(xiàn)在已經(jīng)是五維,還可以做到六維甚至十維。
還有光的衍射極限已經(jīng)被突破了,而光的介質(zhì)壽命決定了它的保存壽命。玻璃存儲(chǔ)就可以實(shí)現(xiàn)永久存儲(chǔ),所以這個(gè)技術(shù)我們對(duì)它非常的有信心,現(xiàn)在想推動(dòng)它的產(chǎn)業(yè)化,研究工作基本上做完了。感謝張靜宇博士提供的資料,還有曹強(qiáng)教授,姚杰教授,吳非教授,甘棕松教授對(duì)我的演講提供了巨大的幫助,謝謝。
以上內(nèi)容根據(jù)現(xiàn)場(chǎng)速記整理,未經(jīng)演講人審核,如有問(wèn)題歡迎指出。