2019年閃存峰會(huì)上,姚婷的主旨演講內(nèi)容是《GearDB:在瓦記錄磁盤上構(gòu)建無垃圾回收的鍵值存儲(chǔ)系統(tǒng)(A GC-free Key-Value Store on HM-SMR Drives with Gear Compaction)》,有媒體采訪時(shí)姚婷表示去華為做的工作就與這些內(nèi)容有關(guān)。
那么,姚婷講了什么?對(duì)華為有怎樣的價(jià)值呢?
瓦記錄磁盤說的是SMR(Shingled Magnetic Recording),是繼續(xù)CMR(Conventional magnetic recording)之后的新一代磁盤技術(shù)。(注:在這次公開演講前半年,姚婷在超有影響力的學(xué)術(shù)會(huì)議——USENIX文件與存儲(chǔ)技術(shù)會(huì)議上用英文做了介紹,英文發(fā)音水平遠(yuǎn)高于大多數(shù)搞IT的人)
SMR能將磁盤的容量和性價(jià)比推向新高,但SMR性能與常用的CMR有不少差距,對(duì)于華為這樣的IT廠商繞不開大勢(shì)所趨的SMR磁盤,雖然閃存性能遠(yuǎn)勝于磁盤,但磁盤在容量上有優(yōu)勢(shì)。而且,磁盤在未來還有廣闊的發(fā)展前景,在TDMR(二維磁記錄)和HAMR(熱輔助磁記錄)出現(xiàn)之前,就靠SMR來不斷提升性能了,也就是說誰能用好SMR磁盤就意味著掌握了發(fā)展的先機(jī)。最近UCloud就宣布在歸檔云存儲(chǔ)上率先使用了SMR。
目前市場(chǎng)上,主流盤廠商希捷和西數(shù)都有SMR磁盤,一個(gè)新的技術(shù)方向是HM-SMR(Host-Managed SMR)和HA-SMR(Host-Aware-SMR),借助Host主機(jī)端的能力來實(shí)現(xiàn)一些更高級(jí)的功能,新型SMR可以解決SMR本身的一些問題,能讓性能可預(yù)測(cè),但使用的復(fù)雜度也水漲船高,在HM-SMR上構(gòu)建高效的KV鍵值存儲(chǔ)也是難上加難。
主要問題在于三方面,一個(gè)是垃圾回收的開銷大,耗用的資源多。二是磁盤空間利用率低,這樣一來就限制了大容量盤的優(yōu)勢(shì)。第三點(diǎn),由于磁盤存入數(shù)據(jù)多,導(dǎo)致性能降低,同樣也是用戶不愿接受的。
用白話說,磁盤利用率只有非常低的60%,如果買一塊現(xiàn)在最大的20TB磁盤,能用的就只有12TB,但是如果把利用率提升到到90%,那買一塊盤就能比別人多用6TB,姚婷介紹的技術(shù)能做到這點(diǎn)。
這點(diǎn)有多大的商業(yè)價(jià)值呢?
西部數(shù)據(jù)預(yù)計(jì),到2023年,數(shù)據(jù)中心SMR硬盤的占比將逐步增加到50%左右的比例,2023年,數(shù)據(jù)中心HDD的采用量仍將是SSD的6.5倍,也就是絕大部分的數(shù)據(jù)都要存儲(chǔ)在磁盤上,市場(chǎng)非常巨大。
此外,另一位天才少年左鵬飛研究的是非易失性內(nèi)存相關(guān)內(nèi)容,這也是存儲(chǔ)領(lǐng)域非常前沿和高端的方向,如何安全高效地使用非易失性存儲(chǔ)能達(dá)到的效果也是降本增效。如需了解更多可以查看左同學(xué)的Github空間,上面列出了各種詳盡的Paper信息。
最高檔薪資的天才少年叫張霽,張霽的研究方向是磁盤和數(shù)據(jù)庫相關(guān)的智能優(yōu)化方向,用機(jī)器學(xué)習(xí)的能力預(yù)測(cè)磁盤并處理磁盤故障,磁盤故障輕則影響系統(tǒng)性能,嚴(yán)重的話可能導(dǎo)致數(shù)據(jù)永久丟失,能用機(jī)器學(xué)習(xí)處理故障的做法就很高級(jí),當(dāng)然,這一做法并非首創(chuàng),目前在一些存儲(chǔ)系統(tǒng)中已經(jīng)有商用化案例了。
但從這張Paper(HDDse: Enabling High-Dimensional Disk State Embedding for Generic Failure Detection System of Heterogeneous Disks in Large Data Centers)介紹的內(nèi)容來看,該方案的水平吊打一部分搞AI存儲(chǔ)的廠商。因?yàn)?,大部分磁盤故障預(yù)測(cè)都是面向同一廠商同一型號(hào)的硬盤來做的,而他的模型能針對(duì)各種類型的硬盤,他用的是長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM),哪怕是少數(shù)不常見的硬盤也能有很好的效果。更厲害的是,這一做法已經(jīng)在實(shí)際使用中看到了效果。
另外一部分是用機(jī)器學(xué)習(xí)的能力做數(shù)據(jù)庫性能調(diào)優(yōu),據(jù)說優(yōu)化能力都比許多專業(yè)的人工優(yōu)化還要好。機(jī)器學(xué)習(xí)代替人工做底層運(yùn)維是大勢(shì)所趨,不僅能減少人員成本投入,效果還比人工操作好,對(duì)華為這樣的企業(yè)來說,也還是降本增效啊。
總之,技術(shù)都很前沿,價(jià)值都很大。
2020年上半年,身處逆境的華為再次完成高速增長(zhǎng),營(yíng)收達(dá)到了4500多億。對(duì)于華為來說,規(guī)模越大創(chuàng)新效益越明顯,華為的企業(yè)級(jí)存儲(chǔ)市場(chǎng)在快速增長(zhǎng),云計(jì)算業(yè)務(wù)勢(shì)頭也非常強(qiáng),隨著規(guī)模的擴(kuò)大,技術(shù)創(chuàng)新帶來的優(yōu)勢(shì)將成比例放大,所以,對(duì)于頂尖技術(shù)人才的需求是非常強(qiáng)烈的。
但,這樣說還是有點(diǎn)片面。
天才少年計(jì)劃其實(shí)還有一個(gè)標(biāo)志性的意義,那就是,當(dāng)中國企業(yè)開始爭(zhēng)當(dāng)行業(yè)技術(shù)標(biāo)準(zhǔn)的制定者時(shí)(比如5G的標(biāo)準(zhǔn)),當(dāng)中國企業(yè)的技術(shù)水平發(fā)展到了一定領(lǐng)先階段時(shí),以往挖外企培養(yǎng)起來的經(jīng)驗(yàn)型人才的道路越來越窄,關(guān)鍵是有些領(lǐng)域可能無人可挖,于是,不如索性直接高薪高調(diào)找應(yīng)屆生,走完全自己培養(yǎng)人才的道路,或許意味著新時(shí)代的到來,而這只是個(gè)開始。
這是我的個(gè)人觀點(diǎn),如果華為這么說就顯得有點(diǎn)太張揚(yáng)了。任正非對(duì)于天才少年的看法是,天才少年是鯰魚,希望天才少年的加入能激活創(chuàng)新活力,有些敲打老員工的意思,保持緊迫感。