大家好,我是昆騰的曉哲,很榮幸今天在這里跟各位老師和專家分享一下昆騰在大模型海量數(shù)據(jù)方面的解決方案。我的分享內(nèi)容有三個(gè)方面,昆騰公司的簡(jiǎn)介,海量數(shù)存儲(chǔ)的解決方案y以及相關(guān)的實(shí)踐案例。
昆騰公司已經(jīng)有40多年的歷史,一直致力于數(shù)據(jù)生命周期的研發(fā),在各個(gè)領(lǐng)域積累了大量的客戶和數(shù)據(jù)資源。在全球范圍內(nèi),昆騰擁有很多的大客戶,比如國(guó)內(nèi)外的云廠商、金融機(jī)構(gòu)還有國(guó)家級(jí)實(shí)驗(yàn)室等。
在媒體內(nèi)容創(chuàng)作領(lǐng)域,昆騰的StorNext文件系統(tǒng)可以支持媒體行業(yè)高性能數(shù)據(jù)流的計(jì)算。大家所知道的好萊塢電影《阿凡達(dá)》就是在昆騰存儲(chǔ)系統(tǒng)上實(shí)現(xiàn)后期制作和渲染。在視頻監(jiān)控領(lǐng)域,昆騰與很多廠商合作實(shí)現(xiàn)視頻數(shù)據(jù)存儲(chǔ)。在數(shù)據(jù)歸檔領(lǐng)域,昆騰擁有ActiveScale對(duì)象存儲(chǔ)的冷數(shù)據(jù)存儲(chǔ)整體解決方案。數(shù)據(jù)保護(hù)領(lǐng)域是昆騰的強(qiáng)項(xiàng),主要是物理磁帶庫(kù)和虛擬磁帶庫(kù)兩個(gè)產(chǎn)品線。
在海量數(shù)據(jù)場(chǎng)景下,如何降低整體的TCO?昆騰多年積累了很多客戶,實(shí)現(xiàn)低成本的海量數(shù)據(jù)的存儲(chǔ)。在全球,我們管理著超過(guò)40EB的數(shù)據(jù)量。這些數(shù)據(jù)因?yàn)楦鞣N合規(guī)與法律要求,需要長(zhǎng)時(shí)間保存,這會(huì)造成成本的急劇上升。IDC的報(bào)告顯示,大量產(chǎn)生的數(shù)據(jù)中只有10%是熱數(shù)據(jù),還有30%是溫?cái)?shù)據(jù),剩余的60%是冷數(shù)據(jù)。我們發(fā)現(xiàn),并不需要頻繁訪問(wèn)的溫冷數(shù)據(jù)占用了很多的存儲(chǔ)資源,并產(chǎn)生了大量的能耗,怎么降低這些成本呢?
我們要降低存儲(chǔ)成本、長(zhǎng)期保存,磁帶是最理想的介質(zhì)。磁帶本身能耗很低,而且成本也很低?,F(xiàn)在存儲(chǔ)能耗是一個(gè)很大的挑戰(zhàn),而且能耗成本是隨著數(shù)據(jù)的快速增長(zhǎng)而增長(zhǎng)的。
根據(jù)IDC的報(bào)告,在2025年以后有2%的數(shù)據(jù)存在磁帶的介質(zhì)上,為什么有這么多數(shù)據(jù)往磁帶上轉(zhuǎn)呢?就是因?yàn)槌杀?。磁帶存?chǔ)的整體TCO是最低的,因此很多云服務(wù)商與昆騰都有合作,比如大家都熟知的微軟、谷歌等。昆騰為它們提供了深度歸檔的存儲(chǔ)系統(tǒng),后端其實(shí)就是磁帶。
為什么大家會(huì)選擇磁帶呢?我們以十年為一個(gè)數(shù)據(jù)的生命周期,磁帶與磁盤還有云做一個(gè)對(duì)比。用現(xiàn)在市面上主流的LTO-8磁帶做整體成本的分析,大家會(huì)發(fā)現(xiàn),隨著數(shù)據(jù)量的增長(zhǎng),磁帶成本是最低的。以前經(jīng)常提到磁帶的讀寫問(wèn)題,但目前磁帶已經(jīng)具有極低的誤碼率;而且磁帶具備清晰的技術(shù)路線圖。磁帶還有一個(gè)優(yōu)勢(shì)是通過(guò)驅(qū)動(dòng)器讀寫的,而昆騰磁帶庫(kù)可以根據(jù)客戶需求定制化提供多個(gè)驅(qū)動(dòng)系統(tǒng),它們是獨(dú)立的,之間的讀寫互相不受影響,而且寫的速度也有保證。
除了低成本,磁帶存儲(chǔ)還能極好地抵御病毒的侵襲。磁帶可以與服務(wù)器或者普通存儲(chǔ)形成隔離區(qū)域,數(shù)據(jù)不會(huì)被感染被破壞。昆騰磁帶存儲(chǔ)的數(shù)據(jù)可以保存30年甚至50年,同時(shí)在能耗方面,磁帶平時(shí)的能耗基本為零,其主要能耗由驅(qū)動(dòng)器產(chǎn)生,但是能耗也是非常低的。
磁帶目前主流的技術(shù)標(biāo)準(zhǔn)叫LTO,LTO聯(lián)盟開放了很多專利,并形成了統(tǒng)一的技術(shù)標(biāo)準(zhǔn)。目前最新的LTO-9磁帶,每盤容量為18TB,壓縮的話可以達(dá)到45TB。磁帶通過(guò)驅(qū)動(dòng)器進(jìn)行讀寫,速度可以達(dá)到400MB每秒。在最新的磁帶發(fā)展路線圖中,LTO聯(lián)盟的實(shí)驗(yàn)室已經(jīng)研發(fā)出單盤容量為576TB的第14代磁帶產(chǎn)品。
昆騰的磁帶庫(kù)Scalar i6000被國(guó)內(nèi)外互聯(lián)網(wǎng)廠商大量應(yīng)用。Scalar i6000磁帶庫(kù)可以裝載14000盤磁帶,配備192個(gè)驅(qū)動(dòng)器,每個(gè)驅(qū)動(dòng)器的速度可以達(dá)到400MB每秒。
基于磁帶庫(kù),昆騰提供兩套非結(jié)構(gòu)化數(shù)據(jù)管理平臺(tái)。目前有兩個(gè)整體方案,一個(gè)是與前面提到的StorNext文件系統(tǒng)結(jié)合,根據(jù)客戶業(yè)務(wù)實(shí)現(xiàn)定制策略文件和對(duì)象的自動(dòng)遷移;第二個(gè)是ActiveScale對(duì)象存儲(chǔ),能夠?qū)崿F(xiàn)同對(duì)象存儲(chǔ)和磁帶的按策略遷移,這是昆騰獨(dú)有的產(chǎn)品,通過(guò)對(duì)象存儲(chǔ)和帶庫(kù)結(jié)合,通過(guò)S3標(biāo)準(zhǔn)協(xié)議實(shí)現(xiàn)數(shù)據(jù)自動(dòng)遷移到帶庫(kù)。
基于昆騰StorNext文件系統(tǒng)實(shí)現(xiàn)的歸檔的整體解決方案,可以根據(jù)客戶不同的業(yè)務(wù)定制前端的接口,通過(guò)數(shù)據(jù)存儲(chǔ)到StorNext系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)的遷移,這個(gè)存儲(chǔ)可以是對(duì)象、帶庫(kù)也可以是公有云。與其他普通的對(duì)象存儲(chǔ)解決方案來(lái)比,可減少了50%以上的技術(shù)成本。相對(duì)海量數(shù)據(jù),昆騰的磁帶可以實(shí)現(xiàn)長(zhǎng)達(dá)數(shù)十年的保存與保護(hù),而且保證數(shù)據(jù)能夠很好的隔離。
昆騰ActiveScale Cold Storage是一套兼具可靠性和超低TCO的冷數(shù)據(jù)解決方案,這套方案昆騰引入了糾刪碼的技術(shù)。前端是昆騰的分布式對(duì)象存儲(chǔ),可以實(shí)現(xiàn)通過(guò)糾刪碼來(lái)滿足數(shù)據(jù)的履約,并降低整體成本,后端接入昆騰磁帶庫(kù)并同樣實(shí)現(xiàn)了糾刪的技術(shù)?;诶ヲv的RAIL技術(shù)架構(gòu),數(shù)據(jù)放在磁帶下,磁帶庫(kù)的糾刪目前只有昆騰一家可以實(shí)現(xiàn)。昆騰實(shí)現(xiàn)的糾刪是基于磁帶庫(kù)層面的糾刪,同時(shí)還能在磁帶庫(kù)內(nèi)實(shí)現(xiàn)跨磁帶,同時(shí)可以在磁帶內(nèi)部做糾刪碼的設(shè)置。昆騰實(shí)現(xiàn)了三個(gè)級(jí)別的糾刪,在磁帶內(nèi)部跨磁帶跨帶庫(kù)實(shí)現(xiàn)數(shù)據(jù)的冗余,同時(shí)降低整體建設(shè)和成本。
在海量數(shù)據(jù)中,存在很多的小文件。昆騰對(duì)小文件場(chǎng)景做了特殊優(yōu)化,將小文件實(shí)現(xiàn)聚合之后寫進(jìn)磁帶,這樣避免了很多小文件讀取或者恢復(fù)量的問(wèn)題。
一句話總結(jié)一下,昆騰數(shù)十年在整個(gè)數(shù)據(jù)生命周期內(nèi)做的技術(shù)研發(fā),都是為了確保“讓數(shù)據(jù)在正確的時(shí)間存在正確的位置并用正確的成本”。
最后分享兩個(gè)案例。
我們與國(guó)家級(jí)基因研究所的合作,實(shí)現(xiàn)整體數(shù)據(jù)分析還有數(shù)據(jù)歸檔。前端有很多廠家存儲(chǔ)系統(tǒng)由不同研究人員使用,最后我們將前端數(shù)據(jù)歸到昆騰StorNext高性能文件系統(tǒng)上,實(shí)現(xiàn)基于數(shù)據(jù)的分析,分析完成之后,這些分析數(shù)據(jù)需要長(zhǎng)時(shí)間保存,這套系統(tǒng)可以自動(dòng)化地將數(shù)據(jù)寫到磁帶庫(kù)上。昆騰的系統(tǒng)有一個(gè)特點(diǎn)——雖然把數(shù)據(jù)歸檔,前端目錄結(jié)構(gòu)不會(huì)有任何變化,需要訪問(wèn)的話直接雙擊或者通過(guò)軟件調(diào)用文件名稱數(shù)據(jù)自動(dòng)實(shí)現(xiàn)回調(diào),免去很多的維護(hù)成本。
針對(duì)互聯(lián)網(wǎng)廠商的超大規(guī)模冷數(shù)據(jù)存儲(chǔ),昆騰可以實(shí)現(xiàn)上百個(gè)節(jié)點(diǎn),通過(guò)數(shù)據(jù)寫入還能夠?qū)崿F(xiàn)糾刪,將數(shù)據(jù)寫到磁帶上。經(jīng)過(guò)大致的測(cè)算,昆騰的解決方案能幫客戶節(jié)省40%—50%的成本。
周所周知,磁帶使用的場(chǎng)景主要是冷數(shù)據(jù)的存儲(chǔ)。對(duì)于海量的溫冷數(shù)據(jù),磁帶是成本及能耗等多個(gè)方面最為合適的介質(zhì)。
這是我今天的分享,謝謝大家!