噜噜噜综合,又色又爽又高潮免费观看,综合无码一区二区三区四区五区,中文字幕无码人妻aaa片,四虎成人精品永久网站

大數據時代 何處安放我們的元數據?

王振 發(fā)表于:13年06月09日 10:25 [編譯] DOIT.com.cn

  • 分享:
[導讀]我們需要收集,歸檔,研究的數據量是非常驚人的,但是如果我們能巧妙利用元數據,就能快速找到我們所需要的數據文件。

第二種方法,把元數據和數據存儲在一起。這種方法很可取,因為這樣你就只需擔心一個文件系統(tǒng)的數據完整性了。如果文件被移動,元數據也隨之移動。你可以隨時把元數據加入到文件中,因為它就和文件在一起。

理想的狀態(tài)是,如果我們有好的工具來和文件一起復制,移動元數據,那我們就可以輕松地復制或移動數據文件。比如說,你把文件復制到某些活動狀態(tài)存儲中,元數據就要和其一起移動。這還意味著你可以升級這些文件的元數據,然后把它們復制回去,把升級后的元數據和文件放在一起。

我們可以借助擴展屬性(擴展文件屬性)來達到這一目的。許多文件系統(tǒng)都支持擴展屬性,為用戶提供多種選擇,使用戶可以通過擴展文件屬性把元數據添加到文件中,當然,它們也提供多種文件讀取方式。一些文件系統(tǒng)會對擴展屬性強加限制,比如說加入數量的限制,但并不是所有的文件系統(tǒng)都這樣。不管怎么說,把元數據和數據存儲在一起是一個值得考慮的方法。

但是凡事有利就有弊,把元數據和數據存儲在一起也有許多缺點。首先就是用戶如何有效率地搜索元數據?

搜索的主要方式是掃描文件系統(tǒng)的樹形結構,找到每個文件的元數據然后返回信息。但是這種方式要受到文件數量及文件樹形結構的影響,搜索可能會花大量的時間,也許會浪費大量的時間做無用功。

如果你想尋找文件,那你就需要搜索所有文件的元數據。不幸的是,目前幾乎沒有令人滿意的工具或技術把文件(包括元數據)復制到其它存儲(或活動狀態(tài)的存儲設備)中。舉個例子,NFS不支持擴展文件屬性的傳輸,用戶就不能通過它復制文件或從歸檔轉移到活動位置。有復制文件和元數據的方式,但是你需要花大量的精力確保能達到你預期的效果。

更好的方法

我個人認為第二種方法會好一些,因為元數據總是和數據在一起,這樣用戶就可以隨時訪問元數據。在第一種把元數據集中起來的方法中,除了要保護數據之外,你不得不使用額外的資源來保護數據庫,保證其精確性。考慮到那難以置信的數據量,再加上需要保護的新的歸檔,我現在覺得這兩種方法都不夠完美。

既然這樣,那何不把這兩種方法結合起來!

我仍然覺得元數據應該和數據存儲在一起,最主要的原因就是元數據相對于數據而言,本身就是相同的東西,把它們分開沒有多大的意義。

不過,掃描含有上億個文件的樹形結構也是不現實的。所以,我們需要專為搜索設計的框架,在其中建立一個集中元數據索引,不過所有元數據的功能仍在于文件本身。

如果我們創(chuàng)建了一個歸檔并把所有的數據都放入其中,那我們就可以抓取元數據并建立一個集中索引。當文件移動到歸檔中時,我們可以把元數據集中在一個文件中。

令人欣慰的是,歸檔本身的機制可以發(fā)現歸檔中文件的改變,獲取元數據并升級集中索引。但是,若是歸檔有REST接口,那就沒有好的方式去“升級”文件。如果你從一個歸檔中提取了一個文件并做了更改,大多數情況下,你都需要把整個文件再放回到歸檔中,因為對于歸檔來說,這是一個“新”文件。有一些歸檔允許用戶升級文件,但是這種機制用起來并不容易,相比之下,提取文件,做更改,再放回去則是非常簡單。在這種情況下,提取操作要獲取元數據,這使得這一步驟變得簡單。

對于所有元數據來說,發(fā)揮作用的是文件,元數據只是附加其上(我個人認為使用的是擴展文件屬性)。如果集中索引因為某些原因失效了,你要花一些時間掃描文件系統(tǒng)來“重新收集”元數據,但是你并沒有從根本上失去你的索引。

總結

人們曾經認為把元數據存儲在什么地方這個問題非常簡單,根本用不著進行長時間的討論。直到有一天人們突然發(fā)現,如今的世界已經天翻地覆,大數據呈爆炸式增長,文件數量上億,這時候考慮元數據放到哪里就變得非常重要,處理好這個問題,對于數據的實際使用有重大意義。

把所有元數據放到集中索引是不切實際的,因為這樣你就必須進行大量的數據保護,不僅要保護數據,還要保護集中索引。僅僅移動文件位置而不升級索引會對搜索帶來極大的影響。

同樣的,借助擴展文件屬性把元數據和數據放在一起也不可取,因為每次數據搜索都意味著元數據要通過樹形結構被搜集起來再搜索。雖然把元數據和數據放在一起非常自然,但是這種存儲方式往往會浪費大量的搜索時間。

我認為最好的解決方案是把這兩種方式結合在一起。把元數據放在數據中,當數據被移動到歸檔中時,你就可以把元數據提取出來,同時建立一個集中索引,用這個索引來進行數據搜索。

借助一個簡單的REST接口,就可以很輕松地升級索引。但是,如果索引丟失或崩潰了,那就需要再次掃描歸檔的樹形結構來重新收集元數據了。

我寫這篇文章的目的是能引發(fā)人們對元數據存儲在何地以及如何搜索它們這個問題的思考,肯定會有人對我的觀點提出質疑。如果有可能的話,請你們寫下自己的解決方案,一定會有很多人從你們的分享中受益匪淺的!

[責任編輯:鄭磊]
存儲在線今天就云存儲、WD各系列硬盤、SSD、軟件定義存儲等一系列熱門話題,與西部數據全球云儲存產品高級總監(jiān)Patrick Wilkison進行深入的探討。
官方微信
weixin
精彩專題更多
存儲風云榜”是由DOIT傳媒主辦的年度大型活動。回顧2014年,存儲作為IT系統(tǒng)架構中最基礎的元素,已經成為了推動信息產業(yè)發(fā)展的核心動力,存儲產業(yè)的發(fā)展邁向成熟,數據經濟的概念順勢而為的提出。
華為OceanStor V3系列存儲系統(tǒng)是面向企業(yè)級應用的新一代統(tǒng)一存儲產品。在功能、性能、效率、可靠性和易用性上都達到業(yè)界領先水平,很好的滿足了大型數據庫OLTP/OLAP、文件共享、云計算等各種應用下的數據存儲需求。
聯(lián)想攜ThinkServer+System+七大行業(yè)解決方案驚艷第十六屆高交會
 

公司簡介 | 媒體優(yōu)勢 | 廣告服務 | 客戶寄語 | DOIT歷程 | 誠聘英才 | 聯(lián)系我們 | 會員注冊 | 訂閱中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技術有限公司 版權所有.