網(wǎng)絡信息檔案的收集、保存和利用的解決方案通過多種技術手段,適應目前網(wǎng)絡上的多種類信息的采集,文字、聲音、視頻、音頻、Flash、博客、微博等等,由于是模塊式的結構,可以通過開發(fā)增加模塊適應未來互聯(lián)網(wǎng)多種信息發(fā)布形式的采集、編目以及再展現(xiàn)的形式。該解決方案通過頁面分析和地址發(fā)現(xiàn):隨著互聯(lián)網(wǎng)大量使用動態(tài)展現(xiàn)技術、Flash動畫和視音頻技術,網(wǎng)頁鏈接地址被隱藏在各種展現(xiàn)的內(nèi)容中。系統(tǒng)利用地址形成規(guī)則使用頁面內(nèi)容分析、用戶地址截取、鏈接地址推測等多種方法準確獲取各種頁面元素的網(wǎng)絡地址。
下載內(nèi)容的緩沖管理:系統(tǒng)對下載內(nèi)容進行智能緩沖,實現(xiàn)對同一內(nèi)容元素的“一寫多讀”功能,合并對同一個元素的多個下載請求,并支持邊下載邊展現(xiàn)。
元數(shù)據(jù)提取和編目:系統(tǒng)提取頁面的多種元數(shù)據(jù),生成關鍵頁面的縮略圖,使用者也可以對網(wǎng)站和頻道補充元數(shù)據(jù)(編目),用戶可以設置分類、提取關鍵詞等,形成內(nèi)容的多種檢索途徑。
存儲與歸檔管理:當頁面數(shù)據(jù)量逐漸變得龐大時,系統(tǒng)支持對頁面中的實體元素(主要是視音頻數(shù)據(jù))進行遷移式歸檔,以減少在線存儲量。當用戶需要訪問相關頁面時,系統(tǒng)支持“一攬子”回遷,把相關網(wǎng)站或頻道的實體數(shù)據(jù)一次性快速回遷完畢。
頁面組織和展現(xiàn):系統(tǒng)對頁面內(nèi)容地址進行“本地化”處理,即把原來對原始網(wǎng)站的訪問(絕對地址)全部過濾和替換成對本地系統(tǒng)的訪問(靜態(tài)和動態(tài)替換),以支持對網(wǎng)站的封閉式收藏和原始展現(xiàn)。(參考下面信息檔案收集、保存和利用解決方案的邏輯圖)
網(wǎng)絡信息檔案的收集、保存和利用的解決方案為了能夠適應互聯(lián)網(wǎng)技術的飛速發(fā)展,專門采用了模塊組合式的架構,當隨著信息網(wǎng)絡檔案工程逐步開展起來以后,需求也會有較大的發(fā)展,這個方案也會隨之大幅度的提升,而這種構架恰恰適應方案的調(diào)整,而又不會影響到之前所做的各種檔案管理工作。
總而言之,建立網(wǎng)絡信息檔案在我們國家目前還沒有真正形成檔案管理所必須采用的手段,但在現(xiàn)代城市中,如果要完整地記錄歷史,網(wǎng)絡信息檔案工作已迫在眉睫,但是的確作為檔案行業(yè)我們要做的事情還很多,也許許多事情還沒有準備好,可是我們也不能總停留在實驗和研究階段,只有真正做起來,才會逐步有我們自己的信息網(wǎng)絡檔案標準,也只有在實踐中信息網(wǎng)絡檔案工作才能得以迅速發(fā)展和不斷地完善,跟上現(xiàn)代城市發(fā)展的步伐。