數(shù)據(jù)安好,便是科研的春天
如今,我國在科學領域上的一次次令人欣喜的創(chuàng)新,其背后都會受到來一次次數(shù)據(jù)負累。例如,我國的暗物質(zhì)衛(wèi)星“悟空”、射電望遠鏡“FAST”、量子衛(wèi)星“墨子號”等大科學裝置先后投入使用,每日就可產(chǎn)生PB級科學數(shù)據(jù)。僅就數(shù)據(jù)存儲的規(guī)模而言,這已對傳統(tǒng)存儲架構(gòu)形成嚴重挑戰(zhàn),勢必推動超融合架構(gòu)、分布式存儲架構(gòu)等存儲新架構(gòu)在科研領域的快速落地。
其實,曙光基于近20年高性能領域服務的長久經(jīng)驗,已經(jīng)多次解決的了科研領域很多因數(shù)據(jù)頭疼的問題。例如,前文中提到的射電望遠鏡“FAST”,部署在貴州黔東南地區(qū),為世界最大口徑單體射電望遠鏡,每天要產(chǎn)生5TB左右的數(shù)據(jù),數(shù)據(jù)需要保留10年以上。為此,“FAST”項目采用了曙光的超算系統(tǒng),將承擔起海量天文數(shù)據(jù)整合分析、天體分析和挖掘、天文大數(shù)據(jù)的可視化等工作,推動天文科學研究和探索由假設驅(qū)動向數(shù)據(jù)驅(qū)動轉(zhuǎn)變。
此外,曙光于去年與中科院大氣物理所聯(lián)合部署的“地球數(shù)值模擬裝置”原型系統(tǒng),將為地球科學大數(shù)據(jù)充當“計算處理引擎”;今年還攜手中科星圖、中科三清等分別發(fā)展空天大數(shù)據(jù)應用和生態(tài)環(huán)境大數(shù)據(jù)應用。
科學大數(shù)據(jù)引擎出現(xiàn),誰會從此路過
不僅是傳統(tǒng)問題的解決,科學研究向大數(shù)據(jù)技術(shù)的依賴已經(jīng)變得更為現(xiàn)實。正如曙光公司高性能產(chǎn)品事業(yè)部總工程師戴榮在會上所講:“數(shù)字化的影響從互聯(lián)網(wǎng)開始影響的更多的傳統(tǒng)行業(yè) ,如服務業(yè)、工農(nóng)業(yè)以及科學研究。受多種因素影響,科學研究已開始大數(shù)據(jù)轉(zhuǎn)型。一方面,受數(shù)據(jù)大爆炸的影響,例如原有仿真手段生成的大量數(shù)據(jù),一方面,國家啟動了更多的科研大型裝置和設備,例如FAST。為此,科學大數(shù)據(jù)戰(zhàn)略已經(jīng)勢在必行?!?/p>
據(jù)戴榮介紹,在科學大數(shù)據(jù)引擎的“黑匣子”里,部署著曙光全系列數(shù)據(jù)計算技術(shù)及服務產(chǎn)品,主要由5個引擎組件構(gòu)成,分別是:針對海量非結(jié)構(gòu)化數(shù)據(jù)的曙光ParaStor并行存儲系統(tǒng)、類型豐富的曙光高性能計算平臺、最大化提升系統(tǒng)整體效能的曙光深度學習計算平臺、高效敏捷的曙光XData大數(shù)據(jù)處理平臺以及能覆蓋科學大數(shù)據(jù)中心全生命周期的曙光 EasyOP運維管理平臺。
曙光的科學大數(shù)據(jù)引擎擁有以下六個亮點特征:
1)專為科學數(shù)據(jù)處理流程進行優(yōu)化,提供“計算、存儲、分析、運維”一體化強勁性能;
2)基于曙光獨特的超融合架構(gòu),靈活支持高性能計算、大數(shù)據(jù)計算、深度學習計算等多種計算模式;
3)超強彈性設計,最高支持E級超算系統(tǒng)立體擴展;
4)針對海量數(shù)據(jù)的存儲,可構(gòu)建EB級單一存儲空間,是經(jīng)過驗證的國內(nèi)最大存儲系統(tǒng);
5)在數(shù)據(jù)分析方面,支持PB級數(shù)據(jù)處理能力,可實現(xiàn)億級數(shù)據(jù)庫毫秒級極速查詢分析;
6)可為上萬節(jié)點提供7*24小時在線、移動、實時自動監(jiān)控服務。
戴榮介紹,曙光科學大數(shù)據(jù)引擎繼用了原有技術(shù)積累,也從既有技術(shù)發(fā)展出機器學習、深度挖掘很多新興技術(shù),應用生態(tài)的搭建更多會依賴合作伙伴的支持。曙光科學大數(shù)據(jù)引擎,旨在幫助政府部門、科研院所、教育機構(gòu)、行業(yè)技術(shù)創(chuàng)新中心、大型企業(yè)研發(fā)部門等用戶向大數(shù)據(jù)研究方面轉(zhuǎn)型,促進數(shù)據(jù)密集型計算架構(gòu)在各行業(yè)領域的創(chuàng)新發(fā)展和深入應用。
從事于遙感數(shù)據(jù)研究的唐德可在會議現(xiàn)場從遙感影像解析的技術(shù)角度進一步闡明了這種需求?!按饲叭壌鎯軜?gòu)下有的傳統(tǒng)存儲介質(zhì)已經(jīng)到了退出歷史的階段,例如磁帶。基于曙光的科學大數(shù)據(jù)引擎很好地利用大數(shù)據(jù)技術(shù)跳出了傳統(tǒng)數(shù)據(jù)架構(gòu)的樊籠,通過搭建軟硬一體的存儲計算資源池,構(gòu)建起了更為先進的空天大數(shù)據(jù)處理框架,從而可以進行數(shù)據(jù)清洗、數(shù)據(jù)挖掘,以及數(shù)據(jù)可視化的智能階段。”唐德可表示。
不讓數(shù)據(jù)成為科學研究負累,任重道遠
可以相信,中科曙光發(fā)布的科學大數(shù)據(jù)引擎是中國科學研究領域的一劑強有力的催化劑,以及曙光近20年服務高性能領域的長久經(jīng)驗也是很好的信心保障。但對于將大數(shù)據(jù)技術(shù)在科學領域的真正實踐,其實我們還有很長的路要走,而這也是科學大數(shù)據(jù)引擎能否真正得到認可的關鍵。
若是以今日曙光的科學大數(shù)據(jù)引擎問世為界限,我們發(fā)現(xiàn),此前我們在科研領域的大數(shù)據(jù)應用,專注方向更多是傾向于用大數(shù)據(jù)技術(shù)來化解科研常規(guī)中遇到的數(shù)據(jù)存儲、處理等問題。而如今,除了存儲規(guī)模的爆發(fā),科學研究在向數(shù)字化、網(wǎng)絡化方向上的邁進,更需要高性能計算技術(shù)向云計算、認知計算、大數(shù)據(jù)分析計算等多種模式方向發(fā)展。
這些新的高性能計算技術(shù)發(fā)展方向,關系著科研大數(shù)據(jù)的實踐能否找到更加適合的數(shù)據(jù)應用,以及基于數(shù)據(jù)支持又會有怎樣的科研發(fā)現(xiàn),甚至加速科學大數(shù)據(jù)發(fā)現(xiàn)到產(chǎn)生商業(yè)價值的過程。這方面,國外已經(jīng)有了前沿案例,如某氣候公司基于氣象、天氣、降雨、地質(zhì)土壤調(diào)查等海量科學數(shù)據(jù),為保險企業(yè)和農(nóng)民提供信息。
不過,戴榮也表示:“目前來看,科學大數(shù)據(jù)在中國的應用發(fā)展還處于起步階段,在推動大科學研究、促進各行業(yè)領域科學發(fā)現(xiàn)和技術(shù)創(chuàng)新方面有著非常大的潛力,但同時也面臨諸多挑戰(zhàn)需要應對。比如我國的科學數(shù)據(jù)資源還相對分散,還沒有形成一批在國際上有強大影響力的科學數(shù)據(jù)中心,針對科學數(shù)據(jù)資源管理和開放共享的法律法規(guī)及相關技術(shù)標準還不夠完善,高水平的復合型數(shù)據(jù)科學家人才隊伍還存在缺失。”
所以說,科學大數(shù)據(jù)引擎的推出已經(jīng)不是曙光面對與科研領域提供的一攬子技術(shù)解決方案,其成功與否關系到之后與此聯(lián)系的整個生態(tài)的建設。為此,我們也看到,發(fā)布會上曙光呼吁更多的機構(gòu)和廠商加盟進來,共同發(fā)展適合中國的科學大數(shù)據(jù)開放社區(qū),幫助中國的科研機構(gòu)借助各領域大數(shù)據(jù)發(fā)展機遇實現(xiàn)轉(zhuǎn)型與變革,共建創(chuàng)新型國家。
可見,曙光的科學大數(shù)據(jù)引擎,高性能服務老司機有志讓全世界從此路過!