4月14日上午的健康醫(yī)療大數(shù)據(jù)應(yīng)用與創(chuàng)新論壇上,軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所研究員伯曉晨發(fā)表了名為《精準(zhǔn)醫(yī)療大數(shù)據(jù)中心的建設(shè)及其應(yīng)用》的主題演講。伯曉晨介紹了為啟動2016年精準(zhǔn)醫(yī)學(xué)專項而專門搭建的精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)管理和共享技術(shù)平臺的建設(shè),并結(jié)合國內(nèi)生物醫(yī)學(xué)大數(shù)據(jù)中心現(xiàn)狀展望了該平臺的未來應(yīng)用。
據(jù)伯曉晨稱,這個未上線的平臺在一個現(xiàn)有的基礎(chǔ)平臺之上搭建了兩個數(shù)據(jù)庫,一個是疾病的數(shù)據(jù)庫群,一個是基礎(chǔ)組學(xué)的數(shù)據(jù)庫群。然后需要對后臺開發(fā)提交的系統(tǒng),所謂數(shù)據(jù)匯交系統(tǒng),對于前臺要支持大家的檢索、展示、挖掘等等功能,屬于一個門戶。疾病數(shù)據(jù)庫群主要提供6個以上的疾病數(shù)據(jù)庫匯交管理系統(tǒng),架構(gòu)主要涉及到數(shù)據(jù)整合、關(guān)聯(lián)、查詢、數(shù)據(jù)庫建設(shè)方面。在基礎(chǔ)組學(xué)數(shù)據(jù)庫,支撐數(shù)據(jù)庫方面要建立20個以上的跟醫(yī)學(xué)研究相關(guān)的標(biāo)準(zhǔn)組學(xué)數(shù)據(jù)庫的鏡像,總量要達(dá)到PB級。
以下為伯曉晨的演講實錄:
大家早上好,我報告的是我們?nèi)ツ昴甑讍拥囊粋€國家精準(zhǔn)醫(yī)學(xué)研究重點研發(fā)專項的一個非?;A(chǔ)性的重要的平臺項目,叫精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)管理和共享技術(shù)平臺,這個平臺怎么建?國家對它的期望怎么樣,設(shè)想怎么樣?我們后來在展望它將來的應(yīng)用怎么樣,我希望今天花一點時間跟大家分享一下。
昨天大家討論的比較多,說咱們生命科學(xué)邁入大數(shù)據(jù)的時代,到底這個數(shù)據(jù)有多大?我們從科研的角度來說更關(guān)注質(zhì)量比較高的,標(biāo)準(zhǔn)化的數(shù)據(jù),這個數(shù)據(jù)有多大?可以以歐洲生物信息研究所為例,他現(xiàn)在參考的數(shù)據(jù)是20PB,更可怕的是它的增長,從2008年之后這個數(shù)據(jù)每年翻一番,未來今天你覺得他是20PB,明天就是40PB的量,增長速度不得了。
之所以產(chǎn)生這么多的數(shù)據(jù),是因為儀器設(shè)備近兩年的發(fā)展。拿儀器來說從小規(guī)模的1G的到最新的低成本的一次產(chǎn)生167個G的,到中型的可以產(chǎn)生600G的一直到可以產(chǎn)生18T,這個數(shù)據(jù)量傳統(tǒng)的實驗室做不了。這也是為什么有一些生物云計算的一些支持,主要是醫(yī)院和實驗室都對付不了這么大的數(shù)據(jù)。
可以看數(shù)據(jù)本身的質(zhì)量,以人類基因組為例,從人類基因組計劃,相當(dāng)于5個人的樣品混在一起,這代表了咱們地球上60億人,這個族譜不具有醫(yī)學(xué)上的價值!因為5個人代表地球上這么多人,基本上這5個人還都是健康的。后來千人基因組計劃就跟后來有關(guān)系了,可以體現(xiàn)出種族、年齡、不同的差異,到萬人基因組3年就做完了,這樣1萬個人的比較很快就發(fā)現(xiàn)一些比如說像發(fā)現(xiàn)了骨質(zhì)疏松相關(guān)的基因。
這是從內(nèi)涵角度,從維度角度來說生物醫(yī)學(xué)大數(shù)據(jù)絕不僅僅是基因組測序的問題,既是基因組這一個層面,蛋白質(zhì)組、代謝組多種角度起來了,可以看到多種建模的問題??吹匠嘶蚪M以外引起關(guān)注的叫表觀組,揭示了DNA之外的跟醫(yī)學(xué)方面的重要的聯(lián)系。
在這樣的情況下生物醫(yī)學(xué)大數(shù)據(jù)它的內(nèi)涵,它的維度來說越來越支撐現(xiàn)代醫(yī)學(xué)向這方面的應(yīng)用,當(dāng)時發(fā)了一篇文章就是講它的歷程,生物大數(shù)據(jù)對醫(yī)學(xué)推動的歷程,就是剛開始從認(rèn)識基因組到了解基因組的生物學(xué),到了解基因組跟DNA之間的關(guān)系,到未來健康促進(jìn),可以走這樣一條路,這個熱點會不斷地往健康促進(jìn)這方面頻推。
在這樣的情況下還有一些生物醫(yī)學(xué)大數(shù)據(jù)的項目,本身就是針對某種特種疾病,或者直接針對轉(zhuǎn)化醫(yī)學(xué),比如癌癥基因組圖譜,大家比較熟悉,就是測2000多個腫瘤病人完整的臨床資料,有各種組學(xué)的,有基因組、表觀組、轉(zhuǎn)錄組、蛋白組。
另外現(xiàn)在不知道大家關(guān)注沒有,2010年啟動以后2011年發(fā)表第一版本的基因表達(dá)譜大數(shù)據(jù)計劃,這個直接針對各種小分子藥物,和各種對大家健康有危害的毒物,附著在不同的所有細(xì)胞系當(dāng)中,不同濃度下它的反應(yīng),這就直接指向藥物開發(fā)。
在這樣的情況下咱們海量數(shù)據(jù)不斷增長,臨床數(shù)據(jù)也在不斷增長,一個精準(zhǔn)醫(yī)學(xué)數(shù)據(jù)中心的建設(shè)就成為了將來應(yīng)用當(dāng)中的一個必須的平臺。我們可以看到最近幾年生物醫(yī)學(xué)數(shù)據(jù)從GB到EB跨了幾個量,很快就增長到EB這個量級。
咱們看看國內(nèi)外對平臺建設(shè)的情況,在臨床大數(shù)據(jù)方面其實美國很早就開始在做,像他現(xiàn)在比較有代表性的ClinicalTrials這種臨床醫(yī)學(xué)的平臺。在生物學(xué)、組學(xué)的數(shù)據(jù)平臺上,以前國家一直缺失,大家都很熟悉,美國、歐洲和日本三個數(shù)據(jù)是權(quán)威,他們互相之間交流,中國一直是依賴三方的,這里面依賴的時候,有的時候不完全能夠一直是免費的,比如說2007年的時候產(chǎn)生的地震,將近一個月的時候中國訪問不了這三個數(shù)據(jù)庫,這三個月對個醫(yī)藥界的相關(guān)的工作都受到很大影響。國內(nèi)一直呼吁建立生物組學(xué)大數(shù)據(jù)中心,直到去年推了一個平臺,叫BIG這個平臺,可以說在世界組學(xué)范圍內(nèi)有了中國這么一級。我們有這樣一個聯(lián)合平臺,這個平臺在國外已經(jīng)看到雛形了,比如i2b2,咱們國家還是空白的,相對來講可能作為類似的是咱們國家在兒科領(lǐng)域一些小的平臺,總的來說還是一個空白。
所以在精準(zhǔn)醫(yī)學(xué)專項2016年啟動的時候?qū)iT設(shè)置了精準(zhǔn)醫(yī)學(xué)大數(shù)據(jù)管理共享技術(shù)平臺,要建立這樣一個平臺,這個平臺實際上還不是一個面向?qū)淼目茖W(xué)醫(yī)學(xué)應(yīng)用的平臺,只是說把精準(zhǔn)醫(yī)學(xué)專項設(shè)計好,做90多個病種相關(guān)的組學(xué)數(shù)據(jù)匯聚到這個平臺上來,我們看到的是將來面向社會的一個大平臺的縮影。
我們這個平臺大概是什么模樣?雖然還沒有上線,但是可以大概描述一下。它是在一個現(xiàn)有的基礎(chǔ)平臺之上有兩個數(shù)據(jù)庫去,一個是疾病的數(shù)據(jù)庫群,一個是基礎(chǔ)組學(xué)的數(shù)據(jù)庫群。然后需要對后臺開發(fā)提交的系統(tǒng),所謂數(shù)據(jù)匯交系統(tǒng),對于前臺要支持大家的檢索、展示、挖掘等等,屬于一個門戶。
我們這個項目設(shè)計的技術(shù)指標(biāo)未來在2019年或者2020年最終要達(dá)到的技術(shù)指標(biāo),從基礎(chǔ)平臺存儲來說達(dá)到PB級的分布式存儲,一次查詢時間要小于0.5秒,滿足1萬人次以上的并發(fā)檢索。在疾病數(shù)據(jù)庫群這方面要建匯交系統(tǒng)、管理平臺、協(xié)作平臺,這里要把精準(zhǔn)醫(yī)學(xué)支持的將近90多個群打包成6個以上的群。
在基礎(chǔ)組學(xué)數(shù)據(jù)庫,支撐數(shù)據(jù)庫方面要建立20個以上的跟醫(yī)學(xué)研究相關(guān)的標(biāo)準(zhǔn)組學(xué)數(shù)據(jù)庫的鏡像,總量要達(dá)到PB級。而且我們在這里有一個設(shè)計,基因組學(xué)也好針對不同的人種是混在一起的,所以我們還要把二次的抽體,涉及到一些明確標(biāo)簽,標(biāo)中中國人形成中國標(biāo)準(zhǔn)組學(xué)的參考記錄。在整合與注釋上面要有10個以上的標(biāo)準(zhǔn)工作流。最后一個是門戶。
項目分解就分成5大塊,最基礎(chǔ)的是基礎(chǔ)平臺,依托國內(nèi)幾乎生物醫(yī)學(xué)界的比較華麗的平臺都貢獻(xiàn)給大家去做這樣一個平臺。疾病數(shù)據(jù)庫群是對接整個醫(yī)學(xué)專項的,基礎(chǔ)支撐的數(shù)據(jù)庫群是咱們正在建立國家生物大數(shù)據(jù)中心,這個也快上線跟大家見面了。中間是一個醫(yī)學(xué)的整合和注釋的平臺,最終是面向大家提供一個醫(yī)學(xué)的黏度。為什么要提供注釋?就是臨床整合的數(shù)據(jù)是沒有參考的,比如說一個突變,是稀有的突變還是很普通的突變?這里面要參考來說,是針對于最早的5個基因組來說的,還是針對千人基因組來說還是萬人基因組來說,如果針對5個人來說好像它很稀有,但是如果千人來說可能發(fā)現(xiàn)200人跟他一樣,所以這里面一定要有參比的數(shù)據(jù),你用什么數(shù)據(jù)就決定了整合和注釋這方面的工作量多大。比如說要用10萬人的數(shù)據(jù)級,全球現(xiàn)在人的情況,但是你相對起來用一個病例就要跟10萬人進(jìn)行比較?;A(chǔ)平臺主要是提供安全可靠高效的PB級的大數(shù)據(jù)存儲計算的平臺。
這是它的基礎(chǔ)架構(gòu),我們這個平臺基本上是集IT界的這些時髦詞語為大成,涉及到基礎(chǔ)設(shè)施建設(shè)、產(chǎn)業(yè)系統(tǒng)、存儲系統(tǒng)、數(shù)據(jù)服務(wù),支撐各種應(yīng)用,這里大家可以看到很多新的技術(shù)都要用起來。
這里面解決重大問題就是超大數(shù)據(jù)處理及服務(wù)能力的基礎(chǔ)平臺架構(gòu)及技術(shù),這個肯定是多家放在一起分布式,但是要讓后面應(yīng)用的、開發(fā)的感覺到這實際上對他來說是一個結(jié)構(gòu),一個平臺。
疾病這個數(shù)據(jù)庫群主要是提供6個以上的疾病數(shù)據(jù)庫匯交管理系統(tǒng),這是它的統(tǒng)一架構(gòu),主要是涉及到數(shù)據(jù)整合、關(guān)聯(lián)、查詢、數(shù)據(jù)庫建設(shè)方面。
這里它的困難點大家可以想像得到,就是怎么樣統(tǒng)一模型的問題,這么多數(shù)據(jù),這么多病種,每個病種需要關(guān)注的問題都不一樣,怎么建設(shè)模型讓大家能夠知道,如果匯交系統(tǒng)定的太狹窄就不能達(dá)到目的。所以這里面怎么來劃分疾病數(shù)據(jù)庫群,怎么來制定相應(yīng)的規(guī)范這是一個要面對的困難。
基礎(chǔ)支撐數(shù)據(jù)庫群這方面咱們有比較好的技術(shù),基因組所、北京大學(xué)他們有很好的基礎(chǔ),這方面應(yīng)該來說瓶頸主要在后面這一步,就是怎么來把中國人群相關(guān)的參考數(shù)據(jù)級專門抽出來,因為現(xiàn)在有千人基因組、萬人基因組,這里面就可以形成相當(dāng)規(guī)模的中國人組學(xué)數(shù)據(jù),但是現(xiàn)在沒有看到美國的奧巴馬有百萬人基因組的計劃,到底這個樣品采集的方案,但是預(yù)期這里面華人是占到了1/5以上。這是我們要鏡像的數(shù)據(jù)組。
難點就是剛剛說的要把中國人抽出來。任務(wù)量最大的是中間這一步,就是怎么來把90個病種提交數(shù)據(jù),通過其他的基因組來注釋出來,因為提交上來的肯定都是直接測完的結(jié)果,并沒有標(biāo)注哪個地方是基因上的異常,這個完全靠你這個注釋平臺注釋,說白了要做大規(guī)模的運算。
這是整個的我們設(shè)計的一個架構(gòu),它涉及到從基因組到轉(zhuǎn)錄組、蛋白組一系列的互相注釋,整個的運算數(shù)據(jù)也達(dá)到了PB級的運算,而且現(xiàn)在沒有任何一個計算機(jī)能解決這個問題,肯定要分布式計算。
最后是面向公眾、面向科學(xué)家,面向醫(yī)生的門戶,搜索可視化的一個系統(tǒng),這個系統(tǒng)最主要的困難就是讓用戶體驗比較好,讓用戶比較直觀,能夠看到數(shù)據(jù),未來挖掘深度學(xué)習(xí)能力做一個接口。這里面其實也很有挑戰(zhàn),想要做到PB級的或者萬人同時在線的搜索是相當(dāng)有挑戰(zhàn)的。
我們這個硬件平臺資源基本上調(diào)動了國家生物醫(yī)學(xué)界的資源都在里面,最后總共會聚了70個PB的資源,超過500TFLOPS的計算資源,通過中科院網(wǎng)絡(luò)信息中心可聚合40PFLOPS超算資源,擁有國家骨干網(wǎng)和教育科研網(wǎng)接入能力,依托國家網(wǎng)格實現(xiàn)高性能計算專網(wǎng)互聯(lián)。將來大家的精準(zhǔn)醫(yī)學(xué)整個專項課題如果靠近這兩個網(wǎng)絡(luò)主接點的話,可以通過這兩個網(wǎng)絡(luò)往北京來匯交。這是靠國家網(wǎng)格的能力,能夠存儲50個P的作為一個臨時存儲。
計算方面主要依托兩個,一個是北京蛋白質(zhì)中心的200萬的高性能計算機(jī),還有中山大學(xué)的天河二號有相當(dāng)大的資源,它現(xiàn)在不是最快的,應(yīng)該是全球第二的。北京大學(xué)還有中國醫(yī)學(xué)科學(xué)院生物技術(shù)研究中心都有一些高性能計算平臺。
因為咱們參加很多專項任務(wù)的都是高校的團(tuán)隊,所以他們通過教育科研網(wǎng)通過這種可以把數(shù)據(jù)匯交到北京來。
現(xiàn)在我們的建設(shè)進(jìn)度因為啟動還不到半年,從去年12月啟動到現(xiàn)在,我們先搭一個實驗床,做一個小的實驗平臺,搭建72個存儲節(jié)點,每個節(jié)點36個T存儲平臺,我們在中科院網(wǎng)絡(luò)中心搭建平臺,通過這個平臺把上面的關(guān)鍵技術(shù)滾出來。
更重要的是大家可能會想到說現(xiàn)在沒有數(shù)據(jù),精準(zhǔn)醫(yī)學(xué)專項剛剛開始,各個課題剛啟動沒有數(shù)據(jù),怎么來說你的平臺將來能夠負(fù)載TB級的數(shù)據(jù)?這是有這個問題,所以我們現(xiàn)在正在做的一個很重要的事情就是建虛擬數(shù)據(jù)級,不能等到大家把數(shù)據(jù)匯交過來再做數(shù)據(jù),那是來不及,所以我們現(xiàn)在是想把能夠代表這兩個一個是TCG兩千多個腫瘤病人的臨床信息,還有ICGC一千多個腫瘤的臨床數(shù)學(xué),我們把這兩個數(shù)據(jù)集合在一起虛擬處10萬人、20萬人、40萬人達(dá)到PB級,然后測試整個平臺的能力,而且這個話題通過檢索我們發(fā)現(xiàn)通過已有的基因組按照一定的遺傳學(xué)規(guī)律給他人工造出多少萬人,很少有人去做這個事,所以我們把這一招運用到平臺建設(shè)上面。
最后暢想一下就是有了這個數(shù)據(jù)中心將來對醫(yī)療有什么用途,有什么支撐作用。我們這里也做了一個展望,這是我們自己做了一篇文章。就是將來可能我們暢想一下將來可能一個醫(yī)療模式可能是一種基于案例推理,現(xiàn)在大家都談人工智能或什么組學(xué)大數(shù)據(jù)的挖掘分析,實際上這個想法是一個比較理想化的,就是你希望通過組學(xué)智能分析最后給出一個規(guī)律來,但是現(xiàn)在這個抽樣就算你是弄一千人、兩千人的很不得了,但是相對地球60億人,相對病種的人是小抽樣,能不能得到規(guī)律是打問號的。而且醫(yī)生很多推理實際上不一定按照診斷的標(biāo)準(zhǔn)來,也可能按照跟自己既往看的病人回顧,很向往幾年前的病人,實際上在精準(zhǔn)醫(yī)學(xué)可以走這樣一條路,我們這個數(shù)據(jù)中心建起來之后直接可以做案例推理這個事。這是多組學(xué)的整個基因組對基因組,轉(zhuǎn)錄組對轉(zhuǎn)錄組整個基因組學(xué)整體的,然后劃分來分類。
而且如果你維持這樣一個關(guān)系的話,醫(yī)生和醫(yī)生之間可以交流自己的新數(shù)據(jù),比如我增加一個病人進(jìn)來然后傳另外一個ID給另外一個醫(yī)生,另外一個醫(yī)生同樣檢測這個數(shù)據(jù)庫,大家討論這個病人出在這個病例當(dāng)中處在什么位置,但是這是我們想的簡單的應(yīng)用。
通過我們自己也做了小的算例,最后發(fā)現(xiàn)計算量很大,多組學(xué)在一起哪怕幾十個病例一起做聚類,這個計算量都不是咱們想象的一下能出來,所以未來如果是真的我們做10萬人的參考來做案例推理,來做制定的話,對計算是一個很大的挑戰(zhàn)。
最后是一個關(guān)于運營的設(shè)想,國家投這個錢投這個平臺,但是有一個疑問,說將來課題結(jié)題了,國家資助斷了以后國家熱點就轉(zhuǎn)到其他熱點上,誰來用這個平臺?我們也想象一下,就是將來其實可以做一個國家跟企業(yè)共同運營的模式。比如說這個平臺硬件也好,軟件也好還是相當(dāng)?shù)暮馁M金錢的,尤其相關(guān)的企業(yè)進(jìn)來可以維護(hù)這個平臺。然后對于科研人員來說,對于國家指定的一些機(jī)構(gòu)永遠(yuǎn)可以是免費的,因為這是國家納稅人的錢做出來的數(shù)據(jù),但是可以開放一些專業(yè)服務(wù),比如病例的匹配、檢索、病例的比對這樣的服務(wù),這樣的服務(wù)可以來支撐產(chǎn)業(yè)方面的運營,然后他們的盈利再回歸到這個平臺上,讓這個平臺上精準(zhǔn)醫(yī)學(xué)專項收集的這些數(shù)據(jù)能夠一直為咱們的科研醫(yī)療服務(wù),這是我們的一個設(shè)想,但是因為現(xiàn)在首當(dāng)其沖的是先把平臺做好。
我大概就講這么多,最后這是我們整個團(tuán)隊的一個心愿,就是希望通過先進(jìn)的、安全的大數(shù)據(jù)平臺,支撐咱們國家的精準(zhǔn)醫(yī)學(xué)計劃,再次感謝大會的邀請,謝謝大家!