4月14日上午的健康醫(yī)療大數(shù)據(jù)應用與創(chuàng)新論壇上,軍事醫(yī)學科學院放射與輻射醫(yī)學研究所研究員伯曉晨發(fā)表了名為《精準醫(yī)療大數(shù)據(jù)中心的建設及其應用》的主題演講。伯曉晨介紹了為啟動2016年精準醫(yī)學專項而專門搭建的精準醫(yī)學大數(shù)據(jù)管理和共享技術(shù)平臺的建設,并結(jié)合國內(nèi)生物醫(yī)學大數(shù)據(jù)中心現(xiàn)狀展望了該平臺的未來應用。
據(jù)伯曉晨稱,這個未上線的平臺在一個現(xiàn)有的基礎平臺之上搭建了兩個數(shù)據(jù)庫,一個是疾病的數(shù)據(jù)庫群,一個是基礎組學的數(shù)據(jù)庫群。然后需要對后臺開發(fā)提交的系統(tǒng),所謂數(shù)據(jù)匯交系統(tǒng),對于前臺要支持大家的檢索、展示、挖掘等等功能,屬于一個門戶。疾病數(shù)據(jù)庫群主要提供6個以上的疾病數(shù)據(jù)庫匯交管理系統(tǒng),架構(gòu)主要涉及到數(shù)據(jù)整合、關聯(lián)、查詢、數(shù)據(jù)庫建設方面。在基礎組學數(shù)據(jù)庫,支撐數(shù)據(jù)庫方面要建立20個以上的跟醫(yī)學研究相關的標準組學數(shù)據(jù)庫的鏡像,總量要達到PB級。
以下為伯曉晨的演講實錄:
大家早上好,我報告的是我們?nèi)ツ昴甑讍拥囊粋€國家精準醫(yī)學研究重點研發(fā)專項的一個非?;A性的重要的平臺項目,叫精準醫(yī)學大數(shù)據(jù)管理和共享技術(shù)平臺,這個平臺怎么建?國家對它的期望怎么樣,設想怎么樣?我們后來在展望它將來的應用怎么樣,我希望今天花一點時間跟大家分享一下。
昨天大家討論的比較多,說咱們生命科學邁入大數(shù)據(jù)的時代,到底這個數(shù)據(jù)有多大?我們從科研的角度來說更關注質(zhì)量比較高的,標準化的數(shù)據(jù),這個數(shù)據(jù)有多大?可以以歐洲生物信息研究所為例,他現(xiàn)在參考的數(shù)據(jù)是20PB,更可怕的是它的增長,從2008年之后這個數(shù)據(jù)每年翻一番,未來今天你覺得他是20PB,明天就是40PB的量,增長速度不得了。
之所以產(chǎn)生這么多的數(shù)據(jù),是因為儀器設備近兩年的發(fā)展。拿儀器來說從小規(guī)模的1G的到最新的低成本的一次產(chǎn)生167個G的,到中型的可以產(chǎn)生600G的一直到可以產(chǎn)生18T,這個數(shù)據(jù)量傳統(tǒng)的實驗室做不了。這也是為什么有一些生物云計算的一些支持,主要是醫(yī)院和實驗室都對付不了這么大的數(shù)據(jù)。
可以看數(shù)據(jù)本身的質(zhì)量,以人類基因組為例,從人類基因組計劃,相當于5個人的樣品混在一起,這代表了咱們地球上60億人,這個族譜不具有醫(yī)學上的價值!因為5個人代表地球上這么多人,基本上這5個人還都是健康的。后來千人基因組計劃就跟后來有關系了,可以體現(xiàn)出種族、年齡、不同的差異,到萬人基因組3年就做完了,這樣1萬個人的比較很快就發(fā)現(xiàn)一些比如說像發(fā)現(xiàn)了骨質(zhì)疏松相關的基因。
這是從內(nèi)涵角度,從維度角度來說生物醫(yī)學大數(shù)據(jù)絕不僅僅是基因組測序的問題,既是基因組這一個層面,蛋白質(zhì)組、代謝組多種角度起來了,可以看到多種建模的問題。看到除了基因組以外引起關注的叫表觀組,揭示了DNA之外的跟醫(yī)學方面的重要的聯(lián)系。
在這樣的情況下生物醫(yī)學大數(shù)據(jù)它的內(nèi)涵,它的維度來說越來越支撐現(xiàn)代醫(yī)學向這方面的應用,當時發(fā)了一篇文章就是講它的歷程,生物大數(shù)據(jù)對醫(yī)學推動的歷程,就是剛開始從認識基因組到了解基因組的生物學,到了解基因組跟DNA之間的關系,到未來健康促進,可以走這樣一條路,這個熱點會不斷地往健康促進這方面頻推。
在這樣的情況下還有一些生物醫(yī)學大數(shù)據(jù)的項目,本身就是針對某種特種疾病,或者直接針對轉(zhuǎn)化醫(yī)學,比如癌癥基因組圖譜,大家比較熟悉,就是測2000多個腫瘤病人完整的臨床資料,有各種組學的,有基因組、表觀組、轉(zhuǎn)錄組、蛋白組。
另外現(xiàn)在不知道大家關注沒有,2010年啟動以后2011年發(fā)表第一版本的基因表達譜大數(shù)據(jù)計劃,這個直接針對各種小分子藥物,和各種對大家健康有危害的毒物,附著在不同的所有細胞系當中,不同濃度下它的反應,這就直接指向藥物開發(fā)。
在這樣的情況下咱們海量數(shù)據(jù)不斷增長,臨床數(shù)據(jù)也在不斷增長,一個精準醫(yī)學數(shù)據(jù)中心的建設就成為了將來應用當中的一個必須的平臺。我們可以看到最近幾年生物醫(yī)學數(shù)據(jù)從GB到EB跨了幾個量,很快就增長到EB這個量級。
咱們看看國內(nèi)外對平臺建設的情況,在臨床大數(shù)據(jù)方面其實美國很早就開始在做,像他現(xiàn)在比較有代表性的ClinicalTrials這種臨床醫(yī)學的平臺。在生物學、組學的數(shù)據(jù)平臺上,以前國家一直缺失,大家都很熟悉,美國、歐洲和日本三個數(shù)據(jù)是權(quán)威,他們互相之間交流,中國一直是依賴三方的,這里面依賴的時候,有的時候不完全能夠一直是免費的,比如說2007年的時候產(chǎn)生的地震,將近一個月的時候中國訪問不了這三個數(shù)據(jù)庫,這三個月對個醫(yī)藥界的相關的工作都受到很大影響。國內(nèi)一直呼吁建立生物組學大數(shù)據(jù)中心,直到去年推了一個平臺,叫BIG這個平臺,可以說在世界組學范圍內(nèi)有了中國這么一級。我們有這樣一個聯(lián)合平臺,這個平臺在國外已經(jīng)看到雛形了,比如i2b2,咱們國家還是空白的,相對來講可能作為類似的是咱們國家在兒科領域一些小的平臺,總的來說還是一個空白。
所以在精準醫(yī)學專項2016年啟動的時候?qū)iT設置了精準醫(yī)學大數(shù)據(jù)管理共享技術(shù)平臺,要建立這樣一個平臺,這個平臺實際上還不是一個面向?qū)淼目茖W醫(yī)學應用的平臺,只是說把精準醫(yī)學專項設計好,做90多個病種相關的組學數(shù)據(jù)匯聚到這個平臺上來,我們看到的是將來面向社會的一個大平臺的縮影。
我們這個平臺大概是什么模樣?雖然還沒有上線,但是可以大概描述一下。它是在一個現(xiàn)有的基礎平臺之上有兩個數(shù)據(jù)庫去,一個是疾病的數(shù)據(jù)庫群,一個是基礎組學的數(shù)據(jù)庫群。然后需要對后臺開發(fā)提交的系統(tǒng),所謂數(shù)據(jù)匯交系統(tǒng),對于前臺要支持大家的檢索、展示、挖掘等等,屬于一個門戶。
我們這個項目設計的技術(shù)指標未來在2019年或者2020年最終要達到的技術(shù)指標,從基礎平臺存儲來說達到PB級的分布式存儲,一次查詢時間要小于0.5秒,滿足1萬人次以上的并發(fā)檢索。在疾病數(shù)據(jù)庫群這方面要建匯交系統(tǒng)、管理平臺、協(xié)作平臺,這里要把精準醫(yī)學支持的將近90多個群打包成6個以上的群。
在基礎組學數(shù)據(jù)庫,支撐數(shù)據(jù)庫方面要建立20個以上的跟醫(yī)學研究相關的標準組學數(shù)據(jù)庫的鏡像,總量要達到PB級。而且我們在這里有一個設計,基因組學也好針對不同的人種是混在一起的,所以我們還要把二次的抽體,涉及到一些明確標簽,標中中國人形成中國標準組學的參考記錄。在整合與注釋上面要有10個以上的標準工作流。最后一個是門戶。
項目分解就分成5大塊,最基礎的是基礎平臺,依托國內(nèi)幾乎生物醫(yī)學界的比較華麗的平臺都貢獻給大家去做這樣一個平臺。疾病數(shù)據(jù)庫群是對接整個醫(yī)學專項的,基礎支撐的數(shù)據(jù)庫群是咱們正在建立國家生物大數(shù)據(jù)中心,這個也快上線跟大家見面了。中間是一個醫(yī)學的整合和注釋的平臺,最終是面向大家提供一個醫(yī)學的黏度。為什么要提供注釋?就是臨床整合的數(shù)據(jù)是沒有參考的,比如說一個突變,是稀有的突變還是很普通的突變?這里面要參考來說,是針對于最早的5個基因組來說的,還是針對千人基因組來說還是萬人基因組來說,如果針對5個人來說好像它很稀有,但是如果千人來說可能發(fā)現(xiàn)200人跟他一樣,所以這里面一定要有參比的數(shù)據(jù),你用什么數(shù)據(jù)就決定了整合和注釋這方面的工作量多大。比如說要用10萬人的數(shù)據(jù)級,全球現(xiàn)在人的情況,但是你相對起來用一個病例就要跟10萬人進行比較?;A平臺主要是提供安全可靠高效的PB級的大數(shù)據(jù)存儲計算的平臺。
這是它的基礎架構(gòu),我們這個平臺基本上是集IT界的這些時髦詞語為大成,涉及到基礎設施建設、產(chǎn)業(yè)系統(tǒng)、存儲系統(tǒng)、數(shù)據(jù)服務,支撐各種應用,這里大家可以看到很多新的技術(shù)都要用起來。
這里面解決重大問題就是超大數(shù)據(jù)處理及服務能力的基礎平臺架構(gòu)及技術(shù),這個肯定是多家放在一起分布式,但是要讓后面應用的、開發(fā)的感覺到這實際上對他來說是一個結(jié)構(gòu),一個平臺。
疾病這個數(shù)據(jù)庫群主要是提供6個以上的疾病數(shù)據(jù)庫匯交管理系統(tǒng),這是它的統(tǒng)一架構(gòu),主要是涉及到數(shù)據(jù)整合、關聯(lián)、查詢、數(shù)據(jù)庫建設方面。
這里它的困難點大家可以想像得到,就是怎么樣統(tǒng)一模型的問題,這么多數(shù)據(jù),這么多病種,每個病種需要關注的問題都不一樣,怎么建設模型讓大家能夠知道,如果匯交系統(tǒng)定的太狹窄就不能達到目的。所以這里面怎么來劃分疾病數(shù)據(jù)庫群,怎么來制定相應的規(guī)范這是一個要面對的困難。
基礎支撐數(shù)據(jù)庫群這方面咱們有比較好的技術(shù),基因組所、北京大學他們有很好的基礎,這方面應該來說瓶頸主要在后面這一步,就是怎么來把中國人群相關的參考數(shù)據(jù)級專門抽出來,因為現(xiàn)在有千人基因組、萬人基因組,這里面就可以形成相當規(guī)模的中國人組學數(shù)據(jù),但是現(xiàn)在沒有看到美國的奧巴馬有百萬人基因組的計劃,到底這個樣品采集的方案,但是預期這里面華人是占到了1/5以上。這是我們要鏡像的數(shù)據(jù)組。
難點就是剛剛說的要把中國人抽出來。任務量最大的是中間這一步,就是怎么來把90個病種提交數(shù)據(jù),通過其他的基因組來注釋出來,因為提交上來的肯定都是直接測完的結(jié)果,并沒有標注哪個地方是基因上的異常,這個完全靠你這個注釋平臺注釋,說白了要做大規(guī)模的運算。
這是整個的我們設計的一個架構(gòu),它涉及到從基因組到轉(zhuǎn)錄組、蛋白組一系列的互相注釋,整個的運算數(shù)據(jù)也達到了PB級的運算,而且現(xiàn)在沒有任何一個計算機能解決這個問題,肯定要分布式計算。
最后是面向公眾、面向科學家,面向醫(yī)生的門戶,搜索可視化的一個系統(tǒng),這個系統(tǒng)最主要的困難就是讓用戶體驗比較好,讓用戶比較直觀,能夠看到數(shù)據(jù),未來挖掘深度學習能力做一個接口。這里面其實也很有挑戰(zhàn),想要做到PB級的或者萬人同時在線的搜索是相當有挑戰(zhàn)的。
我們這個硬件平臺資源基本上調(diào)動了國家生物醫(yī)學界的資源都在里面,最后總共會聚了70個PB的資源,超過500TFLOPS的計算資源,通過中科院網(wǎng)絡信息中心可聚合40PFLOPS超算資源,擁有國家骨干網(wǎng)和教育科研網(wǎng)接入能力,依托國家網(wǎng)格實現(xiàn)高性能計算專網(wǎng)互聯(lián)。將來大家的精準醫(yī)學整個專項課題如果靠近這兩個網(wǎng)絡主接點的話,可以通過這兩個網(wǎng)絡往北京來匯交。這是靠國家網(wǎng)格的能力,能夠存儲50個P的作為一個臨時存儲。
計算方面主要依托兩個,一個是北京蛋白質(zhì)中心的200萬的高性能計算機,還有中山大學的天河二號有相當大的資源,它現(xiàn)在不是最快的,應該是全球第二的。北京大學還有中國醫(yī)學科學院生物技術(shù)研究中心都有一些高性能計算平臺。
因為咱們參加很多專項任務的都是高校的團隊,所以他們通過教育科研網(wǎng)通過這種可以把數(shù)據(jù)匯交到北京來。
現(xiàn)在我們的建設進度因為啟動還不到半年,從去年12月啟動到現(xiàn)在,我們先搭一個實驗床,做一個小的實驗平臺,搭建72個存儲節(jié)點,每個節(jié)點36個T存儲平臺,我們在中科院網(wǎng)絡中心搭建平臺,通過這個平臺把上面的關鍵技術(shù)滾出來。
更重要的是大家可能會想到說現(xiàn)在沒有數(shù)據(jù),精準醫(yī)學專項剛剛開始,各個課題剛啟動沒有數(shù)據(jù),怎么來說你的平臺將來能夠負載TB級的數(shù)據(jù)?這是有這個問題,所以我們現(xiàn)在正在做的一個很重要的事情就是建虛擬數(shù)據(jù)級,不能等到大家把數(shù)據(jù)匯交過來再做數(shù)據(jù),那是來不及,所以我們現(xiàn)在是想把能夠代表這兩個一個是TCG兩千多個腫瘤病人的臨床信息,還有ICGC一千多個腫瘤的臨床數(shù)學,我們把這兩個數(shù)據(jù)集合在一起虛擬處10萬人、20萬人、40萬人達到PB級,然后測試整個平臺的能力,而且這個話題通過檢索我們發(fā)現(xiàn)通過已有的基因組按照一定的遺傳學規(guī)律給他人工造出多少萬人,很少有人去做這個事,所以我們把這一招運用到平臺建設上面。
最后暢想一下就是有了這個數(shù)據(jù)中心將來對醫(yī)療有什么用途,有什么支撐作用。我們這里也做了一個展望,這是我們自己做了一篇文章。就是將來可能我們暢想一下將來可能一個醫(yī)療模式可能是一種基于案例推理,現(xiàn)在大家都談人工智能或什么組學大數(shù)據(jù)的挖掘分析,實際上這個想法是一個比較理想化的,就是你希望通過組學智能分析最后給出一個規(guī)律來,但是現(xiàn)在這個抽樣就算你是弄一千人、兩千人的很不得了,但是相對地球60億人,相對病種的人是小抽樣,能不能得到規(guī)律是打問號的。而且醫(yī)生很多推理實際上不一定按照診斷的標準來,也可能按照跟自己既往看的病人回顧,很向往幾年前的病人,實際上在精準醫(yī)學可以走這樣一條路,我們這個數(shù)據(jù)中心建起來之后直接可以做案例推理這個事。這是多組學的整個基因組對基因組,轉(zhuǎn)錄組對轉(zhuǎn)錄組整個基因組學整體的,然后劃分來分類。
而且如果你維持這樣一個關系的話,醫(yī)生和醫(yī)生之間可以交流自己的新數(shù)據(jù),比如我增加一個病人進來然后傳另外一個ID給另外一個醫(yī)生,另外一個醫(yī)生同樣檢測這個數(shù)據(jù)庫,大家討論這個病人出在這個病例當中處在什么位置,但是這是我們想的簡單的應用。
通過我們自己也做了小的算例,最后發(fā)現(xiàn)計算量很大,多組學在一起哪怕幾十個病例一起做聚類,這個計算量都不是咱們想象的一下能出來,所以未來如果是真的我們做10萬人的參考來做案例推理,來做制定的話,對計算是一個很大的挑戰(zhàn)。
最后是一個關于運營的設想,國家投這個錢投這個平臺,但是有一個疑問,說將來課題結(jié)題了,國家資助斷了以后國家熱點就轉(zhuǎn)到其他熱點上,誰來用這個平臺?我們也想象一下,就是將來其實可以做一個國家跟企業(yè)共同運營的模式。比如說這個平臺硬件也好,軟件也好還是相當?shù)暮馁M金錢的,尤其相關的企業(yè)進來可以維護這個平臺。然后對于科研人員來說,對于國家指定的一些機構(gòu)永遠可以是免費的,因為這是國家納稅人的錢做出來的數(shù)據(jù),但是可以開放一些專業(yè)服務,比如病例的匹配、檢索、病例的比對這樣的服務,這樣的服務可以來支撐產(chǎn)業(yè)方面的運營,然后他們的盈利再回歸到這個平臺上,讓這個平臺上精準醫(yī)學專項收集的這些數(shù)據(jù)能夠一直為咱們的科研醫(yī)療服務,這是我們的一個設想,但是因為現(xiàn)在首當其沖的是先把平臺做好。
我大概就講這么多,最后這是我們整個團隊的一個心愿,就是希望通過先進的、安全的大數(shù)據(jù)平臺,支撐咱們國家的精準醫(yī)學計劃,再次感謝大會的邀請,謝謝大家!