中國醫(yī)學科學院信息中心主任何毅
在下午的大數據助力智慧醫(yī)療發(fā)展論壇上,中國醫(yī)學科學院信息中心主任何毅發(fā)表了名為《從國家人口與健康科學數據共享看醫(yī)療大數據》的主題演講。何毅談及了國家人口與健康科學數據共享平臺中對異構型數據包括數據融合和大數據的處理方式,并從數據組織和規(guī)劃,數據共享和所取得的進展三方面給出了詳細的介紹。
何毅表示這個人口健康平臺已建立了統(tǒng)一身份認證,包括統(tǒng)一機構的身份認證,密鑰中心,基于各個不同應用之間互通的電子簽章,能夠實現總中心和分中心的知識檢索,精準醫(yī)學的WEB server檢索。下一步計劃就是在人口健康平臺上做一個測評中心,基于現有技術構架和技術標準包括元數據標準和數據元標準構建,生成的數據和提交的數據,包括臨床的數據,都會按照標準來進行評測。
以下為何毅的演講實錄:
大家下午好,我今天跟大家分享一下我們從2005年就開始做了一件事情,這件事情就是2005年可能更早,科技部當時感覺到要借力全國的科學數據共享,大家做了那么多科研項目都鎖在柜子里了,包括一些科研項目都是重復的進行建設,這樣就浪費資源,科技部就開始抓這個事情。到了衛(wèi)生系統(tǒng),科技部門我們中國醫(yī)學科學院劉院長受衛(wèi)生部的委托,現在是衛(wèi)生計生委,來代表全國的衛(wèi)生系統(tǒng)參加科學數據共享,現在這個已經是正式運行了,就是國家人口與健康科學數據共享平臺,這里面提供很多的一些科學的數據,包括臨床的數據,包括研究的很多方面的數據,我們這個中心現在是有很多的分中心,包括地方節(jié)點來構成。
我們這個中心具體本人在這兒主要是干IT技術支撐的,在這一塊就把我們做的一些體會主要是給一些IT的同志來一些分享。我們在這塊覺得有意義的是告訴大家對于一個異構的、分散的系統(tǒng)的信息的共享、融合,也就是緊貼著大數據,怎么辦?怎么處理它,我們提供一些方法、思路和經驗。
第一,談到異構性的數據的時候,包括數據的融合的時候,大數據的時候,首先一個問題就是這些數據如何組織,如何規(guī)劃?這就歸結到數據資源的建設問題。
第二,數據如何共享?大數據建設,這里面可能要牽扯到一些技術手段。
第三,我們現在中心已經在這個平臺上做了哪些事情,這些事情我們覺得比較有意義。
一、數據如何組織?如何規(guī)劃。
國家人口健康是一項十分復雜龐大的工程,涉及到醫(yī)療衛(wèi)生各個方方面面,需要權威的資源、單位、數據,建立醫(yī)療衛(wèi)生領域規(guī)范化的數據,這種規(guī)范化的數據我們把它定位成一級的原數據,原數據就是數據的數據,我們一般的把它理解為數據的標簽。對于這些數據你要說明的東西,怎么去描述它?所以我們叫原數據,它是數據的數據。要把一些異構的內容,所謂異構就是建的時代和各個HIS都不一樣,把這些叫異構的系統(tǒng),異構的系統(tǒng)跟數據產生的時候都是在各家自己內部定義的,這種怎么辦?我們要跨出這個園區(qū),院和院之間,各種不同單位之間要共享,首先在雁數據這塊我們可以做工作,原數據就是數據的數據,在這方面我們做了很多的工作。具體的元數據它的作用我就不講了,可能很多同志都知道。它主要是對定義數據的對象包括數據的性質,是對信息的一個性質的定義。
現在國家人口健康有這樣一個構成,我們有這樣一些分中心,包括總中心,各個分中心提供他們基礎的數據,我們在元數據這一塊是共享的。我們說一個詞一個字,大家都是相互呼應的,都是能找到的,這就是干這個事的第一個意義。
二、數據如何共享?
那么元數據建設好了以后要實現數據共享又要干什么呢?數據共享要解決的問題除了定義以外,我們IT怎么定義支撐,我們要解決這個,包括信息怎么利用它,怎么檢索它。我們發(fā)現經過這十多年的跟蹤,對于異構的數據,把原始的數據產生單位推倒重來重新定義數據是不可能的,因為人類原始產生的很多數據都是在沒有你的科學數據共享之前人家就有數據,這些數據只有他們自己知道,我們就要解決這個問題怎么辦?我們首先要把數據和數據之間的關系怎么表達?包括元數據之間的關聯關系一定要表達出來,這就一定要有一個本體數據的架構意識。就是說我們把不同專業(yè)的,各種各樣的專業(yè),我們按照一個數據的架構整體的描述出來,這都要引用到數據的本體服務,這是我們要做的第二件事情。
做完了本體服務以后是不是又能夠用了呢?后來又發(fā)現對于數據的基本量,把數據的基本例子,數據的基本單位,如果你把這個地方定義好了以后,大家對一個事情的基本量,這樣就好度量,包括好標準化,如果是一個基本元素都定義不清楚的話,大家共享起來就很麻煩。要定義一個數據的基本單位這里面怎么辦?就要應用一個數據概念,這里不是元數據,而是數據元,數據元指的是數據的最小顆粒,我們要實現共享,我們的數據要形成有意義的集合的時候,除了要做標準化,還要做數據元,做數據的最小化的度量。這樣的話我們才能夠把我們的一些在分散于各個不同的醫(yī)院的,各個不同的臨床的,各個不同的單位的這些內容集合起來。我們說一個醫(yī)學術語的時候,大家不但說話的聲音是一致的,而且我們在數據表示的最基本的顆粒那塊,在它的基本代碼那個地方也是一致的,你這樣才能有意義,這就是我們要做的第三件事情,就是說數據元的最基本的量化問題。
數據元這塊量化以后我們還發(fā)現除了有這個,我們要在異構性的、復雜的、跨庫的數據的時候,檢索怎么辦?我們就一定要有一個推送式的分散式的跨庫檢索,而且這種數據檢索一定要有真實性、權威性,不能說這個數據提交上來以后明天再把那個數據改變了,別人就沒法兒引用,這就是我們說數據跨庫的檢索以及數據的真實性、安全性的問題。這個問題后來顯得尤為重要,比方說我們在魏則西事件,主要就是數據提供的質量有問題,或者是數據的真實性有問題,這樣的話就是給我們也進行了提醒。就是你的數據怎么能夠在共享的時候要做到真實性、可靠性,這也是我們要特別關注的,要解決的一些問題。在技術上我們是用了HL7這個技術,我們對各位提供的數據資源的各個分中心都進行資源的提供數據的認證,你提供這個數據,我們之間以前有認證關系,而且你提交的數據以后也是抵賴不掉的,這些我們是采用了這樣一些技術來對于數據的檢索和數據的安全來進行一些處理。
最后我們還要考慮到數據除了它的安全,還要解決數據在全生命周期的安全性,包括數據的隱私。有些我們說的數據提交上來以后還是希望你把患者各方面的信息省去,包括有一些數據提交上來的時候是在一定范圍內知道,比如說醫(yī)保信息,它不宜全公開,這些情況我們又應該怎么辦?如果我們是在自己的一個獨立的園區(qū),獨立的封閉的系統(tǒng),那這些問題相對容易一些,特別是對于這種跨庫的異構的系統(tǒng)的時候,而且是基于互聯網的時候,我們要對這種信息特別加以關注。我們考慮到除了用戶的身份要進行認證,用戶的提交單位、數據單位要進行認證,包括還有用戶特別重要的信息提交的線路上還要進行加密。對于身份、統(tǒng)一認證這些我們都進行了一些考慮。
最后我借用在去年的時候我們申報國家大數據的片子,只有這樣處理這樣的片子的時候才構成大數據的基本框架,因為我們已經解決了分散性的異構的這些元數據和數據元這樣相互的數據標準,包括它的技術架構,包括它的檢索,那么我們只有這樣以后才能說我們的數據是基于互聯網的,能夠形成大數據。基于互聯網和形成大數據這是相輔相成的,大數據一定是基于互聯網的,互聯網也構造了大數據的基本要素。這樣來看要構成一個大數據,包括科學數據共享,那么我們說剛才提到一定要處理異構的不同機構的,單位的建設時期是不一致的,參差不齊的這種建設系統(tǒng)的他們的老數據和已有數據怎么能夠融合在一起,我們就是解決這樣的問題。這樣的手段我們還是基于互聯網的,我們所采用一系列的技術都是基于互聯網,所以我們數據的交換、處理、各種各樣的標準都是基于互聯網的,都是基于現在采用的基本數據標準和IT的技術標準,都是引進吸收和消化了HL7,就是衛(wèi)生的基本信息標準來實現的。這樣的話我們也跟國家衛(wèi)生計生委和相關的單位進行了探討,我們認為這樣的一條路是構成我們國家以后的醫(yī)療大數據的一個基本框架。
在這里供大家分享一下我們現在在這一套系統(tǒng)已經建立了一個統(tǒng)一身份認證,包括統(tǒng)一機構的身份認證,包括密鑰中心,包括基于各個不同應用的電子簽章,就在各個不同應用之間的互通的電子簽章。包括總中心和分中心的知識檢索,包括元精準醫(yī)學的WEB server檢索,這些現在在我們的人口健康平臺都已經實現了。下一步我們的計劃就是說在我們人口健康平臺上做一個測評中心,所有按照我們這樣的技術構架和技術標準包括元數據標準和數據元標準構建的生成的數據和提交的數據,包括臨床的數據,都按照我們的標準來進行評測。評測以后它就可以順暢的跟我們融為一體,以后就構成了我們國家的一個基本的大數據骨干的核心研發(fā)和評測的基本基地。這個工作一直不斷地在持續(xù)進行當中,整體情況就是這樣,我們把我們的一些工作跟大家進行一些分享,謝謝大家!