在下午的大數(shù)據(jù)助力智慧醫(yī)療發(fā)展論壇上,北京肽積木科技有限公司CEO柏文潔發(fā)表了名為《構(gòu)建基于醫(yī)療大數(shù)據(jù)的人工智能訓(xùn)練平臺》的主題演講。柏文潔介紹稱肽積木做的是融合AI(人工智能)和治療影像,因為AI在圖像領(lǐng)域,尤其是這一波以深度學(xué)習(xí)為代表的AI技術(shù),圖像處理相對成熟,所以肽積木首先選擇了和醫(yī)療影像的結(jié)合。
柏文潔還從人工智能輔助閱片以及建立醫(yī)生和人工智能公司聯(lián)系兩個維度分享了肽積木在醫(yī)療方面對人工智能和大數(shù)據(jù)技術(shù)的實踐應(yīng)用,它通過輔助閱片實現(xiàn)自動分級診斷和自動病灶識別,而對于建立醫(yī)生和人工智能公司聯(lián)系,則是為了打造數(shù)據(jù)標(biāo)記平臺,這些標(biāo)識數(shù)據(jù)能夠幫助醫(yī)生方便地指出這個病灶有問題的點,并通過圖像直接的給予一個標(biāo)識或標(biāo)簽得出診斷結(jié)果。柏文潔認為AI在醫(yī)療方面最核心的兩個能力,一個是降低醫(yī)生的工作量,另一個就是平衡國內(nèi)尤其在基層的醫(yī)療資源不足和匱乏的問題。據(jù)小編了解北京肽積木科技有限公司的團隊之前就是做大數(shù)據(jù)分析的,將大數(shù)據(jù)分析帶入到醫(yī)療行業(yè)可以說是駕輕就熟。
演講中,柏文潔還給出了一個具體的例子,這是一個中度病變的眼底圖片,我們首先給出初步診斷指標(biāo),這里其它的概率值也是給大夫一個參考情況,肽積木會在系統(tǒng)上面會直接標(biāo)出來,黃色的區(qū)域是滲出,紅色的區(qū)域是出血,藍色的區(qū)域是為動脈血管瘤。藍色的區(qū)域是直接告訴你像這樣一張眼底圖,面色會有大量滲出,集中在面色上部,部分侵入黃斑地區(qū),這樣影響視神經(jīng)的功能。所以整個醫(yī)生需要給病人傳遞或者說在整個診斷過程當(dāng)中需要涵概的部分我們都會給到一個直接的結(jié)論。
(照片微糊,包涵……)
以下為柏文潔的演講實錄:
各位領(lǐng)導(dǎo)、各位來賓大家好,今天非常高興有機會能跟大家分享我們肽積木公司在應(yīng)用人工智能和大數(shù)據(jù)技術(shù)在醫(yī)療實踐方面的應(yīng)用,這個時間我們是落在年底,下面可以具體來看一看是怎么一個情況。
其實從去年開始,人工智能尤其是和醫(yī)療結(jié)合的維度上已經(jīng)獲得了大家非常廣泛的關(guān)注,然后一些非常突破性的進展其實不斷在產(chǎn)生。包括心臟、核磁共振的影像AI分析軟件,這個通過AI監(jiān)測心臟流動的走向,包括兒童自閉癥早期診斷,在Science上發(fā)表準(zhǔn)確率高達88%,傳統(tǒng)是50%。NatureAI在皮膚癌診斷方面準(zhǔn)確率持平專家,谷歌AI乳腺癌診斷準(zhǔn)確率到88.5%,遠高于兵力專家的73%。
在國際上AI和醫(yī)療的結(jié)合很顯著的看到有一系列的進展,而對于國內(nèi)來講其實我們國家擁有更大量的,海量的病例數(shù)據(jù),尤其是一些特殊評理的數(shù)據(jù),同時我們國家的醫(yī)療資源,尤其在基層是非常缺乏的,醫(yī)療資源極度不平均,所以在這點上AI其實它是更多的來學(xué)習(xí)大夫的核心經(jīng)驗,尤其是頂尖大夫的經(jīng)驗,能夠比較好的來做資源的平衡。所以在這個維度上,其實AI尤其在中國應(yīng)該有更廣闊的應(yīng)用前景。
我們肽積木在這塊其實是融合AI和治療影像,因為AI在圖像領(lǐng)域,尤其是這一波以深度學(xué)習(xí)為代表的AI技術(shù),在圖像領(lǐng)域的處理相對比較成熟,大家可能也聽過機器在人臉識別上已經(jīng)超過了人類,它對于圖像識別已經(jīng)達到了比較好的程度,所以我們肽積木首先選擇了和醫(yī)療影像的結(jié)合。
這個切入點首先是選擇了眼底讀片,首先一點我們需要面臨的逃亡篩查人群非常廣泛,中國有1億糖尿病患者,中國每年花在這上面的經(jīng)費也是非常大。而我們?nèi)绻軌蛲ㄟ^比較好的在這個過程當(dāng)中進行干預(yù),其實可以獲得大量經(jīng)費的節(jié)省。
同時在這個過程當(dāng)中,其實很多因為是糖尿病先期產(chǎn)生的,內(nèi)分泌科的大夫自己不具備讀片能力,而且尤其這個其實是一個長期的慢病跟蹤的過程,很多患者其實可能就會落實在社區(qū)醫(yī)院,而這些地方其實也都不太具備這樣的一個觀察或者說診斷能力。在這個過程當(dāng)中我們首先來看到的就是我能不能用AI來學(xué)習(xí)到頂尖大夫的經(jīng)驗和能力,然后把它應(yīng)用在基層的場景和環(huán)節(jié)當(dāng)中,從而使得我們能夠確實很好的做好醫(yī)院的資源為患者提供服務(wù)。
其實我們做了兩個部分,第一部分其實是利用AI來輔助閱片,做了這樣一個端到端的應(yīng)用系統(tǒng),這一塊待會兒我會給大家看一看我們是一個什么情況。同時我們?yōu)榱四軌蛟诮酉聛碚麄€推進行業(yè),包括能夠更好的利用我們采集到的各類數(shù)據(jù),其實我們也針對性的做了一個AI大數(shù)據(jù)訓(xùn)練平臺。也就是說當(dāng)我們有足夠的數(shù)據(jù)足夠的醫(yī)生合作之后,能夠比較快的推進整個事情的發(fā)展。
第一塊就是希望通過AI來解決的第一個問題其實是能夠緩解診斷的壓力,提高診斷的效率。包括我們了解到的情況其實在內(nèi)分泌科的接診率非常多,每一個是不是都應(yīng)該在一定的范圍內(nèi)進行眼底的篩查。所以在這個過程當(dāng)中我們希望解決一個端到端的邏輯,AI的落地其實應(yīng)該是大數(shù)據(jù)分析的下一步,也就是說我們是能夠直接給出結(jié)論的。所以在這個過程當(dāng)中我們重點做了一個方面:一是自動分級診斷。也就是說我們會直接告訴你是不是有病變的風(fēng)險,是不是有病變的可能性,以及你現(xiàn)在如果已經(jīng)發(fā)生病變到底是在幾級病變。在這個過程當(dāng)中我們會給出一定的概率值來提供醫(yī)生這樣的一個參考。同時除了這個方面以外我們還給出了一個自動病灶的識別,這里面包含兩個部分,一個是組織的切分,一個是病灶的標(biāo)記。
這里是一張比較典型的眼底圖,我們除了包括黃斑都是可以直接標(biāo)出來,包括血管,因為我們把血管突出出來可以更方便醫(yī)生看到血管有沒有發(fā)生病變,如果這上面產(chǎn)生了一些具體的病灶,像蛋白質(zhì)的硬性滲出,出血等等都可以直接標(biāo)注出來。在這個基礎(chǔ)上我們會直接的給出病例的編寫,也就是說不需要醫(yī)生再進行正癥狀挑選,再描述病灶在什么位置,直接機器會給出最終的結(jié)論。所以在整個的過程當(dāng)中,醫(yī)生更多的是說我來檢查機器讀出來的結(jié)果是不是符合我的需求,是不是值得我進一步的關(guān)注,在這個過程醫(yī)生的大量的診療的工作量就會被大幅的下降。而且在這個過程當(dāng)中有一件事其實也是我們現(xiàn)在正在做的,就是當(dāng)我們這個數(shù)據(jù)沒有一個逐步積累的過程的時候,其實這個病程的發(fā)展變化,對于大夫來講需要往前追溯,但是對于機器來講能更好的進行對比,當(dāng)然這一步因為目前數(shù)據(jù)整理還比較有限,這個其實是人工智能相對來說也是非常擅長的一個部分。
這個是我們實際給出來一個具體的例子,這是一個中度病變的眼底圖片,我們首先給出初步診斷指標(biāo),這里其他的概率值也是給大夫一個參考情況。我們在系統(tǒng)上面會直接標(biāo)出來,黃色的區(qū)域是滲出,紅色的區(qū)域是出血,藍色的區(qū)域是為動脈血管瘤。藍色的區(qū)域我們會直接告訴你像這樣一張眼底圖,面色會有大量滲出,集中在面色上部,部分侵入黃斑地區(qū),這樣影響視神經(jīng)的功能。所以整個醫(yī)生需要給病人傳遞或者說在整個診斷過程當(dāng)中需要涵概的部分我們都會給到一個直接的結(jié)論。
所以在這個過程當(dāng)中其實技術(shù)解決的是非常關(guān)鍵的一步,也就是說我們不需要醫(yī)生做出太多自己的一個診療過程,更多的是對機器診斷結(jié)果的一個確認,尤其是對于一些可能需要進行手術(shù)干預(yù)或者進行我用藥干預(yù)病人的一個病人的再行的察看。
除了技術(shù)上的落腳點之外,我們其實在商業(yè)模式上,或者說在運營模式上其實也需要能著重落實到基層應(yīng)用,能夠結(jié)合到三甲大夫的這樣一些經(jīng)驗和知識。所以首先我們從幾個維度來講,第一就是說對于三甲醫(yī)院,因為現(xiàn)在其實很多三甲醫(yī)院已經(jīng)開始逐步自行建立自己的閱片中心,對于閱片中心來講大量的閱片壓力會集中出來,在這個過程當(dāng)中如果利用我們這樣的產(chǎn)品確實可以大幅節(jié)省閱片中心的診療壓力,而且能夠傳遞一些教學(xué)經(jīng)驗。另一個維度就是類似的三甲醫(yī)院這樣一些情況,包括我們和一些第三方閱片中心,第三方閱片中心也是在緩解區(qū)域的診療,緩解區(qū)域的讀片、看片的壓力,我們在這個問題上可以進行快速學(xué)習(xí)和推廣的。
我特別強調(diào)的其實是在基層應(yīng)用場景,因為實際上我們看到基層醫(yī)院對眼科大夫非常缺乏,而且同時大家其實還沒有建立一個很好的慢病管理或者慢病監(jiān)測的這樣一個氛圍。其實我們從現(xiàn)在這個角度來講,大家這種智能設(shè)備尤其是眼底設(shè)備的成本已經(jīng)大幅下降,所以其實大量的社區(qū)醫(yī)院甚至包括藥店都是有能力配備這樣的設(shè)備的,而他們其實更重要的是缺乏眼科的大夫。如果在這個過程當(dāng)中其實應(yīng)用我們的產(chǎn)品,讓機器進行初步的篩選,然后我們在背后其實會提供遠程大夫的服務(wù),結(jié)合遠程醫(yī)療的篩查,然后提供一個個性化的診療意見。如果在這個過程當(dāng)中,我們發(fā)現(xiàn)這個病人可能確實到了一個需要干預(yù)的場景,那我們再進行一個分診。所以在這個過程當(dāng)中,我們一直認為AI最核心的兩個能力,一個是降低醫(yī)生的工作量,另一個就是平衡我們國家尤其在基層的醫(yī)療資源不足和匱乏的問題。
剛才其實說在提高醫(yī)生效率的維度上,第二個問題是我們希望解決怎么建立醫(yī)生和人工智能公司之間的聯(lián)系。其實我相信在座各位在做信息化過程中面對我們國家非常寶貴和真實的數(shù)據(jù)很頭疼,數(shù)據(jù)的規(guī)范度其實不是很高。所以這個過程我們到底怎么能把這部分數(shù)據(jù)利用起來,包括像谷歌,美國的很多公司在做這個過程當(dāng)中,大家最關(guān)鍵的就是中國醫(yī)療數(shù)據(jù),尤其到人工智能來講,最關(guān)鍵的一個環(huán)節(jié)其實是標(biāo)注型數(shù)據(jù),也就是說醫(yī)生得告訴機器說什么樣的問題是有問題的區(qū)域,到底它是一個什么樣的病癥。其實包括我們看到像病例上的數(shù)據(jù)很多時候是有它的最后結(jié)論的,但病灶在哪里沒有一個標(biāo)準(zhǔn)化的標(biāo)出。所以在這個過程當(dāng)中我們是構(gòu)建了這樣一個數(shù)據(jù)標(biāo)記平臺,希望借助這個數(shù)據(jù)標(biāo)記平臺,一是醫(yī)生可以比較方便的,不是那種寫病例的過程,而是說比較方便的把這個病灶有問題的點,以及通過圖像我們得到一個什么樣的診斷結(jié)果能直接的給予一個標(biāo)識甚至借助于打標(biāo)簽這樣一種方式。二是我們在這個過程當(dāng)中其實也是一個規(guī)范化和整理數(shù)據(jù)的過程。其實中國有大量的尤其是一些特殊病例的數(shù)據(jù)我們把它整理好,然后讓醫(yī)生在這個平臺上進行統(tǒng)一的標(biāo)記,能夠盡可能的收集更多醫(yī)生的觀念。在這個過程當(dāng)中其實也是有助于整個行業(yè)標(biāo)準(zhǔn)的一個建立。包括我們現(xiàn)在和中山、溫州影視合作過程當(dāng)中,我們其實希望集合多位專家的意見標(biāo)注,然后能形成一個相對來講對行業(yè)有一定指導(dǎo)意義的結(jié)論。尤其在這一點上,一些特殊的專家我們可能權(quán)重高一些,偏新手的就權(quán)重低一點。整體上我們通過這樣的一個標(biāo)注平臺,通過這樣一個過程,其實我們把整個基礎(chǔ)要學(xué)習(xí)的數(shù)據(jù)有一個標(biāo)準(zhǔn)化,第二把標(biāo)注數(shù)據(jù)有一個標(biāo)準(zhǔn)化,讓機器能夠更好的學(xué)到它應(yīng)該學(xué)到的東西,所以在這個點上是我們核心要解決的第二個問題。
在這個基礎(chǔ)上我們有了情理好的數(shù)據(jù),有了標(biāo)記之后,我們目前建立了大數(shù)據(jù)的AI訓(xùn)練平臺,其實我們很多都有在做大數(shù)據(jù)系統(tǒng),其實對到我們像肽積木來講,這個目標(biāo)就特別明確。這樣一個大數(shù)據(jù)系統(tǒng)是圍繞著AI的基礎(chǔ)訓(xùn)練來開展的。我們希望大夫雖然可能對于計算機技術(shù)沒有那么了解,但是通過一些簡單的操作,借助標(biāo)記系統(tǒng),然后就可以能夠很快的得到AI訓(xùn)練的結(jié)果。在這一點上其實在目前AI有一些,就是我們?nèi)绻胱龅揭粋€非常好的結(jié)論肯定是需要人為干預(yù)的,但是其實現(xiàn)在也已經(jīng)有一些比較成熟的計算機學(xué)習(xí)的做法,包括深度學(xué)習(xí)的一些做法。像我們在這個過程當(dāng)中其實用到的牽引學(xué)習(xí)的做法,其實更是可以很快的很好的復(fù)制出來,我們?nèi)绻袠?biāo)記,有數(shù)據(jù)都能很快得到我們想要的計算機的結(jié)論,能夠更快的幫助和輔助到實際生產(chǎn)過程當(dāng)中。所以也不需要醫(yī)生和大夫一定要有編程技能,或者對深度學(xué)習(xí)有非常大的理解,只是更多的理解到AI能幫助到大家做一些什么樣的事情,能夠快速的解決什么樣的事情,怎么樣處理最開始的數(shù)據(jù),而這一步其實在標(biāo)記平臺上會有一個初步的理解。
我們的大數(shù)據(jù)來講分為三層,最底層是數(shù)據(jù)采集層,包括我們拿到的影像監(jiān)測數(shù)據(jù),病例數(shù)據(jù)。我們在這個過程當(dāng)中也支持即使是給標(biāo)準(zhǔn)化的病例,這也是一個非標(biāo)的數(shù)據(jù),我們可以通過人工智能的識別,就是語義的識別來快速過一些關(guān)鍵詞也是可以的。在這個過程我們把影像數(shù)據(jù)、檢查數(shù)據(jù)以及獲得的標(biāo)注數(shù)據(jù)完整的整合起來進行等級病灶的判斷,這是我們的第一層。
第二層里面我們其實構(gòu)建了一個GPO的集群,在這個集群上首先要做的就是數(shù)據(jù)清理,以及借助標(biāo)記平臺獲取標(biāo)記價值不斷地錘煉,包括同一批數(shù)據(jù),譬如說我們之前拿過一套國外的8萬到的眼底數(shù)據(jù),這個眼底數(shù)據(jù)可能剛開始只有一部分簡單標(biāo)注,而已經(jīng)過我們處理之后我們可以在它上面進一步深化細化做過標(biāo)記病灶各種分級的處理。所以在這里我們是用訓(xùn)練方式把這個數(shù)據(jù)整合好。而在這個過程當(dāng)中其實利用的核心的大數(shù)據(jù)技能就是我能快速的根據(jù)我的需求,根據(jù)我各種各樣的個性化的定制來進行數(shù)據(jù)的篩選,然后來進行不同場景的結(jié)果的訓(xùn)練。因為很多時候人工智能其實用在特定的場景下會更加有意義。就是我不見得要把所有問題都解決掉,但是我能解決當(dāng)前在你這種場景下的特定問題,往往會做得效果非常好。
第三層就是應(yīng)用層的構(gòu)建,包含了病理等級的判斷,病灶識別,報告的生成,包括未來發(fā)病的預(yù)測以及治療方案的推薦,這些其實都有賴于我們進一步對于醫(yī)療知識然后標(biāo)記數(shù)據(jù)的整理。所以在這個平臺的構(gòu)建當(dāng)中我們其實是希望不僅僅局限于某一個特定領(lǐng)域,而是能把這樣的一套人工智能技術(shù)拿出來,能幫助到醫(yī)生快速的利用人工智能技術(shù),來實現(xiàn)在傳統(tǒng)方法可能實現(xiàn)突破略微有些困難的點。其實很多時候在這個過程當(dāng)中不斷去做,而這個流程其實我們盡可能把它做得會相對簡單,包括上傳數(shù)據(jù)、標(biāo)記訓(xùn)練、進行直接訓(xùn)練,最后落實到實際的應(yīng)用環(huán)節(jié)和科研環(huán)節(jié)當(dāng)中去。
最后說一下我們的技術(shù)優(yōu)勢,我們首先用的是深度學(xué)習(xí)的技術(shù),在這一塊確實需要對這一塊有比較深入理解的情況,所以我們是用的比較新的技術(shù)。然后速度快,其實在這一塊我們整體上是希望不讓醫(yī)生再等待,其實比如像眼底片,之前差不多我們了解的一些情況都是讀一張片需要3-5分鐘,這個過程其實醫(yī)生自己都看完了,所以我們在這個理念希望整體都能夠在1分鐘以內(nèi),所以像我們目前是13秒到15秒完成一張病灶的標(biāo)記,然后整體的看讀其實1秒鐘就夠了。所以整體上包括病例生成、病灶判斷、分級都不會超過30秒鐘,也就是說希望能夠最大限度的提升醫(yī)生的效率。
穩(wěn)定性高。其實實際場景可能在某種程度會超過醫(yī)生,因為大夫有時候看很多張片子之后會累,所以我們其實是對應(yīng)到不管是這個片子可能拍糊了甚至拍暗了,曝光不夠,曝光太過,這些場景其實我們都能接受。也就是說機器在這個維度上是具有一定的識別性的。
準(zhǔn)確率高。在特定數(shù)據(jù)級上的準(zhǔn)確度我們已經(jīng)超過了97%,在包括現(xiàn)在在一些基層醫(yī)院的使用場景下可以看到其實這個準(zhǔn)確度還是非??梢詫嶋H應(yīng)用的。我們的AOC值其實已經(jīng)到了0.99。
目前我們其實在這個過程當(dāng)中,就是AI你要能夠有一個好的訓(xùn)練結(jié)果,首先是要有一個好的數(shù)據(jù)級。所以我們目前和這些三甲醫(yī)院的合作,包括一些醫(yī)療機構(gòu),包括患者等多個渠道,其實已經(jīng)有30多萬張的醫(yī)療影像,包括從公開數(shù)據(jù)級當(dāng)中拿到20多萬的影像及標(biāo)記,而且其實這些都有再加工和重復(fù)反復(fù)的把里面核心有意義的東西提取出來。在這個過程當(dāng)中我們采用的深度脫敏和對應(yīng)診斷這些技術(shù),我們其實在這塊能夠希望最終通過一系列的應(yīng)用,幫助到大家。所以非常感謝各位的聆聽。最后做個小廣告,我們的展位就在門口,大家有興趣可以體驗一下,因為現(xiàn)在其實是有成型的產(chǎn)品,謝謝!