IBM系統(tǒng)與科技部大中華區(qū)Power Systems服務(wù)器產(chǎn)品部總經(jīng)理韓忠恒
十五年后,人類發(fā)現(xiàn)自己被機(jī)器落下的,早已不僅僅是邏輯能力,當(dāng)沃森以計算機(jī)的形態(tài)站在美國著名的智力問答節(jié)目“危險邊緣”的時候,不祥的陰云已經(jīng)籠罩在人類的頭頂,繼邏輯之王的頭銜被埋葬,人類所擁有并且為之所驕傲的“自然語言/語義表達(dá)能力”及“事物關(guān)系的建立能力”卻被敲響了“喪鐘”——在一場網(wǎng)絡(luò)上的投票對賭中,幾乎所有的人都認(rèn)為,作為人類我們毫無勝算,而作為機(jī)器的沃森,將最終勝利。
這是注定的結(jié)局,這是從一開始就知道點(diǎn)大點(diǎn)小的賭局,這是從一開始就知道比賽結(jié)果的一場毫無懸念的比賽,我們不得不承認(rèn),邏輯分析能力的差距我們已經(jīng)無法趕上,現(xiàn)在,機(jī)器在語義與關(guān)系方面的能力也開始讓我們望成莫及。
這一切,都是如何發(fā)生的?
Watson全景
沃森的勝利:當(dāng)我們的語言不再是秘密
美國電視競答節(jié)目《危險邊緣》很像是CCTV的《幸運(yùn)52》,這是一檔輕松且云集智慧的電視問答節(jié)目,與國內(nèi)的節(jié)目不同的是,《危險邊緣》的問題更加刁鉆、古怪且包含很多隱含、晦澀的信息——哪怕題目也是如此——甚至有時你并不知道真正的問題是什么?
微妙含義、反諷、謎語、甚至腦筋急轉(zhuǎn)彎等種種線索充斥著這個競答節(jié)目的問題,這意味著,所有的選手不能夠僅憑字面意思了解問題的本質(zhì),而對于沃森,重點(diǎn)也就從問答本身,轉(zhuǎn)移到了如何理解人類語言文字意義表面之下,所蘊(yùn)藏的“語義”而非簡單的字面意義的理解。在回答問題的時候,沃森不可以聯(lián)網(wǎng)、要理解并答復(fù)這種“狡猾”提問(實(shí)際上,連接互聯(lián)網(wǎng)并非是最好的辦法,過多的信息意味著過多的錯誤信息,很可能影響沃森的判斷), 主要依靠的是它對自然語言的理解和高速的計算。
當(dāng)沃森被問到某個問題的時候,100多種運(yùn)算法則會通過不同的方式對問題進(jìn)行分析,并給出很多可能的答案,而這些分析都是同時進(jìn)行的。在得出這些答案之后,另一組算法會對這些答案進(jìn)行分析并給出得分。對于每個答案,沃森都會找出支持以及反對這個答案的證據(jù)。因此,這數(shù)百個答案中的每一個都會再次引出數(shù)百條證據(jù),同時由數(shù)百套算法對這些證據(jù)支持答案的程度進(jìn)行打分。
而對于最后給出的答案,證據(jù)評估的結(jié)果越好,沃森的信心值也就越高,而評估成績最高的答案會最終成為電腦給出的答案。但在比賽中,如果連評估成績最高的答案都無法達(dá)到足夠高的信心閾值,沃森會決定不搶答問題,以免答錯而輸?shù)舄劷?。這所有的一切計算、選擇與決策都在3秒鐘之內(nèi)完成。
如今在經(jīng)歷了三天的比賽后,沃森毫無懸念的贏得了比賽,雖然尚且不能證明沃森“真的比人類聰明”,但是沃森在語義理解與關(guān)系建立方面的成就超越了此前所有的計算系統(tǒng)——同樣也證明了他并不輸于人類——沃森的勝利證明,人類的語言在計算機(jī)面前可能已經(jīng)不是秘密,雖然據(jù)IBM中國研究院資深經(jīng)理潘越表示,沃森在中文理解力方面尚且處在0歲階段,但是對于以英文為代表的拉丁語系的理解已經(jīng)幾乎達(dá)到了人類的水平。
“我們把Watson稱之為機(jī)器學(xué)習(xí)的系統(tǒng),換成一個領(lǐng)域的話是具有一定程度的適應(yīng)性的。所以,機(jī)器學(xué)習(xí)最后做綜合判斷的方法,當(dāng)Watson換到一個新領(lǐng)域的時候,我們?yōu)樗O(shè)計新的數(shù)據(jù),但是是不是要設(shè)計新的算法,或者說要不要改新的系統(tǒng)結(jié)構(gòu),這方面還有很強(qiáng)的適應(yīng)能力,很有可能我的算法不用改,但是我要用新的領(lǐng)域的數(shù)據(jù)對于綜合判斷的模型做一個訓(xùn)練,然后訓(xùn)練出來得到新的模型就可以適用新的領(lǐng)域,也有可能需要這個新的領(lǐng)域做出新的算法。但是這些算法只是說這幾百種里面我再加上幾種,加上幾種之后,整個體系結(jié)構(gòu)不需要做大的改變,也能適應(yīng)新的問題。”
IBM中國研究院資深經(jīng)理潘越
沃森是一套計算系統(tǒng),但卻不是一套平凡的IT,據(jù)潘越介紹,沃森項(xiàng)目實(shí)際上始于四年多以前——可能就是在深藍(lán)II十周年的時候——前后共有包括美國、中國、日本以色列的30多名研究員參與到這個項(xiàng)目中,潘越與他的五名同事作為中國研究院的佼佼者也加入了這個團(tuán)隊中,負(fù)責(zé)“用結(jié)構(gòu)化的信息來幫助Watson提高回答問題的正確性,同時避免一些比較愚蠢的回答”。
作為一套計算系統(tǒng),在潘越及其同事的努力下,在2月的危險邊緣三場比賽中,它顯示出了出色的語義分析能力,讓人類的語言——至少是西方拉丁語系——在它的面前毫無秘密可言,對此,有許多媒體記者與看客都驚呼,沃森將是終結(jié)者出現(xiàn)的開端,甚至有人認(rèn)為,沃森的出現(xiàn),意味著我們已經(jīng)開始讓機(jī)器“擬人化”,朝著圖靈測試的方向發(fā)展。
但沃森的出現(xiàn)沒有必要讓人類風(fēng)聲鶴唳草木皆兵,它確實(shí)是強(qiáng)大的計算系統(tǒng),能夠分析語義,建立事務(wù)關(guān)系,在“成為人的方面”他還差的很遠(yuǎn),我們只能說,人類的語言在沃森面前已經(jīng)不是秘密,至少,它所代表的信息技術(shù),已經(jīng)為了解所有的人類語言打開了一扇窗。
IBM POWER:惡魔的使者還是上帝的援手?
作為一套計算系統(tǒng),沃森的成功不僅僅來自于它的設(shè)計、程序與算法,也不僅僅是潘越及其同事們的不斷優(yōu)化,與十五年前的深藍(lán)及深藍(lán)II相同,沃森的成功同樣來自于軟硬件結(jié)合,它是一套集合了當(dāng)今最先進(jìn)的硬件與最先進(jìn)的人機(jī)交互、語義分析軟件的系統(tǒng)。
“一是DeepQA ?Architecture,深問答架構(gòu),這個機(jī)器能夠很快的分析,來回答問題。二是他們用的Power7服務(wù)器的產(chǎn)品,是由很多臺Power7組成的?!?IBM系統(tǒng)與科技部大中華區(qū)Power Systems服務(wù)器產(chǎn)品部總經(jīng)理韓忠恒是沃森粉絲,同時他所負(fù)責(zé)的POWER產(chǎn)品線也是沃森的重要組成部分之一。
作為沃森的應(yīng)用架構(gòu),DeepQA ?Architecture的信息披露的并不多,只知道這是一個建設(shè)在開源的Linux操作系統(tǒng)上面,實(shí)現(xiàn)數(shù)據(jù)分析、語義分析、答案篩選、問題自學(xué)習(xí)等沃森必備功能的應(yīng)用系統(tǒng),再加上最后應(yīng)用的UEMA軟件——大計算量、深度運(yùn)算、并行、高效率與更加開放的應(yīng)用程序與開源代碼是沃森軟件層面的優(yōu)勢,據(jù)稱,這一套系統(tǒng)將會在未來成為新一代的人機(jī)輔助決策系統(tǒng),在多個行業(yè)內(nèi)應(yīng)用。
而在沃森的硬件架構(gòu)中,IBM的POWER Systems服務(wù)器平臺的出現(xiàn)被業(yè)界認(rèn)為是IBM整個商業(yè)模式的一部分,如十五年前展示IBM的計算實(shí)力一般,沃森實(shí)則是作為Power的推廣而生的——作為沃森的應(yīng)用平臺,90臺基于Power 7處理器的Power750服務(wù)器組成的集群,是沃森的硬件平臺,它擁有最多2880個計算核心、16TB的內(nèi)存,達(dá)到超過80Teraflops的計算量,承載了三天內(nèi)快速回答危險邊緣問題的重任——但韓忠恒和潘越都否定了沃森是為了Power而生的說法,潘越認(rèn)為,從參與這個項(xiàng)目及對沃森的了解來看,Power確實(shí)是最好的平臺。
事實(shí)上,在團(tuán)隊建設(shè)及沃森項(xiàng)目規(guī)劃的開始階段,基于Power平臺的沃森,就幫助IBM研究院的團(tuán)隊解決了一個大問題:操作系統(tǒng)如何選擇?是不是有現(xiàn)成的開源代碼可以選擇?——“有很多開源的Code,因?yàn)镻ower系統(tǒng)很開放,Linux系統(tǒng)也可以跑?!迸嗽秸f,在最開始,團(tuán)隊里面就在考慮利用簡單、高效且開源的一些代碼和架構(gòu)參考設(shè)計,Power芯片的多線程和高主頻的優(yōu)勢在一開始就是備選,但是團(tuán)隊希望做的更加開放和開源,所以在選擇硬件平臺上,還是做了很多工作。
“從軟件上來講,UEMA本身是一個多平臺的軟件,本身Java寫的,IBM在Watson這個項(xiàng)目當(dāng)中也是開放的,包括和八所大學(xué)在一起合作做了一個計劃,我們在國內(nèi)開發(fā)Watson過程當(dāng)中也邀請了中國一些大學(xué)參加,這本身是一個很開放的項(xiàng)目?!迸嗽奖硎?,當(dāng)初沃森選擇Power平臺,很大的一部分原因是因?yàn)镻ower平臺的開放性,有對Linux良好的支持,而核心的UEMA則來自于一個基于Linux的開源項(xiàng)目。
而另外一方面,Power系統(tǒng)一直以來以高主頻、高運(yùn)算速度、多核心、多線程作為研發(fā)的方向,單機(jī)大節(jié)點(diǎn)的設(shè)計思考方式,誕生了類似Power750這樣單系統(tǒng)擁有極高性能的產(chǎn)品,從而解決了需要設(shè)計非常大的系統(tǒng)這樣的問題,換句話說,Power平臺的高性能避免了大量服務(wù)器堆疊成為計算系統(tǒng)的設(shè)計復(fù)雜性和空間、能耗的占用,加上本身RISC架構(gòu)在處理類似問題方面的優(yōu)勢——RISC架構(gòu)實(shí)現(xiàn)更快的速度執(zhí)行指令,雖然對編譯器有更高的要求,但是在類似危險邊緣這種深度、重復(fù)計算的模型中,擁有天然的優(yōu)勢。
同時,Power750基于工作負(fù)載優(yōu)化的方式也在一定程度上幫了沃森的忙,在Power750這一個僅僅是中端Power7系統(tǒng)的產(chǎn)品中,工作負(fù)載優(yōu)化同樣被加以重視,“去年10月份的時候,Power750除了省空間之外,基于整體的系統(tǒng)來說,來選一個比較體現(xiàn)工作負(fù)載的系統(tǒng)只有Power7,往x86方面走的話,其實(shí)會有更多不同的問題?!表n忠恒表示,不選擇X86架構(gòu)一方面是基于目前在類似應(yīng)用中系統(tǒng)的整體水平還是Power7更高,另一方面,是這樣規(guī)模的計算量——2880個核心——如果換用CISC架構(gòu)的X86,實(shí)際上并行優(yōu)化、空間、能耗都還存在問題。
潘越也透露,為了能夠讓沃森成為可能,IBM最初的硬件設(shè)計平臺考慮的是刀片架構(gòu),X86與Power刀片當(dāng)時都有所考慮,但是最后隨著IBM不斷提升Power處理器及系統(tǒng)的計算能力,沃森項(xiàng)目最終才選擇了Power架構(gòu)的Power750服務(wù)器。
Power750,這不是一個多遙不可及的名字,了解IBM的Power7服務(wù)器產(chǎn)品線的人都知道,Power750只是整個Power7服務(wù)器家族中的中端產(chǎn)品,并非最高端的“金字塔尖”,或者我們可以這樣說,Power750是Power7家族中面向關(guān)鍵業(yè)務(wù)主流市場的產(chǎn)品,拼的是銷量與價格的最佳搭配,既不像低端比拼價格力爭銷量,也不像高端比拼性能獲得高額的利潤,可以說是Power7家族中的“大路貨”。
開源、高性能的Power750搭載了可能是現(xiàn)在“最了解人類的機(jī)器”沃森,可以想見的是,未來可能它還會搭載沃森II、沃森III或是其他什么名字的人機(jī)大戰(zhàn)主角,甚至可能在若干年后,在Power平臺上我們將能夠見到完美實(shí)現(xiàn)“圖靈測試(測試機(jī)器是否能夠等同于人類的測試)”的超級智慧系統(tǒng),對于這樣一個未來可能真正超越人類的機(jī)器的承載著,我們到底會如何看待Power?它到底是“惡魔的使者還是上帝的援手?”韓忠恒表示,隨著沃森在民用市場的應(yīng)用步驟逐步展開,顯然Power是人類獲得的上帝有力的援手。
沃森的勝利永遠(yuǎn)是人類的勝利:比賽過后“下崗再就業(yè)”
“沃森的勝利永遠(yuǎn)是人類的勝利。”這不是一句嘩眾取寵的話,無論是從硬件層面還是軟件即系統(tǒng)層面,沃森的勝利對人類本身都是大有裨益的。
就硬件系統(tǒng)而言,Power 750服務(wù)器已經(jīng)在全球廣泛地應(yīng)用于處理復(fù)雜的分析和交易兩種不同的工作負(fù)載,交易處理可以被想象成針對固定數(shù)據(jù)而采取的行動,這類工作負(fù)載主要靠緩存子系統(tǒng),重點(diǎn)在于定位正確的信息。
基于工作負(fù)載系統(tǒng)的不同應(yīng)用模式,Power750服務(wù)器滿足了不同工作負(fù)載的不同類型的對系統(tǒng)的要求——在緩存、內(nèi)存和存儲中,潛伏時間是最重要的;而分析工作負(fù)載更多地側(cè)重數(shù)據(jù)之間的變換,在分析過程中,數(shù)據(jù)會迅速地在系統(tǒng)中移動。因此在分析系統(tǒng)中,帶寬是最重要的。POWER7無論在潛伏時間上還是在帶寬上都是行業(yè)領(lǐng)頭羊,因此對于兩種不同的工作負(fù)載來說都是絕佳的運(yùn)行平臺。
韓忠恒介紹,Power服務(wù)器在交易處理方面的性能早已達(dá)到了行業(yè)領(lǐng)先,因此沃森最令人興奮的地方還在于它非常清楚地展現(xiàn)了Power 服務(wù)器的商業(yè)智能性――雖然分析處理還是相對新的工作負(fù)載,但已經(jīng)迅速變成許多機(jī)構(gòu)和企業(yè)的關(guān)鍵業(yè)務(wù)。
提到商業(yè)智能,不得不提到沃森的DeepQA架構(gòu)和UEMA軟件所帶來的算法分析、智能信息搜索、語義分析、事物關(guān)系建立方面的能力——在《危險邊緣》中,每個問題都需要沃森從海量信息中進(jìn)行全面篩選——在這一點(diǎn)上,與其他任何商業(yè)性的智能信息搜索指令都是相通的,而沃森與網(wǎng)絡(luò)搜索引擎不差異在于,后者是根據(jù)。
與此同時,沃森的架構(gòu)是可以“學(xué)習(xí)”的,潘越表示,IBM把Watson稱之為機(jī)器學(xué)習(xí)的系統(tǒng),在不同的領(lǐng)域,沃森是具有一定程度的適應(yīng)性的。所以,機(jī)器學(xué)習(xí)最后做綜合判斷的方法——對于信息分析、信息抽取等技術(shù)——當(dāng)Watson換到一個新領(lǐng)域的時候,只需要為它設(shè)計新的數(shù)據(jù),而不需要設(shè)計新的算法,或者說要不要改新的系統(tǒng)結(jié)構(gòu)。
“很有可能我的算法不用改,但是我要用新的領(lǐng)域的數(shù)據(jù)對于綜合判斷的模型做一個訓(xùn)練,然后訓(xùn)練出來得到新的模型就可以適用新的領(lǐng)域,也有可能需要這個新的領(lǐng)域做出新的算法。但是這些算法只是說這幾百種里面我再加上幾種,加上幾種之后,整個體系結(jié)構(gòu)不需要做大的改變,也能適應(yīng)新的問題?!被谖稚谥悄苄畔z索與面向數(shù)據(jù)的機(jī)器學(xué)習(xí)方面的能力,沃森被認(rèn)為在民用領(lǐng)域有極強(qiáng)的潛力,尤其是其智能信息檢索、語義分析、事物關(guān)系建立方面的能力,被認(rèn)為在輔助決策領(lǐng)域有很強(qiáng)的優(yōu)勢,醫(yī)療行業(yè)如已經(jīng)成為沃森在《危險邊緣比賽之后》“下崗再就業(yè)”的首選。
“各行各業(yè)都有可能,想象空間是很大的,我們不要把這個定位成就是問答題的一個游戲的機(jī)器,它能發(fā)揮的功能在各個方面都是可以的。比如說醫(yī)療,我們在美國等地方已經(jīng)做實(shí)時分析的應(yīng)用,而且醫(yī)療需要很大的知識庫和數(shù)據(jù)庫,在那邊搜索和分析非常重要,什么樣的病痛需要什么樣的藥方都會有分析?!表n忠恒表示,醫(yī)療可能是沃森最先的就業(yè)領(lǐng)域之后,而在此之后,其實(shí)各個需要決策支持、輔助設(shè)計、搜索檢索分析的行業(yè)都可能是沃森的“就業(yè)領(lǐng)域”,而這些應(yīng)用在如今各個行業(yè)中廣泛的被使用著。
“比如說金融行業(yè),也有很大得數(shù)據(jù)庫,怎么做分析,尤其是保險業(yè)的分析,數(shù)據(jù)量很大,保險業(yè),以前的那些案例,還有你的身體狀況,可能都要分析出來,這也是用一個比較好的分析系統(tǒng)能夠做出來的。在服務(wù)支持和技術(shù)方面可能有很大的應(yīng)用空間。所以我想說,各行各業(yè)都可能用到,問題是你在哪個應(yīng)用里能夠把人工智慧體現(xiàn)出來,只要你能想得到就能做得到,所以空間是很大的?!?/div>
韓忠恒說,他所提到的這些應(yīng)用,其實(shí)也都是“一個小小的案例,拋磚引玉而已。”