8月29日,2019世界人工智能大會(WAIC)于上海世博中心拉開帷幕,海內(nèi)外大咖齊聚,學術界工業(yè)界交匯,共話人工智能未來。微眾銀行首席人工智能官楊強教授在大會主論壇——“科學前沿”演講時表示,聯(lián)邦學習已經(jīng)成為AI在學術界和工業(yè)界的新趨勢,未來行業(yè)面臨的社會大眾的要求和監(jiān)管會越來越嚴格,聯(lián)邦學習能夠在滿足用戶隱私保護和數(shù)據(jù)安全需求的同時,實現(xiàn)多方共贏。

  微眾銀行作為聯(lián)邦學習的國內(nèi)首倡者和領導者,在楊強教授的帶領下首次提出了“聯(lián)邦遷移學習”,并通過領銜聯(lián)邦學習國際標準(IEEE標準)制定、開源自研聯(lián)邦學習框架Federated AI Technology Enabler(簡稱FATE)等來推動聯(lián)邦學習技術在行業(yè)中的落地。

  以下為微眾銀行首席人工智能官楊強教授演講全文:

  大家好,今天非常高興跟大家討論這樣一個題目——人工智能最后一公里。為什么會起這樣一個題目呢?現(xiàn)在我在微眾銀行負責人工智能的工作,接觸到很多人工智能的應用場景。像微眾銀行這樣一個互聯(lián)網(wǎng)銀行,它服務的用戶數(shù)已經(jīng)超過了1.7億,提供服務主要借助的手段就是人工智能和機器人。在服務過程中有很多環(huán)節(jié),比方說業(yè)務咨詢、審核批準貸款文件、對申請人進行人臉識別、語音識別等身份核驗、客服問答等。在金融領域,不僅要建立用戶畫像和模型找到用戶,更要建立一整條長鏈路來服務廣大的用戶。

  我們已經(jīng)很熟悉這些人工智能領域的應用,但我想說的是,這些應用都離不開一個元素——數(shù)據(jù),尤其是大數(shù)據(jù)。但是我們看看我們的周邊,卻發(fā)現(xiàn)數(shù)據(jù)非常有限。在法律領域,積累一條有效的數(shù)據(jù)是需要很長時間的;在金融領域,尤其是大額貸款、理財領域,有效的數(shù)據(jù)也是非常少的;在醫(yī)療領域面臨的是數(shù)據(jù)割裂的現(xiàn)象,每個醫(yī)院都有很多的醫(yī)療影像數(shù)據(jù),卻出于監(jiān)管、安全、利益等原因不能夠互相傳遞,無法形成合力。

  在這種情況下,數(shù)據(jù)聚合的需求十分強烈,卻很難得到滿足。其中有一個很重要的原因是社會對于用戶隱私的要求越來越高?,F(xiàn)在世界各地的監(jiān)管機構(gòu)紛紛出臺強有力的法規(guī),比方說歐盟在去年正式提出《通用數(shù)據(jù)保護條例》(GDPR),對個人隱私、個人數(shù)據(jù)的擁有權(quán),包括模型的使用和可解釋性都提出了非常嚴格的要求。中國的法律也在快步推進,連續(xù)出臺了一系列關于用戶隱私、用戶數(shù)據(jù)安全和擁有權(quán)的法規(guī),也將會嚴格限制企業(yè)之間的數(shù)據(jù)交換。

  我們一方面面臨數(shù)據(jù)割裂,沒有大數(shù)據(jù)來訓練人工智能;另一方面,法律法規(guī)和社會對安全的嚴格要求又限制了數(shù)據(jù)的融合。大數(shù)據(jù)變成了人工智能的挑戰(zhàn)。

  我們?nèi)绾螒獙@個挑戰(zhàn)?放棄人工智能嗎?僅允許擁有大數(shù)據(jù)的公司來做人工智能嗎?這都不對,我們的回答是,要積極地尋找一些新的技術方向來解決數(shù)據(jù)挑戰(zhàn)。

  我們提出的方法和方向叫做“聯(lián)邦學習”,英文叫“Federated Learning”。數(shù)據(jù)的各個擁有方,在各自數(shù)據(jù)不出本地的情況下建立模型,并且讓這個模型能夠共享,那么在建立模型的過程中便不會侵犯用戶的隱私,整個建模的過程就叫聯(lián)邦學習的框架和算法。

  Google在2016年就開始進行一個項目,在安卓系統(tǒng)的手機用戶中建立聯(lián)邦學習,解決用戶個人終端設備的數(shù)據(jù)隱私問題。首先初始化模型下載到各終端,各終端根據(jù)自己本身的數(shù)據(jù)更新模型參數(shù),不同的終端就會產(chǎn)生不同的更新結(jié)果,這些更新被送到云端進行聚合,匯總后的模型參數(shù)將作為下一次更新的初始參數(shù),這樣一直迭代直到收斂。用這樣的一個方法既能保證用戶隱私,同時又能共享一個通用模型,利用群體智能在云端不斷更新。

  這樣的模型不僅需要一個機器學習算法,更需要一個分布式的機器學習算法。在分布式的機器學習算法之上,還要有各種加密的算法。在這個基礎上,我們仔細地分析了一下,發(fā)現(xiàn)一共有三種模式來進行聯(lián)邦學習。

  第一種模式叫橫向聯(lián)邦學習,是指當兩個數(shù)據(jù)集的用戶不同,重疊較少,但用戶特征重疊較多時,我們把數(shù)據(jù)集按照橫向 (即用戶維度) 切分,并取出雙方用戶特征相同而用戶不完全相同的那部分數(shù)據(jù)進行訓練。

  第二種叫做縱向聯(lián)邦學習,是說兩個數(shù)據(jù)集的用戶特征重疊較少,但它們卻有較多的重疊用戶,那么我們就把數(shù)據(jù)集按照縱向 (即特征維度) 切分,并取出雙方用戶相同而用戶特征不完全相同的那部分數(shù)據(jù)進行訓練。

  最后,如果兩個數(shù)據(jù)集既不重疊用戶特征,又不重疊用戶,那么在這個場景下,我們也提出一個新的算法,叫做聯(lián)邦遷移學習。它可以利用遷移學習的算法,把這兩方數(shù)據(jù)模型的本質(zhì)挖掘出來,把抽象的模型加以聚合,在聚合的過程中保護用戶隱私,也取得非常大的成功。

  雖然聯(lián)邦學習的框架最近才提出來,但是它在產(chǎn)業(yè)界的應用已經(jīng)有成熟的進展。比方說我們最近在一個金融信貸的場景下就取得了非常成功的應用:一方是互聯(lián)網(wǎng)企業(yè),有很多用戶的行為數(shù)據(jù);另一方是金融企業(yè)——銀行,需要建立一個更準確的用戶信貸模型。這時利用縱向聯(lián)邦學習,把兩邊的模型加以共享,進行更新,這樣模型就能夠更有利,隨著數(shù)據(jù)量的增加,效果也大為增加。以下是效果圖。

  同時,我們也嘗試了很多不同的應用場景,比方說在城市管理領域,利用散落在各地的割裂的計算機視覺數(shù)據(jù)來建立一個安全、共享的模型;在語音識別領域,不同的機構(gòu)有不同的語音數(shù)據(jù),不同的服務中心,它們也可以建立一個聯(lián)邦學習來解決用戶隱私的問題。

  剛剛講的這些應用都離不開一個概念,叫做生態(tài)。聯(lián)邦學習生態(tài)的建立需要我們不斷地去倡導。我們在學術界和工業(yè)界也做了一系列的推動工作,包括在剛剛結(jié)束的第28屆國際人工智能聯(lián)合會議(IJCAI 2019)上舉辦了首屆國際聯(lián)邦學習研討會;在Linux?Foundation開放了全球首個聯(lián)邦學習的開源項目,叫FATE(Federated AI Technology Enabler),和更多的開發(fā)者一起為聯(lián)邦學習開源做出積極貢獻。同時,我們也正在建立一個聯(lián)邦學習國際標準(IEEE標準),讓不同的機構(gòu)之間可以有共同的語言,在建立聯(lián)邦學習共同模型的時候大家的溝通會更敏捷;在國內(nèi),我們也取得了很大的成就,牽頭建立國內(nèi)首個關于聯(lián)邦學習的團體規(guī)范標準——《信息技術服務 聯(lián)邦學習 參考架構(gòu)》團體標準。

  最后,機器學習離不開大數(shù)據(jù),大數(shù)據(jù)離不開安全和保護隱私的考慮。聯(lián)邦學習是一個既能建立大數(shù)據(jù)模型,又能保護數(shù)據(jù)安全和用戶隱私的有利的工具,希望更多的人能加入我們一起建立聯(lián)邦學習生態(tài)。謝謝大家!

分享到

Fred

baiyan

相關推薦