數(shù)據(jù)可以說是人工智能的燃料。但隨著AI落地各個應用場景,數(shù)據(jù)隱私泄露問題日益嚴重。數(shù)據(jù)的交流使用和數(shù)據(jù)的隱私保護似乎成為了不可調(diào)和的矛盾。
如何在不泄露各自數(shù)據(jù)隱私的情況下實現(xiàn)數(shù)據(jù)的共享和模型的共建,同時連通數(shù)據(jù)割裂的孤島是當前所面臨的問題。目前各機構(gòu)正試圖利用聯(lián)邦學習打通人工智能應用的最后一公里,促進人工智能落地。
數(shù)據(jù)孤島阻礙機器學習訓練
“互聯(lián)網(wǎng)時代產(chǎn)生的海量數(shù)據(jù),其背后的價值如何能挖掘出來,又會對我們產(chǎn)生什么樣的影響?”近日,在由中國計算機學會發(fā)起的第四次聯(lián)邦學習 主題研討會上,微眾銀行人工智能首席科學家范力欣說,如何發(fā)掘和利用這些信息是現(xiàn)在一個非常熱門的研究方向,但要安全合規(guī)地發(fā)揮這些海量數(shù)據(jù)背后的價值,就涉及到隱私保護問題。
隨著人工智能的發(fā)展,其可能帶來的隱私泄露風險也日益凸顯。除了備受關(guān)注的臉書(Facebook)等巨頭公司的用戶隱私泄露事件外,目前用于算法訓練的數(shù)據(jù)的來源也讓人擔憂。有媒體日前報道,在網(wǎng)絡商城中有商家公開售賣“人臉數(shù)據(jù)”,數(shù)量達17萬條。目前網(wǎng)絡商城運營方已認定涉事商家違規(guī),涉事商品已被下架處理。
為了應對隱私泄露風險,各國都采取了相應措施。如2018年歐盟出臺了首個關(guān)于數(shù)據(jù)隱私保護的法案《通用數(shù)據(jù)保護條例》;2019年5月美國舊金山禁用人臉識別,禁止政府機構(gòu)購買和使用人臉識別技術(shù),以此來消除技術(shù)帶來的隱患;從2009年開始到2019年十年間,我國也出臺了非常嚴格的隱私保護法案。
但同時,數(shù)據(jù)隱私的保護也對依賴數(shù)據(jù)的機器學習形成了巨大挑戰(zhàn)。如《通用數(shù)據(jù)保護條例》要求公司在使用數(shù)據(jù)前要先向用戶聲明模型的作用,這份條例的實行讓許多大數(shù)據(jù)公司在數(shù)據(jù)交流方面非常謹慎。
“人工智能需要通過大量的數(shù)據(jù)學習才能把數(shù)據(jù)后面的知識挖掘、整理出來,把價值發(fā)揮出來。但現(xiàn)實的情況是一方面很多數(shù)據(jù)質(zhì)量不好,缺乏標簽;另一方面,數(shù)據(jù)完全分散在各個數(shù)據(jù)主體、企業(yè)的個案里面,是一個個數(shù)據(jù)孤島,無法把它們連接起來。”范力欣說,如何在保護數(shù)據(jù)隱私同時打破數(shù)據(jù)孤島是我們現(xiàn)在面臨的問題。
聯(lián)邦學習或?qū)⑻峁┙鉀Q辦法
在人工智能領域,傳統(tǒng)的數(shù)據(jù)處理模式往往是一方收集數(shù)據(jù),再轉(zhuǎn)移到另一方進行處理、清洗并建模,最后把模型賣給第三方。但隨著法規(guī)的完善和監(jiān)控愈加嚴格,如果數(shù)據(jù)離開收集方或者用戶不清楚模型的具體用途,運營者都可能會觸犯法律。同時,數(shù)據(jù)是以孤島的形式存在的,解決孤島的直接方案就是把數(shù)據(jù)整合到一方進行處理。但目前粗暴地將數(shù)據(jù)聚合是法律法規(guī)所禁止的。
范力欣表示,聯(lián)邦學習正是針對數(shù)據(jù)孤島和隱私保護而產(chǎn)生的一種解決方式。值得一提的是,2019年4月,李開復也曾在演講中提到聯(lián)邦學習。他表示,為了防止最嚴重的數(shù)據(jù)濫用,需要制定相應的法規(guī)。與此同時也可以嘗試“以子之矛攻己之盾”——用更好的技術(shù)解決技術(shù)帶來的挑戰(zhàn),例如同態(tài)加密、聯(lián)邦學習等技術(shù)。
作為一種分布式機器學習技術(shù),聯(lián)邦學習可以實現(xiàn)各個企業(yè)的自有數(shù)據(jù)不出本地,而是通過加密機制下的參數(shù)交換方式共建模型,即在不違反數(shù)據(jù)隱私法規(guī)的情況下,建立一個虛擬的共有模型。由于數(shù)據(jù)本身不移動,因此也不會涉及隱私泄露和數(shù)據(jù)合規(guī)問題。這樣,建好的模型將在各自的區(qū)域僅為本地的目標服務。在這樣一個聯(lián)邦機制下,參與各方可以在不披露底層數(shù)據(jù)和底層數(shù)據(jù)的加密(混淆)形態(tài)下共建模型,各個參與者的身份和地位相同,這就是為什么這個體系叫做聯(lián)邦學習。
微眾銀行人工智能部高級研究員范濤介紹,如SecureBoost聯(lián)邦模型,核心是大家共同構(gòu)建了一棵“樹”,每一方都可以看見這棵“樹”,但是每一方看見的東西是不一樣的。通過構(gòu)建這樣一棵“樹”能夠?qū)崿F(xiàn)算法的性能提升。
“聯(lián)邦學習所使用的數(shù)據(jù)是不能移動的,但數(shù)據(jù)背后的知識、數(shù)據(jù)背后的價值是可以移動、轉(zhuǎn)移、共建的。所有貢獻數(shù)據(jù)的參與者都有同等的權(quán)利、獲得同等的回饋,這是共同獲益的機制。”范濤說。
如此,大家就有了動力共建聯(lián)邦學習的生態(tài)。
“聯(lián)邦學習 大體可以分為橫向聯(lián)邦和縱向聯(lián)邦。橫向聯(lián)邦特征維度都一樣,通過擴充樣本的方式提升模型質(zhì)量;縱向聯(lián)邦樣本相通,通過擴充特征的方式來實現(xiàn)數(shù)據(jù)的信息互通,提升模型質(zhì)量。”范濤說,比如目前的傳統(tǒng)反洗錢模型存在樣本少、數(shù)據(jù)質(zhì)量低的問題,使用橫向聯(lián)邦的技術(shù)可以解決這樣的問題,在橫向聯(lián)邦里面,不需要進行樣本對齊。
正在邁向積累經(jīng)驗的落地階段
事實上,聯(lián)邦學習早在2015年就被提出了,當時只是作為一個算法工具。隨后,隨著聯(lián)邦學習切實地解決了上述問題,開始受到關(guān)注。“現(xiàn)在聯(lián)邦學習已經(jīng)進入一個新的時期,就是落地時期。”微眾銀行首席人工智能官楊強表示,在經(jīng)歷以隱私保護為重點的第一階段之后,目前的聯(lián)邦學習正在邁向積累經(jīng)驗的落地階段。
“在聯(lián)邦學習這個生態(tài)之中,我們可以看到各種各樣的落地場景,比如智慧城市、智慧終端、智慧醫(yī)療等。”范力欣說,比如在醫(yī)療領域,健康監(jiān)護需要在普適環(huán)境下實現(xiàn)開放域用戶行為的智能感知和理解,而面向疾病診斷的智能算法研究存在著限制移動、時空受限等缺陷。
針對以上難題,中科院計算所泛在計算系統(tǒng)研究中心主任研究員陳益強及其團隊利用聯(lián)邦學習技術(shù),將范式驅(qū)動的限定場景下面向疾病的診斷模型向普適場景下的健康狀態(tài)監(jiān)測進行聯(lián)邦遷移。
“此外云服務也是聯(lián)邦學習一個比較理想的落地途徑,聯(lián)邦學習其自身具備的特點,適合在云上和多個用戶進行部署和使用,例如可以把在公有云里面聯(lián)邦學習的機構(gòu)組織加進來,形成一個異構(gòu)系統(tǒng)或者生態(tài)系統(tǒng),為不同的組織之間的數(shù)據(jù)對接提供平臺。”VMware中國研發(fā)中心技術(shù)總監(jiān)張海寧說。
與此同時,聯(lián)邦學習也正面臨著諸多挑戰(zhàn)和機會。“工業(yè)實踐者在具體部署聯(lián)邦學習技術(shù)以滿足業(yè)務合規(guī)化的同時,還需要為現(xiàn)有的聯(lián)邦學習配置‘保護鎖’與‘疫苗’,以更好地保護自身的商業(yè)機密。”創(chuàng)新工場南京國際人工智能研究院執(zhí)行院長馮霽介紹,聯(lián)邦學習框架內(nèi)不同模塊可能會遇到的潛在攻擊方式,如數(shù)據(jù)下毒、信道監(jiān)聽以及對抗樣本等都是聯(lián)邦學習需要面臨的挑戰(zhàn)。
范力欣表示,建立數(shù)據(jù)價值聯(lián)盟將是聯(lián)邦學習的最終愿景。“長期來看,聯(lián)邦學習的期望是把數(shù)據(jù)背后的知識和價值拿出來,參與各方共建一個數(shù)據(jù)價值聯(lián)盟,這個聯(lián)盟里有的成員作出了貢獻, 讓其他成員享受到其所提供的服務,當然其他成員也需要付出他們認為該付出的,來進行對等交換。”據(jù)了解,聯(lián)邦學習標準草案預計將于2020年2月推出。
來源 | 科技日報