資訊

沒(méi)有領(lǐng)域和算法限制，聯(lián)邦學(xué)習(xí)是打破數(shù)據(jù)孤島的利器

2019-05-05 15:22:31

機(jī)器學(xué)習(xí)已發(fā)展幾十年，在互聯(lián)網(wǎng)普及的過(guò)程中，大量數(shù)據(jù)產(chǎn)生，傳統(tǒng)模型在記憶量與擬合能力上遇到瓶頸。借著 GPU 算力大漲的東風(fēng)，深度學(xué)習(xí)被用于突破這個(gè)瓶頸，進(jìn)而產(chǎn)生了很多應(yīng)用。隨著機(jī)器學(xué)習(xí)應(yīng)用的進(jìn)一步發(fā)展，社會(huì)各個(gè)成員對(duì)數(shù)據(jù)安全隱私意識(shí)開(kāi)始覺(jué)醒，造成了很多數(shù)據(jù)孤島。基于單個(gè)數(shù)據(jù)擁有方，越來(lái)越難以構(gòu)建效果良好的機(jī)器學(xué)習(xí)模型，這就需要有新的技術(shù)出現(xiàn)來(lái)解決孤島問(wèn)題。

陳天健認(rèn)為，聯(lián)邦學(xué)習(xí)是最有可能解決孤島問(wèn)題的技術(shù)。為什么他會(huì)這樣說(shuō)？

聯(lián)邦學(xué)習(xí)的含義和原理

首先，聯(lián)邦學(xué)習(xí)是什么？這一名稱(chēng)和聯(lián)邦制有什么共通之處嗎？

陳天健表示，和很多其他技術(shù)一樣，聯(lián)邦學(xué)習(xí)是先有英文名字：Federated Learning。在對(duì)這個(gè)技術(shù)不斷深入研究的過(guò)程中，微眾銀行的 AI 團(tuán)隊(duì)發(fā)覺(jué)需要一個(gè)比較傳神的中文名字方便對(duì)中文科研與技術(shù)社區(qū)的推廣。微眾銀行首席人工智能官（CAIO），同時(shí)還是中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)、AAAI/ACM/IEEE Fellow、IJCAI 理事長(zhǎng)的楊強(qiáng)最先提議使用“聯(lián)邦學(xué)習(xí)”這個(gè)名字，以體現(xiàn)促進(jìn)多方合作的同時(shí)保持獨(dú)立，“君子和而不同”的含義。

陳天健認(rèn)為，聯(lián)邦學(xué)習(xí)中的“聯(lián)邦”更多的是強(qiáng)調(diào)一種開(kāi)放、平等、包容的 AI 合作生態(tài)，和歷史上出現(xiàn)的聯(lián)邦制國(guó)家的概念還是有明顯區(qū)別的。

（聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu)）

其次，聯(lián)邦學(xué)習(xí)的基本原理是什么？業(yè)內(nèi)人士都在強(qiáng)調(diào)聯(lián)邦學(xué)習(xí)在數(shù)據(jù)隱私方面的重大意義，那么它是如何在不共

享隱私數(shù)據(jù)的情況下，進(jìn)行協(xié)同的訓(xùn)練？

陳天健解釋道，簡(jiǎn)單來(lái)說(shuō)，聯(lián)邦學(xué)習(xí)不用匯聚模型訓(xùn)練所需的數(shù)據(jù)進(jìn)行集中計(jì)算，而是分散機(jī)器學(xué)習(xí)的計(jì)算到參與各方的數(shù)據(jù)庫(kù)上進(jìn)行加密的分布式計(jì)算。為了協(xié)調(diào)各個(gè)分布式計(jì)算的節(jié)點(diǎn)，梯度相關(guān)數(shù)據(jù)需要被傳遞，這就需要對(duì)梯度相關(guān)數(shù)據(jù)進(jìn)行隱私保護(hù)，防止原始數(shù)據(jù)被反向推算出來(lái)。整個(gè)模型訓(xùn)練過(guò)程自始自終、沒(méi)有任何原始數(shù)據(jù)和原始數(shù)據(jù)的加密 / 脫敏數(shù)據(jù)被傳輸，從而保護(hù)了數(shù)據(jù)擁有者各自的隱私。

聯(lián)邦學(xué)習(xí)技術(shù)突破

在全球范圍內(nèi)，最近聯(lián)邦學(xué)習(xí)技術(shù)有了哪些最新的進(jìn)展和突破才得以被業(yè)界關(guān)注？

從 2017 年開(kāi)始，大量的聯(lián)邦學(xué)習(xí)技術(shù)成果被報(bào)導(dǎo)出來(lái)。陳天健認(rèn)為，以谷歌研究院團(tuán)隊(duì)為代表的技術(shù)流派比較看重移動(dòng)設(shè)備上的隱私保護(hù)問(wèn)題，嘗試建立數(shù)百萬(wàn) Android 設(shè)備之間的聯(lián)邦模型，以避免用戶(hù)隱私數(shù)據(jù)上傳到數(shù)據(jù)中心后的隱私權(quán)、遺忘權(quán)實(shí)踐問(wèn)題。而以微眾銀行 AI 團(tuán)隊(duì)為代表的技術(shù)流派，比較看重跨機(jī)構(gòu)跨組織大數(shù)據(jù)合作場(chǎng)景，尤其是銀行金融場(chǎng)景的數(shù)據(jù)安全和隱私保護(hù)問(wèn)題，并且嘗試將聯(lián)邦學(xué)習(xí)框架通用化，并引入遷移學(xué)習(xí)技術(shù)進(jìn)一步提高數(shù)據(jù)利用率和模型效果。

微眾銀行開(kāi)源工業(yè)級(jí)聯(lián)邦學(xué)習(xí)框架

在開(kāi)源上，微眾銀行走在了前面。在 GitHub 上，微眾銀行 AI 團(tuán)隊(duì)已經(jīng)開(kāi)源了工業(yè)級(jí)的聯(lián)邦學(xué)習(xí)技術(shù)框架 Federated AI Technology Enabler（簡(jiǎn)稱(chēng) FATE）。FATE 項(xiàng)目不僅提供了一系列開(kāi)箱即用的聯(lián)邦學(xué)習(xí)算法、比如 LR、GBDT、CNN 等等，更重要的是給開(kāi)發(fā)者提供了實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法和系統(tǒng)的范本，大部分傳統(tǒng)算法都可以經(jīng)過(guò)
一定改造適配到聯(lián)邦學(xué)習(xí)框架中來(lái)。

之所以叫做“工業(yè)級(jí)”的聯(lián)邦學(xué)習(xí)技術(shù)框架，主要原因是 FATE 解決了三個(gè)工業(yè)應(yīng)用常見(jiàn)的問(wèn)題

計(jì)算架構(gòu)可并行：FATE 提供內(nèi)建的并行計(jì)算機(jī)制支持大規(guī)模建模應(yīng)用，百萬(wàn)樣本也不是問(wèn)題；
信息交互可審計(jì)：FATE 框架所有跨域數(shù)據(jù)交流都被獨(dú)立定義和管控起來(lái)，方便信息安全審計(jì)；
接口清晰可擴(kuò)展：FATE 各層 IO 和計(jì)算接口均被很好抽象，方便進(jìn)行各種計(jì)算機(jī)制 / 數(shù)據(jù)庫(kù)的對(duì)接。

FATE GitHub 開(kāi)源地址：https://github.com/WeBankFinTech/FATE

哪個(gè)技術(shù)處理隱私問(wèn)題最直接有效？

事實(shí)上，業(yè)界在數(shù)據(jù)隱私保護(hù)方面已經(jīng)有一些探索，比如谷歌于今年 3 月推出的 TensorFlow Privacy（https://medium.com/tensorflow/introducing-tensorflow-privacy-learning-with-differential-privacy-for-training-data-b143c5e801b6）機(jī)器學(xué)習(xí)框架開(kāi)源庫(kù)，英特爾開(kāi)源的 HE-Transformer（https://venturebeat.com/2018/12/03/intel-open-sources-he-transformer-a-tool-that-allows-ai-models-to-operate-on-encrypted-data/）等。相比于這些解決方案，聯(lián)邦學(xué)習(xí)在原理上和它們有哪些差異？哪個(gè)技術(shù)解決隱私問(wèn)題的潛力更大一些呢？

陳天健告訴 AI 前線，TensorFlow Privacy 是一個(gè)實(shí)驗(yàn)性項(xiàng)目，主要是利用差分隱私技術(shù)對(duì)模型進(jìn)行轉(zhuǎn)換，防止模型樣本數(shù)據(jù)通過(guò)無(wú)數(shù)次推理被反向解算。而 HE-Transformer 在設(shè)計(jì)上更多是讓模型可以計(jì)算同態(tài)加密過(guò)的用戶(hù)數(shù)據(jù)以完成推理過(guò)程，避免在推理過(guò)程中使用用戶(hù)原始數(shù)據(jù)。這些技術(shù)的源頭非常早了，早期的加密機(jī)器學(xué)習(xí)都是這個(gè)路數(shù)。但對(duì)建模階段的數(shù)據(jù)保護(hù)，僅僅用同態(tài)加密或者差分隱私很難完成，上述兩個(gè)框架都沒(méi)有解決方案。真正要完整解決建模 + 預(yù)測(cè)全流程全生命周期的數(shù)據(jù)安全與隱私保護(hù)問(wèn)題，需要深度結(jié)合機(jī)器學(xué)習(xí)和 MPC 兩個(gè)技術(shù)領(lǐng)域，這就是聯(lián)邦學(xué)習(xí)的天下了。

相對(duì) TensorFlow Privacy 來(lái)說(shuō)，TensorFlow Federated 項(xiàng)目方便了開(kāi)發(fā)者開(kāi)發(fā)橫向聯(lián)邦學(xué)習(xí)應(yīng)用，“我覺(jué)得應(yīng)該更多關(guān)注 TensorFlow Federated。”在數(shù)據(jù)隱私保護(hù)這一問(wèn)題上，陳天健給出了他的看法。

落地應(yīng)用

在金融行業(yè)中，聯(lián)邦學(xué)習(xí)技術(shù)目前已經(jīng)有了一些比較成功的落地應(yīng)用，聯(lián)邦學(xué)習(xí)的效果立竿見(jiàn)影。

微眾銀行在信貸風(fēng)控、客戶(hù)權(quán)益定價(jià)和監(jiān)管科技領(lǐng)域同時(shí)在推動(dòng)一系列聯(lián)邦學(xué)習(xí)的應(yīng)用落地，比如小微企業(yè)信貸風(fēng)控上，模型的性能每提高模型 1% 都很困難，微眾銀行使用銀行數(shù)據(jù)和發(fā)票數(shù)據(jù)進(jìn)行聯(lián)邦學(xué)習(xí)建模后，效果比單獨(dú)使用銀行數(shù)據(jù)提高了 12%；再如，銀行如果想為客戶(hù)解決差異化權(quán)益定價(jià)、由于數(shù)據(jù)傾斜的問(wèn)題，通常只能覆蓋 8%~12% 的客戶(hù)，而微眾銀行使用銀行數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行聯(lián)合建模之后，覆蓋率提升到 92%，大幅提升了銷(xiāo)售轉(zhuǎn)化水平。

另外，在監(jiān)管科技領(lǐng)域，微眾銀行在央行的支持下正在協(xié)同各家銀行建立聯(lián)邦反洗錢(qián)模型，落實(shí)國(guó)家加強(qiáng)金融監(jiān)管的相關(guān)政策，解決該領(lǐng)域樣本少，數(shù)據(jù)質(zhì)量低問(wèn)題。

對(duì)IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)兩年內(nèi)推出有信心

近日，AI 前線在《IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)有望兩年內(nèi)推出，填補(bǔ) AI 領(lǐng)域“黑洞”》（https://www.infoq.cn/article/1x4-HLu85WgWtkHK4bh4）一文中報(bào)道了創(chuàng)新工場(chǎng)宣布南京國(guó)際人工智能研究院執(zhí)行院長(zhǎng)馮霽當(dāng)選 IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會(huì)副主席，并預(yù)計(jì) IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)將于兩年內(nèi)推出的消息。事實(shí)上，微眾銀行也是這一標(biāo)準(zhǔn)項(xiàng)目的主要發(fā)起者，同時(shí)微眾銀行首席 AI 官楊強(qiáng)教授擔(dān)任了這個(gè)標(biāo)準(zhǔn)制定委員會(huì)的主席，騰訊、第四范式、京東數(shù)科等企業(yè)也是核心企業(yè)。目前，國(guó)內(nèi)外已經(jīng)有三十多個(gè)主要的企業(yè)和研究機(jī)構(gòu)參與到標(biāo)準(zhǔn)指定過(guò)程當(dāng)中，微眾銀行對(duì)于兩年內(nèi)這一標(biāo)準(zhǔn)出爐表示有信心，這是一個(gè)開(kāi)放合作包容的技術(shù)，也是一個(gè)開(kāi)放合作包容的社區(qū)平臺(tái)。

陳天健表示，因?yàn)槁?lián)邦學(xué)習(xí)既是一個(gè)技術(shù)也是一個(gè)合作接口標(biāo)準(zhǔn)，業(yè)界通過(guò) IEEE 標(biāo)準(zhǔn)的形式將對(duì)接標(biāo)準(zhǔn)固定下來(lái)，可以保證各方的聯(lián)邦學(xué)習(xí)系統(tǒng)能夠沒(méi)有障礙地溝通合作，而不會(huì)因?yàn)楦鞣綄?shí)現(xiàn)的微小技術(shù)差異而導(dǎo)致社區(qū)碎片化。

未來(lái)前景

在未來(lái)，聯(lián)邦學(xué)習(xí)還有哪些應(yīng)用前景？

陳天健表示，聯(lián)邦學(xué)習(xí)是一種面向安全合規(guī)的大數(shù)據(jù)合作的機(jī)器學(xué)習(xí)技術(shù)，應(yīng)用前景十分廣泛，并沒(méi)有特別的領(lǐng)域或者具體的算法限制，微眾銀行甚至已經(jīng)在機(jī)器視覺(jué)、裝備故障檢測(cè)等應(yīng)用中和領(lǐng)域合作伙伴開(kāi)展技術(shù)合作，推動(dòng)聯(lián)邦學(xué)習(xí)社區(qū)進(jìn)一步發(fā)展。

隨著 5G IoT 技術(shù)的進(jìn)一步發(fā)展，設(shè)備間傳輸帶寬的大幅改善以及邊緣計(jì)算性能的增強(qiáng)，聯(lián)邦學(xué)習(xí)也將用于 5G IoT 網(wǎng)絡(luò)基礎(chǔ)之上的 AI 能力提升和生態(tài)構(gòu)建。

我們可以從中看出，聯(lián)邦學(xué)習(xí)的未來(lái)可期，我們也期待聯(lián)邦學(xué)習(xí)在未來(lái)能有更多的應(yīng)用盡快落地，解決數(shù)據(jù)隱私這一越來(lái)越嚴(yán)重且全世界人類(lèi)最關(guān)注的問(wèn)題之一。

來(lái)源：AI前線
采訪嘉賓：陳天健
整理&編輯：Debra

啟智社區(qū)，確實(shí)給力

資訊

沒(méi)有領(lǐng)域和算法限制，聯(lián)邦學(xué)習(xí)是打破數(shù)據(jù)孤島的利器