OpenI 啟智社區(qū)

啟智社區(qū),確實(shí)給力

當(dāng)前位置:首頁(yè) > 資訊 > 行業(yè)資訊 >

沒(méi)有領(lǐng)域和算法限制,聯(lián)邦學(xué)習(xí)是打破數(shù)據(jù)孤島的利器

機(jī)器學(xué)習(xí)已發(fā)展幾十年,在互聯(lián)網(wǎng)普及的過(guò)程中,大量數(shù)據(jù)產(chǎn)生,傳統(tǒng)模型在記憶量與擬合能力上遇到瓶頸。借著 GPU 算力大漲的東風(fēng),深度學(xué)習(xí)被用于突破這個(gè)瓶頸,進(jìn)而產(chǎn)生了很多應(yīng)用。隨著機(jī)器學(xué)習(xí)應(yīng)用的進(jìn)一步發(fā)展,社會(huì)各個(gè)成員對(duì)數(shù)據(jù)安全隱私意識(shí)開(kāi)始覺(jué)醒,造成了很多數(shù)據(jù)孤島。基于單個(gè)數(shù)據(jù)擁有方,越來(lái)越難以構(gòu)建效果良好的機(jī)器學(xué)習(xí)模型,這就需要有新的技術(shù)出現(xiàn)來(lái)解決孤島問(wèn)題。

陳天健認(rèn)為,聯(lián)邦學(xué)習(xí)是最有可能解決孤島問(wèn)題的技術(shù)。為什么他會(huì)這樣說(shuō)?

聯(lián)邦學(xué)習(xí)的含義和原理
首先,聯(lián)邦學(xué)習(xí)是什么?這一名稱(chēng)和聯(lián)邦制有什么共通之處嗎?

陳天健表示,和很多其他技術(shù)一樣,聯(lián)邦學(xué)習(xí)是先有英文名字:Federated Learning。在對(duì)這個(gè)技術(shù)不斷深入研究的過(guò)程中,微眾銀行的 AI 團(tuán)隊(duì)發(fā)覺(jué)需要一個(gè)比較傳神的中文名字方便對(duì)中文科研與技術(shù)社區(qū)的推廣。微眾銀行首席人工智能官(CAIO),同時(shí)還是中國(guó)人工智能學(xué)會(huì)副理事長(zhǎng)、AAAI/ACM/IEEE Fellow、IJCAI 理事長(zhǎng)的楊強(qiáng)最先提議使用“聯(lián)邦學(xué)習(xí)”這個(gè)名字,以體現(xiàn)促進(jìn)多方合作的同時(shí)保持獨(dú)立,“君子和而不同”的含義。

陳天健認(rèn)為,聯(lián)邦學(xué)習(xí)中的“聯(lián)邦”更多的是強(qiáng)調(diào)一種開(kāi)放、平等、包容的 AI 合作生態(tài),和歷史上出現(xiàn)的聯(lián)邦制國(guó)家的概念還是有明顯區(qū)別的。
(聯(lián)邦學(xué)習(xí)系統(tǒng)架構(gòu))
其次,聯(lián)邦學(xué)習(xí)的基本原理是什么?業(yè)內(nèi)人士都在強(qiáng)調(diào)聯(lián)邦學(xué)習(xí)在數(shù)據(jù)隱私方面的重大意義,那么它是如何在不共

享隱私數(shù)據(jù)的情況下,進(jìn)行協(xié)同的訓(xùn)練
 
陳天健解釋道,簡(jiǎn)單來(lái)說(shuō),聯(lián)邦學(xué)習(xí)不用匯聚模型訓(xùn)練所需的數(shù)據(jù)進(jìn)行集中計(jì)算,而是分散機(jī)器學(xué)習(xí)的計(jì)算到參與各方的數(shù)據(jù)庫(kù)上進(jìn)行加密的分布式計(jì)算。為了協(xié)調(diào)各個(gè)分布式計(jì)算的節(jié)點(diǎn),梯度相關(guān)數(shù)據(jù)需要被傳遞,這就需要對(duì)梯度相關(guān)數(shù)據(jù)進(jìn)行隱私保護(hù),防止原始數(shù)據(jù)被反向推算出來(lái)。整個(gè)模型訓(xùn)練過(guò)程自始自終、沒(méi)有任何原始數(shù)據(jù)和原始數(shù)據(jù)的加密 / 脫敏數(shù)據(jù)被傳輸,從而保護(hù)了數(shù)據(jù)擁有者各自的隱私。

聯(lián)邦學(xué)習(xí)技術(shù)突破
 
在全球范圍內(nèi),最近聯(lián)邦學(xué)習(xí)技術(shù)有了哪些最新的進(jìn)展和突破才得以被業(yè)界關(guān)注?

從 2017 年開(kāi)始,大量的聯(lián)邦學(xué)習(xí)技術(shù)成果被報(bào)導(dǎo)出來(lái)。陳天健認(rèn)為,以谷歌研究院團(tuán)隊(duì)為代表的技術(shù)流派比較看重移動(dòng)設(shè)備上的隱私保護(hù)問(wèn)題,嘗試建立數(shù)百萬(wàn) Android 設(shè)備之間的聯(lián)邦模型,以避免用戶(hù)隱私數(shù)據(jù)上傳到數(shù)據(jù)中心后的隱私權(quán)、遺忘權(quán)實(shí)踐問(wèn)題。而以微眾銀行 AI 團(tuán)隊(duì)為代表的技術(shù)流派,比較看重跨機(jī)構(gòu)跨組織大數(shù)據(jù)合作場(chǎng)景,尤其是銀行金融場(chǎng)景的數(shù)據(jù)安全和隱私保護(hù)問(wèn)題,并且嘗試將聯(lián)邦學(xué)習(xí)框架通用化,并引入遷移學(xué)習(xí)技術(shù)進(jìn)一步提高數(shù)據(jù)利用率和模型效果。

微眾銀行開(kāi)源工業(yè)級(jí)聯(lián)邦學(xué)習(xí)框架

在開(kāi)源上,微眾銀行走在了前面。在 GitHub 上,微眾銀行 AI 團(tuán)隊(duì)已經(jīng)開(kāi)源了工業(yè)級(jí)的聯(lián)邦學(xué)習(xí)技術(shù)框架 Federated AI Technology Enabler(簡(jiǎn)稱(chēng) FATE)。FATE 項(xiàng)目不僅提供了一系列開(kāi)箱即用的聯(lián)邦學(xué)習(xí)算法、比如 LR、GBDT、CNN 等等,更重要的是給開(kāi)發(fā)者提供了實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法和系統(tǒng)的范本,大部分傳統(tǒng)算法都可以經(jīng)過(guò)
一定改造適配到聯(lián)邦學(xué)習(xí)框架中來(lái)。

之所以叫做“工業(yè)級(jí)”的聯(lián)邦學(xué)習(xí)技術(shù)框架,主要原因是 FATE 解決了三個(gè)工業(yè)應(yīng)用常見(jiàn)的問(wèn)題
  1. 計(jì)算架構(gòu)可并行:FATE 提供內(nèi)建的并行計(jì)算機(jī)制支持大規(guī)模建模應(yīng)用,百萬(wàn)樣本也不是問(wèn)題;
  2. 信息交互可審計(jì):FATE 框架所有跨域數(shù)據(jù)交流都被獨(dú)立定義和管控起來(lái),方便信息安全審計(jì);
  3. 接口清晰可擴(kuò)展:FATE 各層 IO 和計(jì)算接口均被很好抽象,方便進(jìn)行各種計(jì)算機(jī)制 / 數(shù)據(jù)庫(kù)的對(duì)接。
FATE GitHub 開(kāi)源地址:https://github.com/WeBankFinTech/FATE

哪個(gè)技術(shù)處理隱私問(wèn)題最直接有效?
事實(shí)上,業(yè)界在數(shù)據(jù)隱私保護(hù)方面已經(jīng)有一些探索,比如谷歌于今年 3 月推出的 TensorFlow Privacy(https://medium.com/tensorflow/introducing-tensorflow-privacy-learning-with-differential-privacy-for-training-data-b143c5e801b6)機(jī)器學(xué)習(xí)框架開(kāi)源庫(kù),英特爾開(kāi)源的 HE-Transformer(https://venturebeat.com/2018/12/03/intel-open-sources-he-transformer-a-tool-that-allows-ai-models-to-operate-on-encrypted-data/)等。相比于這些解決方案,聯(lián)邦學(xué)習(xí)在原理上和它們有哪些差異?哪個(gè)技術(shù)解決隱私問(wèn)題的潛力更大一些呢?

陳天健告訴 AI 前線,TensorFlow Privacy 是一個(gè)實(shí)驗(yàn)性項(xiàng)目,主要是利用差分隱私技術(shù)對(duì)模型進(jìn)行轉(zhuǎn)換,防止模型樣本數(shù)據(jù)通過(guò)無(wú)數(shù)次推理被反向解算。而 HE-Transformer 在設(shè)計(jì)上更多是讓模型可以計(jì)算同態(tài)加密過(guò)的用戶(hù)數(shù)據(jù)以完成推理過(guò)程,避免在推理過(guò)程中使用用戶(hù)原始數(shù)據(jù)。這些技術(shù)的源頭非常早了,早期的加密機(jī)器學(xué)習(xí)都是這個(gè)路數(shù)。但對(duì)建模階段的數(shù)據(jù)保護(hù),僅僅用同態(tài)加密或者差分隱私很難完成,上述兩個(gè)框架都沒(méi)有解決方案。真正要完整解決建模 + 預(yù)測(cè)全流程全生命周期的數(shù)據(jù)安全與隱私保護(hù)問(wèn)題,需要深度結(jié)合機(jī)器學(xué)習(xí)和 MPC 兩個(gè)技術(shù)領(lǐng)域,這就是聯(lián)邦學(xué)習(xí)的天下了。

相對(duì) TensorFlow Privacy 來(lái)說(shuō),TensorFlow Federated 項(xiàng)目方便了開(kāi)發(fā)者開(kāi)發(fā)橫向聯(lián)邦學(xué)習(xí)應(yīng)用,“我覺(jué)得應(yīng)該更多關(guān)注 TensorFlow Federated。”在數(shù)據(jù)隱私保護(hù)這一問(wèn)題上,陳天健給出了他的看法。

落地應(yīng)用
 
在金融行業(yè)中,聯(lián)邦學(xué)習(xí)技術(shù)目前已經(jīng)有了一些比較成功的落地應(yīng)用,聯(lián)邦學(xué)習(xí)的效果立竿見(jiàn)影。

微眾銀行在信貸風(fēng)控、客戶(hù)權(quán)益定價(jià)和監(jiān)管科技領(lǐng)域同時(shí)在推動(dòng)一系列聯(lián)邦學(xué)習(xí)的應(yīng)用落地,比如小微企業(yè)信貸風(fēng)控上,模型的性能每提高模型 1% 都很困難,微眾銀行使用銀行數(shù)據(jù)和發(fā)票數(shù)據(jù)進(jìn)行聯(lián)邦學(xué)習(xí)建模后,效果比單獨(dú)使用銀行數(shù)據(jù)提高了 12%;再如,銀行如果想為客戶(hù)解決差異化權(quán)益定價(jià)、由于數(shù)據(jù)傾斜的問(wèn)題,通常只能覆蓋 8%~12% 的客戶(hù),而微眾銀行使用銀行數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行聯(lián)合建模之后,覆蓋率提升到 92%,大幅提升了銷(xiāo)售轉(zhuǎn)化水平。

另外,在監(jiān)管科技領(lǐng)域,微眾銀行在央行的支持下正在協(xié)同各家銀行建立聯(lián)邦反洗錢(qián)模型,落實(shí)國(guó)家加強(qiáng)金融監(jiān)管的相關(guān)政策,解決該領(lǐng)域樣本少,數(shù)據(jù)質(zhì)量低問(wèn)題。

對(duì)IEEE聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)兩年內(nèi)推出有信心
 
近日,AI 前線在 《IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)有望兩年內(nèi)推出,填補(bǔ) AI 領(lǐng)域“黑洞”》(https://www.infoq.cn/article/1x4-HLu85WgWtkHK4bh4)一文中報(bào)道了創(chuàng)新工場(chǎng)宣布南京國(guó)際人工智能研究院執(zhí)行院長(zhǎng)馮霽當(dāng)選 IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)制定委員會(huì)副主席,并預(yù)計(jì) IEEE 聯(lián)邦學(xué)習(xí)標(biāo)準(zhǔn)將于兩年內(nèi)推出的消息。事實(shí)上,微眾銀行也是這一標(biāo)準(zhǔn)項(xiàng)目的主要發(fā)起者,同時(shí)微眾銀行首席 AI 官楊強(qiáng)教授擔(dān)任了這個(gè)標(biāo)準(zhǔn)制定委員會(huì)的主席,騰訊、第四范式、京東數(shù)科等企業(yè)也是核心企業(yè)。目前,國(guó)內(nèi)外已經(jīng)有三十多個(gè)主要的企業(yè)和研究機(jī)構(gòu)參與到標(biāo)準(zhǔn)指定過(guò)程當(dāng)中,微眾銀行對(duì)于兩年內(nèi)這一標(biāo)準(zhǔn)出爐表示有信心,這是一個(gè)開(kāi)放合作包容的技術(shù),也是一個(gè)開(kāi)放合作包容的社區(qū)平臺(tái)。

陳天健表示,因?yàn)槁?lián)邦學(xué)習(xí)既是一個(gè)技術(shù)也是一個(gè)合作接口標(biāo)準(zhǔn),業(yè)界通過(guò) IEEE 標(biāo)準(zhǔn)的形式將對(duì)接標(biāo)準(zhǔn)固定下來(lái),可以保證各方的聯(lián)邦學(xué)習(xí)系統(tǒng)能夠沒(méi)有障礙地溝通合作,而不會(huì)因?yàn)楦鞣綄?shí)現(xiàn)的微小技術(shù)差異而導(dǎo)致社區(qū)碎片化。

未來(lái)前景
 
在未來(lái),聯(lián)邦學(xué)習(xí)還有哪些應(yīng)用前景?

陳天健表示,聯(lián)邦學(xué)習(xí)是一種面向安全合規(guī)的大數(shù)據(jù)合作的機(jī)器學(xué)習(xí)技術(shù),應(yīng)用前景十分廣泛,并沒(méi)有特別的領(lǐng)域或者具體的算法限制,微眾銀行甚至已經(jīng)在機(jī)器視覺(jué)、裝備故障檢測(cè)等應(yīng)用中和領(lǐng)域合作伙伴開(kāi)展技術(shù)合作,推動(dòng)聯(lián)邦學(xué)習(xí)社區(qū)進(jìn)一步發(fā)展。

隨著 5G IoT 技術(shù)的進(jìn)一步發(fā)展,設(shè)備間傳輸帶寬的大幅改善以及邊緣計(jì)算性能的增強(qiáng),聯(lián)邦學(xué)習(xí)也將用于 5G IoT 網(wǎng)絡(luò)基礎(chǔ)之上的 AI 能力提升和生態(tài)構(gòu)建。

我們可以從中看出,聯(lián)邦學(xué)習(xí)的未來(lái)可期,我們也期待聯(lián)邦學(xué)習(xí)在未來(lái)能有更多的應(yīng)用盡快落地,解決數(shù)據(jù)隱私這一越來(lái)越嚴(yán)重且全世界人類(lèi)最關(guān)注的問(wèn)題之一。

來(lái)源:AI前線
采訪嘉賓:陳天健
整理&編輯:Debra
主站蜘蛛池模板: 国产三级在线观看视频| 亚洲av无码专区电影在线观看| 强3d不知火舞视频无掩挡网站| 老司机67194精品线观看| 久久国产免费观看精品| 亚洲成年人网址| 免费夜色污私人影院在线观看| 国产免费av一区二区三区| 欧美特黄高清免费观看的| 999精品视频在线观看热6| 亚洲美免无码中文字幕在线| 国产午夜精品一区二区| 国产精彩视频在线| 嫩草影院一二三| 无敌小保子笔趣阁| 日韩欧美一区二区三区视频| 欧美日韩国产综合在线小说| 精品久久久久久婷婷| 色www永久免费| 香蕉视频911| 精品视频在线观看你懂的一区 | 色噜噜狠狠色综合日日| 久久机热这里只有精品无需| 69影院毛片免费观看视频在线| 一二三区在线视频| 啊灬啊别停灬用力啊公视频| 国产成人久久av免费| 成年人网站在线免费观看| 激情内射日本一区二区三区| 欧美高清一区二区三| 中文字幕影片免费在线观看| 伊人热人久久中文字幕| 国产精品亚洲专区无码唯爱网| 无码中文字幕色专区| 激情图片小说区| 奇米影视7777久久精品| 亚洲一区二区视频在线观看| 老司机午夜电影| 国产精品日本一区二区在线播放| 久久久久88色偷偷| 残忍女王虐茎chinese|