
數據作為數字經濟的核心生產要素,只有將各地區各個領域間數據要素流通交易起來,才能夠充分釋放數據要素價值。
鵬城實驗室率先開放大規模高質量中文語料數據集(鵬程·盤古語料數據集-1.1TB高質量中文語料數據、一帶一路多語言語料數據集-1TB高質量多語言語料數據),研究人員可在鵬城AI靶場上安全使用數據,但無法帶走數據。若用戶不愿上傳自身數據到鵬城AI靶場,可通過鵬城眾智協同計算平臺AISynergy使用本地語料數據與鵬城AI靶場數據進行聯合訓練或微調。
鵬城AI靶場是基于方濱興院士提出的“數據不動程序動、數據可用不可見、分享價值不分享數據、保留所有權釋放使用權”隱私保護新理念,由鵬城實驗室新型網絡部平臺所研發的數據要素流通交易新型基礎設施平臺。
鵬城AI靶場提出了一個模型加工場的方法,其基本思想是要構造一個可信的執行環境,這個可信的執行環境不完全等同于傳統的可信執行環境TEE。傳統的可信執行環境是強調計算環境可信,不會被攻擊。鵬城AI靶場把一些人為的因素放在里面,把社會工程因素放在里面,以構建一個安全可控的區域。這個安全可控包括人員可控,能落實責任制。如在政府部門或者國企里構造一個安全可控區域,再通過“數據不動程序動”“數據可用不可見”的方法來保證隱私。
在鵬城AI靶場架構中,數據擁有方需要把數據放到模型加工場里,數據所有者可以決定數據是否能夠被平臺所使用。
鵬城實驗室網絡智能部高效能云計算所團隊與鵬城AI靶場團隊聯合研制了具有大規模語料數據安全保護功能的鵬城眾智AI協同計算平臺AISynergy 2.0版,可完成跨多個計算集群的協同計算作業,實現基于中國算力網(C2NET)的全新計算范式和數據隱私安全分布式業務場景,如跨域大模型協同訓練與微調、多中心模型聚合、多中心聯邦學習等。以下是典型應用場景介紹:
典型場景1:AI靶場上開放語料數據,用戶可直接使用或上傳數據到AI靶場完成聯合訓練場景
研究團隊從Common Crawl、電子書、百科全書、新聞等廣泛的資源中收集了大量的原始數據。
在此基礎上,對數據進行多重過濾和清洗,確保處理后的數據具有高質量和多樣性。經過復雜的預處理,得到大規模高質量中文語料數據集,這些語料數據集經過預處理后具有重要數據價值,但由于很難保證其中沒有涉及敏感或安全隱私的數據內容,直接開放具有較大風險。
通過AI靶場,研究人員可安全使用這些語料數據,但無法帶走數據,實現數據不流出,充分發揮語料數據價值,助推自然語言處理等基礎研究的協作快速發展。
請參考示例:
【如何上傳您自己的語料到靶場,與盤古部分語料進行聯合訓練?】
【多語言mPanGu,單機、多卡+單方、多方數據協同訓練場景】
典型場景2:AI靶場上語料數據與第三方本地自有數據開展協同計算場景
若研究人員有自有語料數據,但不愿將自有數據上傳至AI靶場,可以通過協同計算的方式進行訓練。研究人員在AI靶場和本地分別進行模型訓練,通過協同計算平臺AISynergy,可完成跨多個智算中心的協同計算作業,實現多中心數據價值利用最大化及協同計算應用賦能新范式。
請參考示例:
【如何不上傳您自己的語料數據,使用您本地的計算環境與鵬城AI靶場進行遠程聯網協同訓練?】
AI靶場通過調試環境與運行環境分離體系架構以及仿真數據生成、隱私保護前提下的調試等創新技術,確保數據所有權和使用權分離,可以讓更多的數據提供方敢于將其數據安全托管,讓更多的數據使用方能夠充分挖掘真實場景真實數據。
目前AI靶場依托以鵬城云腦為樞紐節點的中國算力網提供的強大算力資源,通過構建可信數據空間,以張榜打靶方式將數據安全開放,進而篩選具有核心競爭力的AI團隊, 實現數據應用集智創新。
AI靶場目前已有力支撐了“2022年猛犸杯國際組學數據創新大賽”“昂楷杯第一屆數據安全競賽”“廣東省網絡安全協會數據挖掘大賽”、“深圳企業高質量發展評價指標體系”、 “騰景AI經濟預測”等多個重要領域的數據安全開放。