資訊

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

2019-08-29 11:16:59

近日，緊跟華為宣布新的 AI 框架即將開源的消息，騰訊又帶來了全新的全棧機器學習平臺 angel3.0。新版本功能特性覆蓋了機器學習的各個階段，包括：特征工程、模型訓練、超參數調節和模型服務。自 2017 年 angel1.0 在 Github 上開源以來，angel 共獲得星標數超過 4200、fork 數超 1000。騰訊發布了相關文章介紹了 angel3.0 更新細節等內容，雷鋒網 AI 開發者將其整理編輯如下。

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

Angel 概述

Angel 是基于參數服務器架構的分布式計算平臺，專注于稀疏數據高維模型訓練以及大規模圖數據分析問題，它由騰訊與北京大學聯合研發，融合了業界的實用性和學術界的創新性。相比于 TensorFlow, PyTorch 和 Spark 等業界同類平臺，Angel 有如下特點：

Angel 是一個基于 Parameter Server（PS）理念開發的高性能分布式機器學習平臺，PS 架構良好的橫向擴展能力讓 Angel 能高效處理千億級別的模型。
Angel 具有專門為處理高維稀疏特征特別優化的數學庫，性能可達 breeze 數學庫的 10 倍以上。
相比之下，Angel 更擅長于推薦模型和圖網絡模型相關領域（如圖 1 所示），與 Tensorflow 和 PyTouch 的性能形成互補。

圖 1 Angel 與主流平臺的性能分布圖

Angel 3.0 系統架構

Angel 自研的高性能數學庫是整個系統的基礎，Angel 的 PS 功能和內置的算法內核均基于該數學庫實現。

Angel PS 則提供參數存儲和交換服務。在 3.0 版本中，我們對 Angel PS 功能進行了擴展，使得它可以存儲任意類型的對象，例如：在圖算法的實現過程中，我們使用 Angel PS 來存儲大量復雜的對象。ML core 則是 Angel 自研的一套算法內核，它支持自動求導，可以使用 JSON 配置文件定義和運行算法。

除此之外，Angel 3.0 中還集成了 PyTorch 來作為計算引擎。目前它支持 3 種計算框架：原生的 Angel，Spark On Angel（SONA）和 PyTorch On Angel（PyTONA），這些計算框架可以使得 Spark 和 PyTorch 用戶能夠靈活切換到 Angel 平臺。最上層包括了兩個公共組件：AutoML 和模型服務。

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

圖 2 Angel 3.0 架構

Angel 3.0 新特性

自動特征工程：新增特征選擇和組合方法，將特征合成、選擇和重新索引以 pipeline 的形式呈現，用來迭代生成高階合成特征；
新的計算引擎：SONA（加強）——特征工程支持索引為 Long 類型的向量；所有的算法被封裝成 Spark 風格的 APIs；SONA 上的算法可以作為 Spark 的補充；PyTONA(新）—— PyTONA 作為圖學習算法的引擎被引入，目前支持 GCN 和 GraphSage，同時也支持推薦領域的算法；
自動機器學習：Angel3.0 引入了 3 種超參數調節算法，包括：網格搜索、隨機搜索和貝葉斯優化；
Angel 模型服務：Angel 提供一個跨平臺的模型服務框架，支持 Angel、PyTorch 和 Spark 的模型，性能上與 TensorFlow Serving 相當；
Kubernetes：Angel3.0 支持 Kubernetes，可以在云上運行；

圖 3 Angel 3.0 特性概覽（紅色的表示新增特性，白色的表示已有的但在持續改進的特性）

具體特性實現

自動特征工程
特征工程，例如：特征交叉和選擇，對于工業界的機器學習應用具有重要意義。雖然 Spark 提供了一些特征選擇算子，但仍有一些局限性，Angel 則基于 Spark 提供了更多的特征選擇算子：

基于統計的運算符，包括 VarianceSelector 和 FtestSelector
基于模型的運算符，包括 LassoSelector 和 RandomForestSelector

大多數在線推薦系統經常選擇線性算法，例如邏輯回歸作為機器學習模型，但邏輯回歸需要復雜的特征工程才能實現較高的精度，這使得自動特征合成至關重要。但是，現有的自動化的高階特征合成方法帶來了維度災難。

為了解決這個問題，Angel 實現了一種迭代生成高階合成特征的方法，每次迭代由兩個階段組成，即擴增階段——任意特征的笛卡爾積；縮約階段——特征選擇和特征重索引；具體迭代步驟為：

首先任意的輸入特征之間通過笛卡爾積生成合成特征（該步驟后，特征數量將以二次方式增加）；
接下來，從合成特征中選擇最重要的特征子集（使用例如 VarianceSelector 和 RandomForestSelector）；
然后，重新索引所選擇的特征以減少特征空間；
最后，合成特征與原始特征拼接在一起。

圖 4 自動特征工程流程

如圖 4 所示，這種特征合成方法線性地增加特征數量，避免了維度災難。在 Higgs 數據集上的實驗表明合成的特征能有效地提高模型精度（如表 1 所示）。
與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

表 1 特征合成結果

Spark On Angel (SONA)

在 Angel 3.0 中，我們對 Spark On Angel 做了大幅度的優化，添加了新的特性：

Spark On Angel 中集成了特征工程。在集成的過程中并不是簡單地借用 Spark 的特征工程，我們為所有的運算支持了長整型索引的向量使其能夠訓練高維稀疏模型；
與自動調參無縫連接；
Spark 用戶能夠通過 Spark-fashion API 將 Spark 轉換成 Angel；
支持兩種新的數據格式，即 LibFFM 和 Dummy。

圖 5 Spark On Angel 架構

除了這些大的特征，我們也在持續完善 Spark On Angel 的算法庫，添加了一些新的算法，例如：Deep & Cross Network（DCN）和 Attention Factorization Machines（AFM）等；同時，對已有的算法做了大量的優化。圖 6 提供了一個基于 Spark On Angel 的分布式算法示例，主要包含以下步驟：與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

圖 6 Spark On Angel 算法示例

在程序開始時啟動參數服務器，程序結束時關閉參數服務器；
將訓練集和測試集以 Spark DataFrame 形式加載；
定義一個 Angel 模型并以 Spark 的參數設置方式為其設置參數。在這個示例中，算法是一個通過 JSON 定義的計算圖；
使用「fit」方法來訓練模型；
使用「evaluate」方法來評估已訓練的模型。

在訓練完成后，Spark On Angel 將會展示多種模型指標，如：準確率, ROC 曲線, AUC 等。用戶可以保存訓練好的模型以便下次使用。

PyTorch On Angel（PyTONA）

PyTorch On Angel 是 Angel 3.0 新增的特性，它主要是為了解決大規模圖表示學習和深度學習模型訓練問題。在過去幾年時間，圖卷積神經網絡（GNN）快速發展，一系列的研究論文以及相關的算法問世：例如 GCN，GraphSAGE 和 GAT 等，研究和測試結果表明，它們能夠比傳統圖表示學習更好的抽取圖特征。

但大規模圖的表示學習面臨著兩個主要的挑戰：第一個挑戰來自于超大規模圖結構的存儲以及訪問，這要求系統不僅能存得下，還需要提供高效的訪問接口；第二個挑戰來自于 GNN 計算過程，它需要有高效的自動求導模塊。
通過對 Angel 自身狀況以及對業界已有系統的分析，我們發現：

TensorFlow 和 PyTorch 擁有高效的自動求導模塊，但是它們不擅長處理高維度模型和稀疏數據；
Angel 擅長處理高維度模型和稀疏數據，雖然 Angel 自研的計算圖框架（MLcore）也可以自動求導，但是在效率和功能完整性上卻不及 TensorFlow 和 PyTorch，無法滿足 GNN 的要求。

為了將兩者的優勢結合起來，我們基于 Angel PS 開發了 PyTorch On Angel 平臺，希望通過 Angel PS 來存儲大模型，同時使用 Spark 來作為 PyTorch 的分布式調度平臺。最終得到 PyTorch On Angel 的架構如圖 7 所示：
與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

圖 7 PyTorch On Angel 系統架構

PyTorch On Angel 具有 3 個主要的組件：

Angel PS：存儲模型參數，圖結構信息和節點特征等，并且提供模型參數和圖相關數據結構的訪問接口，例如需要提供兩跳鄰接訪問接口；
Spark Driver：中央控制節點，負責計算任務的調度和一些全局的控制功能，例如發起創建矩陣、初始化模型、保存模型、寫 checkpoint 以及恢復模型命令；
Spark Worker：讀取計算數據，同時從 PS 上拉取模型參數和網絡結構等信息，然后將這些訓練數據參數和網絡結構傳給 PyTorch，PyTorch 負責具體的計算并且返回梯度，最后 Spark Worker 將梯度推送到 PS 更新模型。

這些組件都已封裝完備，因此在 PyTorch On Angel 平臺上開發新算法，只需關注算法邏輯即可。圖 8 展示了一個開發案例，算法開發完成后，將代碼保存為 pt 文件，然后將 pt 文件提交給 PyTorch On Angel 平臺就可以實現分布式訓練了。

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

圖 8 在 PyTorch On Angel 上實現 GCN 的例子

目前，我們已經在 PyTorch On Angel 上實現了許多算法：包括推薦領域常見的算法（FM，DeepFM，Wide & Deep，xDeepFM，AttentionFM，DCN 和 PNN 等）和 GNN 算法（GCN 和 GraphSAGE）。在未來，我們將進一步豐富 PyTorch On Angel 的算法庫。

結合了 PyTorch 和 Angel 的優點，PyTorch On Angel 在算法性能方面有很大的優勢：對于推薦領域常見的深度學習算法，性能可以大大超過了 TensorFlow 。下圖是在公開的數據集 criteo kaggle2014（4500 萬訓練樣本，100w 特征）上做的對比測試：
與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

圖 9 PyTorch On Angel 和 TensorFlow 性能對比測試

除了性能方面的優勢，PyTorch On Angel 易用性也較好。PyTorch 運行在 Spark 的 Executor 中，可以實現 Spark 圖數據預處理和 PyTorch 模型訓練的無縫對接，在一個程序中完成整個計算過程。

自動超參數調節

傳統超參數調節的方式有兩種（如圖 10 所示）：

網格搜索：網格搜索將整個搜索空間切分為網格，假設超參數是同等重要的。這種方式雖然直觀，但有兩個明顯的缺點。第一個是計算代價隨參數數量的增長而呈指數增長，其次是超參數的重要程度常常不同，網格搜索可能會花費太多資源來優化不太重要的超參數；
隨機搜索：隨機采樣超參數組合，并評估抽樣組合。雖然這種方法可能關注更重要的超參數，但是無法保證找到最佳組合；

圖 10 網格搜索和隨機搜索

貝葉斯優化與傳統的無模型方法不同，它使用計算成本較低的代理函數（surrogate function）來近似原始目標函數。在貝葉斯優化中，代理函數生成超參數組合的概率均值和方差。然后，效用函數（acquisition function）將評估超參數組合的預期損失或改進。這樣的概率解釋方法使貝葉斯優化能夠使用較少的成本找到目標函數的較優解。

Angel 3.0 包括傳統的兩種方法和貝葉斯算法優化。對貝葉斯優化，Angel 實現了以下的功能：

代理函數。除了常用的兩種模型（高斯過程和隨機森林），也實現了 EM + LBFGS 優化高斯過程內核函數中的超參數；
效用函數：實現了 PI（Probability of improvement），EI（Expected Improvement）和 UCB（Upper Confidence Bound）。

由于每次評估目標函數的計算成本可能較大，如果觀察到候選超參數組合在開始的若干輪迭代中表現不佳，可以提前停止這些候選超參數組合。Angel 3.0 版本中實現了該策略。表 2 展示了在邏輯回歸算法的實驗，調節的超參數是學習速度和學習速度衰減率，結果顯示貝葉斯優化的性能優于隨機搜索和網格搜索，而隨機搜索的結果略優于網格搜索。
與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

表 2 不同超參數自動條件方法的效果對比

Angel Serving

為了滿足在生產環境中高效地進行模型服務的需求，我們在 Angel 3.0 中實現了 Angel Serving 子系統，它是一個可拓展性強、高性能的機器學習模型服務系統，是全棧式機器學習平臺 Angel 的上層服務入口，使 Angel 生態能夠形成閉環。圖 11 展示了 Angel Serving 的架構設計。

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

圖 11 Angel Serving 架構

Angel Serving 主要特征包括：

支持多種類型的 API 訪問服務，包括 gRPC 和 Restful 接口；
Angel Serving 是一個通用的機器學習服務框架。可插拔機制設計使得來自其他第三方機器學習平臺的模型可以與 Angel Serving 兼容，目前已經支持三種平臺的模型：Angel，PyTorch 和支持 PMML 模型格式的平臺（Spark、XGBoost 等）；
受 TensorFlow Serving 的啟發，Angel Serving 提供細粒度版本控制策略。包括使用模型的最早、最新以及指定版本進行服務；
Angel Serving 還提供豐富的模型服務監控指標，包括：QPS（每秒請求數）、總的請求數以及成功請求總數、請求的響應時間分布以及平均響應時間。

表 3 Angel Serving 和 Tensorflow Serving 性能對比

表 3 展示了 Angel Serving 和 TensorFlow Serving 性能對比結果，我們使用具有 100 萬個特征的 DeepFM 模型，向服務發送 100,000 個預測請求。Angel Serving 和 TensorFlow Serving 的總耗時分別為 56 秒和 59 秒。兩個服務系統的平均響應時間都為 2 毫秒。Angel Serving 的 QPS 是 1,900，而 TensorFlow Serving 的 QPS 是 1,800。

Angel 開源地址：
https://github.com/Angel-ML

來源 | 雷鋒網 AI 開發者雷鋒網
作者 | 楊鯉萍

啟智社區，確實給力

資訊

與 TensorFlow 功能互補的騰訊 angel 發布 3.0 ：高效處理千億級別模型

Angel 概述

Angel 3.0 系統架構

具體特性實現

Angel Serving