12月20日,Linux基金會旗下面向AI領域的頂級基金會——LF AI基金會(Linux Foundation Artificial Intelligence Foundation) 宣布,騰訊開源項目Angel從LF AI基金會畢業,也是中國首個從LF AI基金會畢業的開源項目。這意味著,Angel得到全球技術專家的認可,成為世界頂級的AI開源項目之一。
Angel是騰訊的首個AI開源項目,于 2016 年底推出、2017年開源。作為面向機器學習的第三代高性能計算平臺,Angel致力于解決稀疏數據大模型訓練以及大規模圖數據分析問題。騰訊在2018年成為LF AI基金會的創始白金會員之一,并于同年向基金會貢獻了開源項目Angel。
據LF AI 基金會董事、騰訊AI專家肖涵介紹,LF AI基金會對開源項目的畢業流程有非常嚴格的規定,基于項目的技術含量、開源生態、社區互動等維度,嚴格評估項目的成熟度,最終由董事會投票決定能否準予畢業。能夠從LF AI畢業,意味著項目已經得到全球技術專家的認可,成為最頂級的AI開源項目。
Angel在基金會的孵化過程中獲得了快速發展,并完成了從2.0版本到3.0版本的跨越,從一個單純的模型訓練系統進化成包含從自動特征工程到模型服務的全棧機器學習平臺。
LFAI & Angel
Angel的特征工程模塊基于Spark開發,增強了Spark的特征選擇功能,同時使用特征交叉和重索引實現了自動特征生成。這些組件可以無縫地整合進Spark的流水線。為了讓整個系統更加的智能,Angel 3.0新增了超參數調節的功能。
在模型服務方面,Angel 3.0提供了一個跨平臺的組件Angel Serving,不僅可以滿足Angel自身的需求,還可以為其他平臺提供模型服務。在生態方面,Angel也嘗試將參數服務器(PS)能力共享給其他的計算平臺,目前已經完成了Spark On Angel和PyTorch On Angel兩個平臺的建設。
圖計算體系架構
在3.0版本中,Angel重點研發了圖機器學習功能,包括圖表示和圖神經網絡學習模型,同時提供預處理、圖挖掘等端到端數據處理能力,具有豐富的算法庫,提供了同構圖、異構圖多種圖計算范式和不同種類的圖算法。經過騰訊內部業務的大規模實踐,Angel在圖算法性能上同樣表現出眾,例如十億節點、千億邊規模的圖結構,運行算法時能以Spark GraphX三分之一的計算資源,達到十倍處理性能。
圖計算性能對比
除了技術功能上的完善,Angel在社區生態上也日趨成熟。據了解,在全行業Angel擁有超過 100家公司和機構用戶,其中包括微博、華為、微眾銀行、小米、滴滴等大型互聯網企業。基于Angel構建的一站式機器學習應用平臺智能鈦TI,支持了包括微信支付、騰訊廣告、微視等在內的諸多騰訊內部產品,同時也通過騰訊云對外開放為更多行業企業提供服務。
截止目前,Angel在GitHub上已經獲得了5500 Star,1400 Fork,在技術、應用、生態等方面的優秀表現均得到了開源社區的認可。此前在騰訊2019 Techo開發者大會上,騰訊云副總裁、騰訊數據平臺部總經理蔣杰宣布了資源管理平臺核心TKE和分布式數據庫TBase的正式開源。騰訊正在成為大數據領域開源最全面的公司。
開源協同是當前騰訊最重要的技術戰略之一。在今年的重慶智博會上,騰訊公司董事會主席兼首席執行官馬化騰專門提及了對開源的重視,他表示,騰訊希望在科研領域投入更多力量,將通過內外部開源等方式,積極參與“全球科技共同體”的共建。
截止2019年11月,僅在Github上,騰訊就開源了91個項目,有超過1000個貢獻者參與,獲得超過26萬個Star數,在Github全球公司貢獻榜上居于前列。騰訊還加入了Linux、Apache等9大開源基金會,并成為最高級別會員。其中LF AI基金會是由Linux基金會發起的人工智能領域的專項開源基金會,旨在倡導和組織AI開源平臺和工具共同參與建設,共同享有IP知識產權,創建可持續發展的開源AI生態系統。
來源 | 雷鋒網