百度 ERNIE 2.0強勢發布!16項中英文任務表現超越 BERT 和 XLNet
2019年3月,百度正式發布 NLP 模型 ERNIE,其在中文任務中全面超越 BERT 一度引發業界廣泛關注和探討。
今天,經過短短幾個月時間,百度 ERNIE 再升級。發布持續學習的語義理解框架 ERNIE 2.0,及基于此框架的 ERNIE 2.0預訓練模型。繼1.0后,ERNIE 英文任務方面取得全新突破,在共計16個中英文任務上超越了 BERT 和 XLNet, 取得了 SOTA 效果。
目前,百度 ERNIE 2.0的 Fine-tuning 代碼和英文預訓練模型已開源。( Github 項目地址:https://github.com/PaddlePaddle/ERNIE)
近兩年,
以 BERT 、 XLNet 為代表的無監督預訓練技術在語言推斷、語義相似度、命名實體識別、情感分析等多個自然語言處理任務上取得了技術突破。基于大規模數據的無監督預訓練技術在自然語言處理領域變得至關重要。
百度發現,之前的工作主要通過詞或句子的共現信號,構建語言模型任務進行模型預訓練。例如,BERT 通過掩碼語言模型和下一句預測任務進行預訓練。XLNet 構建了全排列的語言模型,并通過自回歸的方式進行預訓練。
然而,
除了語言共現信息之外,語料中還包含詞法、語法、語義等更多有價值的信息。例如,人名、地名、機構名等詞語概念知識,句子間順序和距離關系等結構知識,文本語義相似度和語言邏輯關系等語義知識。設想如果能持續地學習各類任務,模型的效果能否進一步提升?
▲ERNIE 2.0:可持續學習語義理解框架
基于此,百度提出可持續學習語義理解框架 ERNIE 2.0。該框架支持增量引入
詞匯( lexical )、語法 ( syntactic ) 、語義( semantic )等3個層次的自定義預訓練任務,能夠
全面捕捉訓練語料中的詞法、語法、語義等潛在信息。
這些任務通過多任務學習對模型進行訓練更新,每當引入新任務時,該框架可在學習該任務的同時,不遺忘之前學到過的信息。這也意味著,該框架可以通過持續構建訓練包含詞法、句法、語義等預訓練任務,持續提升模型效果。
▲新發布的 ERNIE 2.0模型結構
依托該框架,百度充分借助飛槳 PaddlePaddle 多機分布式訓練優勢,利用 79億 tokens 訓練數據(約1/4的 XLNet 數據)和64張 V100(約1/8的 XLNet 硬件算力)訓練的
ERNIE 2.0預訓練模型不僅實現了 SOTA 效果,而且為開發人員定制自己的 NLP 模型提供了方案。目前,百度開源了 ERNIE 2.0的 Fine-tuning 代碼和英文預訓練模型。
百度研究團隊分別比較了中英文環境上的模型效果。英文上,ERNIE 2.0在自然語言理解數據集 GLUE 的7個任務上擊敗了 BERT 和 XLNet。中文上,在包括閱讀理解、情感分析、問答等不同類型的9個數據集上超越了 BERT 并刷新了 SOTA。
ERNIE 的工作表明,在預訓練過程中,通過構建各層面的無監督預訓練任務,模型效果也會顯著提升。未來,研究者們可沿著該思路構建更多的任務提升效果。
自2018 年預訓練語言模型 BERT 提出之后,預訓練語言模型將自然語言處理的大部分任務水平提高了一個等級,這個領域的研究也掀起了熱潮。如今可持續學習的特點亦將成為 NLP 領域發展里程中的關鍵。
來源 | 百度AI