資訊

2019 自然語言處理前沿論壇成功舉辦，百度 NLP 技術全揭秘

2019-06-04 16:50:50

近日，由百度聯合中國計算機學會中文信息技術專委會、中國中文信息學會青工委舉辦的「2019 自然語言處理前沿論壇」上，來自百度和各大高校的嘉賓們分享了關于 NLP 技術研究的心得體會。

本次論壇主題為「機器之‘讀、寫、說、譯’—— 探尋 NLP 未來之路」，來自百度的嘉賓們分別在語義計算、自動問答、語言生成、人機對話和機器翻譯 5 場專題報告中分享了百度 NLP 技術的研究成果與應用。

語義計算

百度 NLP 主任研發架構師、語義計算技術負責人孫宇：百度語義計算技術及其應用

孫宇主要介紹了百度語義表示技術的發展和研究成果、落地情況。

他表示，百度的語義計算方向包括語義表示學習、語義匹配計算、語義解析、多模態語義計算。計算機理解人類語言是一件非常有挑戰性的事情。

語義表示技術存在的問題是，自然語言存在基本單元一詞多義、多詞同義、句子表述無限等特性。而我們的目標是將語言符號“表示”為另一種形式，這種表示具有語義上的等價性，更好的可計算性，更好地把握語義信息。

百度早期的語義表示技術采用的是基于檢索和主題模型的表示方法，包括 Term 向量表示、PLSA、LDA等。

在 2013~2016 年，隨著基于 DNN 表示技術的興起，百度開始了 word embedding 的研究。采用的算法是 RNNLM + Hierarchical softmax，其規模達到 1T 百度網頁數據，100 萬超大規模中文詞覆蓋，主要研究問題是解決大規模分布式計算問題。2017 年，百度進行了基于大規模表示遷移在口語理解任務的探索。

語義匹配方面，百度 2013 年率先提出了 SimNet 技術，并成功用于網頁搜索，在未來的幾年中，對該技術做了很多改進創新，包括數據分析、粒度知識融合、交互式匹配模型等方面的創新。SimNet 顯著改善了長冷 query 的搜索效果，提升了搜索智能化的水平，在百度搜索發揮至關重要的作用。當前，SimNet 語義匹配技術在百度各產品廣泛應用。

現在，百度的最新研究是提出了知識增強的語義表示模型 ERNIE 并發布了基于 PaddlePaddle 的開源代碼與模型。框架包括基于海量百科、新聞、對話多源數據訓練，雙向多層 Transformer的語義建模模型，融合并強化中文詞、實體等先驗語義知識學習，多階段知識學習。在自然語言推斷、語義相似度、命名實體識別、情感分析、問答匹配等多個公開的中文數據集合上進行實驗，均取得了最好的效果。

百度接下來的主要工作還是會以語義表示為重點突破方向，包括知識的利用，自監督任務的學習，弱監督信號的利用，多語言、跨模態表示等。

自動問答

百度 NLP 資深研發工程師、閱讀理解與問答技術負責人劉璟：百度閱讀理解技術研究及應用

機器閱讀理解是指讓機器閱讀文本，然后回答和閱讀內容相關的問題。機器閱讀理解是自動問答的關鍵技術之一，該技術可以廣泛應用于智能問答、智能音箱、智能客服等產品中，因此長期以來受到學術界和工業界的廣泛關注。得益于近兩年閱讀理解技術的快速進步，百度已將這一技術應用到智能問答中。

百度主要研發了面向搜索場景的多文檔閱讀理解模型 V-NET，以及知識表示和文本表示融合模型 KT-NET。

面向搜索場景的多文檔閱讀理解中，每個問題包含了多個段落，因此通常存在歧義信息較多的挑戰。對此，百度研發了端到端的多文檔閱讀理解模型 V-NET，該模型在英文多文檔閱讀理解數據集 MSMARCO V2 問答任務上三次排名第一。

此外，機器閱讀理解不僅要求機器理解給定的文本內容，還要求機器具備外部知識以支撐更為復雜的推理。為此，百度開創性地提出了語言表示與知識表示的深度融合模型 KT-NET，同時借助語言和知識進一步提升機器閱讀理解的效果。KT-NET 目前是常識推理閱讀理解數據集 ReCoRD 榜單上排名第一的模型。

除了在技術上不斷投入研發，百度在去年推出了面向搜索場景的最大規模的中文閱讀理解數據集 DuReader 2.0，規模包含了 30 萬問題和 150 萬文檔和 66 萬答案。百度、中國計算機學會和中文信息學會連續兩年舉辦了基于 DuReader 數據集的機器閱讀理解評測，推動了中文閱讀理解技術的進步。

語言生成

百度 NLP 主任研發架構師、篇章理解與語言生成技術負責人肖欣延：自然語言生成，助力智能內容創作

肖欣延表示，隨著內容生態和智能交互的發展，自然語言生成得到越來越多的關注。一方面自然語言生成能夠幫助內容創作者提升創作效率，另一方面，也能夠用來改善交互的用戶體驗。

自然語言生成的愿景是，讓機器像人類一樣去表達和創作。具體來看，它包含很多類型的任務，包括數據到文本的生成、文本到文本的生成、詩歌對聯的生成、多模生成、跨語言生成、對話生成等任務。此次報告中，主要從前面四個任務，介紹自然語言生成在內容創作的技術及應用。

首先是數據到文本的生成。這里展示了具體的足球比賽快訊生成樣例。傳統的方法是基于宏觀規劃、微觀規劃、表層實現的句法樹生成算法，這種算法效果可控，在業務中十分實用。同時報告中也介紹了基于深度學習的方法。方法是將宏觀規劃融合到層次化序列生成算法中，在公開測試集效果不錯。

其次是文本到文本的生成。這里展示了基于摘要聚合的寫作，能夠快速對熱點進行綜述報道。其中的核心技術是摘要技術。傳統而實用的方法主要是抽取式的算法，通過文檔分析、句子排序、句子選擇、摘要構建輸出摘要。百度同時也創新提出了基于信息選擇網絡的生成式摘要，并在公開主流數據上得到不錯的實驗效果。

第三是創意寫作，包括詩歌和對聯生成。百度創新提出了基于規劃的神經網絡，并用于詩歌生成。目前基于神經網絡生成算法，在寫詩寫對聯上已經都比較實用。

最后一個任務是多模生成。百度初步嘗試了基于視頻的寫作，通過多模理解技術，如視頻理解、觀點分析、知識圖譜的技術，獲得視頻的結構化、半結構化表示，然后在利用前面所述的基于數據的生成，撰寫出內容豐富的文章。
肖欣延接著討論了智能寫作和人工撰寫的關系。智能寫作通過大數據分析，獲取熱點素材，然后快速根據數據生成報道，但是它生成的報道格式比較固定。而人類寫作時，在看到數據或事物之后，會產生各種演繹和聯想，深度挖掘各種題材，因而寫作形式也多種多樣。所以，從整體上來看，機器和人的差距依然存在，智能寫作不能完全取代作者，而應該和作者分工合作。

為此百度推出了智能寫作平臺，提供自動寫作和輔助寫作的能力，進而幫助創作者提升內容創作的效率和質量，為智能創作領域提供更多可能。目前已經可以通過百度的 AI 平臺進行訪問。

談到未來，他表示有很多比較看好的應用。一方面，寫作將會更加自動、更生動、更有深度；另一方面，基于神經網絡的生成模型會逐漸實用化；在媒體行業，智能寫作會廣泛的落地，成為人類創作的助手；在智能交互家居中，語言生成技術也能夠很好的提升用戶的交互體驗。

人機對話

百度 NLP 主任研發架構師、UNIT 技術負責人孫珂博士：對話系統的應用技術探索

近幾年來，隨著智能對話逐步深入到各行各業，用戶已經可以在車載、音箱、客服、機器人等場景感受到智能對話給大家的生活帶來的便捷與改變。

然而，隨著智能對話技術產業化落地的進一步深入，也面臨了更多的挑戰。例如對話系統的建設成本與效率是企業面臨的很大挑戰，企業需要投入大量人力和時間進行數據積累與整理、同時也要為高質量的效果與復雜系統集成付出較多的成本。

據此，百度基于多年積累的自然語言理解與交互技術、深度學習、大數據等核心能力，打造了智能對話系統定制與服務平臺 UNIT，幫助開發者降低對話系統研發門檻，精確適配業務需求，訓練自己的對話系統。

在 UNIT 平臺中，集成了目前工業級研發比較成熟的三種主流對話系統技術，包括任務型對話系統、問答型對話系統和閑聊型對話系統。孫珂博士重點介紹了其中的任務型對話系統的實現。據介紹，在任務型對話系統中，對話理解的深度與系統的實現成本是百度 UNIT 關注的核心問題。UNIT 通過融合語義表示預訓練模型 ERNIE 的對話理解模型和數據輔助生產工具 DataKit，綜合節省了 60% 的任務式對話系統研發成本。

除此之外， UNIT 還針對理解中的常見錯誤，總結抽象了 15 套對話容錯機制，并將其標品化，據介紹，該機制可以通過簡單的澄清反問，大幅提升對話理解的整體達成效率。

最后，孫珂博士還展示了 UNIT 基于閱讀理解技術為開發者搭建的對話式文檔問答技術。通過該技術，開發者只需上傳業務文檔并一鍵訓練，即可在1分鐘內快速定制問答系統。

機器翻譯

百度人工智能技術委員會主席何中軍：機器同傳進展與展望

同聲傳譯最早出現在 1919 年，它最突出的特點是時間延遲小，信息傳遞效率非常高，因此被廣泛的應用于重要國際會議、外交談判等重要場景。在同聲傳譯的過程中，同聲譯員需要全神貫注地進行監聽，工作強度極高。由于苛刻的要求，全球同傳譯員稀缺。與巨大的市場需求相比，人才嚴重短缺。

目前，機器同聲傳譯技術面臨著三大挑戰，一是技術挑戰，二是數據挑戰，三是評價挑戰。

技術挑戰方面，第一個問題是噪聲問題，由于說話人的口音、語速、現場會議噪聲等因素，使得語音識別的結果存在錯誤。第二個問題是斷句，需要對語音識別后的結果進行分句并加上標點。第三個問題是，時間延遲與準確率存在矛盾。如果要提高準確率，就需要等待說話人的具體意思表達完整之后再進行翻譯，時間延遲就會比較高。第四個問題是翻譯的連貫性。同傳的主要場景是對演講者的內容進行實時翻譯，需要保證翻譯前后內容的連貫和一致。

第二是數據挑戰。面向真實場景的訓練數據只有幾十到幾百個小時，這么少的數據對于訓練一個高質量的同傳系統而言遠遠不夠。

第三是評價挑戰。在文本翻譯的時候，我們有足夠的時間去思考、潤色和加工。而在同聲傳譯時，實時性非常強，所采用的翻譯方式與文本翻譯不同。針對文本的評價方式不適用于評價同傳。

針對語音識別錯誤的問題，百度提出了聯合詞向量編碼模型。這個模型非常簡單，就是在原來文本向量的基礎上引入了音節向量，使得模型具有了一定的容錯能力。

百度還提出了可控時延的翻譯模型，來解決時間延遲的問題。在傳統的文本翻譯過程中，我們要等待一個句子完全輸入完畢以后才能進行翻譯。百度從同傳譯員那里獲得靈感，提出了一個可以預測的模型，在原始句子只輸入幾個字以后，就可以開始預測和翻譯。

在語篇翻譯方面，百度提出了多輪解碼策略，第一遍首先進行傳統的粗解碼，在這個基礎上，再結合句子的上下文進行第二遍精細解碼。同時，引入了強化學習策略，對產生的句子進行反饋和優化，以進一步提升句子之間的流暢度。

此外，在端到端機器同傳模型方面，百度提出基于知識蒸餾的同傳模型。利用大規模文本翻譯語料訓練一個教師模型，去優化端到端的同傳翻譯模型。該模型可以有效克服數據稀疏問題，顯著提升翻譯質量。

為推動機器同傳技術發展，百度翻譯聯合 CCMT2019（全國機器翻譯研討會）推出全球首個面向真實場景的中英同傳評測任務，同時發布了首個真實演講場景的中英同傳數據集 CCMT2019-BSTC，兩項工作都將極大地推動同聲傳譯的相關研究和發展。

何中軍表示，未來，機器同傳可以從以下三個方面開展工作，在模型方面，研究高魯棒、低時延的同傳模型；在數據方面，建設大規模面向真實場景的同傳數據；在評價方面，建立面向同傳的評價體系和標準。

來源 | 雷鋒網
作者 | 王雪佩

啟智社區，確實給力

資訊

2019 自然語言處理前沿論壇成功舉辦，百度 NLP 技術全揭秘