資訊

首個兩千億參數中文預訓練語言模型 “盤古α” 全開源至啟智社區

2021-04-27 09:33:08

2021年4月26日，在深圳召開的HDC全球開發者大會上，鵬城實驗室鵬城云腦技術總師、北京大學田永鴻教授發布了業界首個全開源2000億參數中文預訓練語言模型“盤古α”。這是國產全棧式AI基礎設施支持2000億級超大規模語言模型訓練的第1次，探索并驗證了國產E級智算平臺在軟硬件協同優化、大規模分布式并行訓練等核心關鍵技術的可行性。代碼、模型、評測數據集全部同步在OpenI啟智社區全面開源開放，訓練語料和在線服務體驗將在測試評估優化后開源開放。

田永鴻介紹，基于鵬城云腦II大科學裝置，“盤古α”形成了國產自主可控的通用超大規模分布式訓練基座及相關核心技術，由鵬城實驗室聯合諾亞方舟實驗室、Mindspore團隊以及北京大學組建的技術聯合攻關團隊，經過數月的艱苦工作，開發完成了“盤古α”模型，模型在16個下游任務中大部分指標優于SOTA模型，其中零樣本學習任務11個任務領先，單樣本學習任務12個任務領先，小樣本學習任務13個任務領先。

鵬城云腦技術總師田永鴻介紹“盤古α”

田永鴻表示，為了訓練“盤古α”這樣的超大規模參數的模型面臨諸多挑戰，以鵬城實驗室為首的聯合攻關團隊做了許多的創新：首先構建了一個大規模中文訓練語料收集與自動化處理平臺，從近80TB多源文本數據中通過過濾、查重和模型評估提煉了近1.1TB高質量的訓練語料，為超大規模語言模型的訓練奠定了很好的基礎；從模型本身上提出了隨機順序自回歸訓練的模型ALM，提升了算法小樣本學習能力；MindSpore的多維度混合自動并行從工程上大幅提升了在大規模集群上自動訓練的效率；在OpenI啟智社區實現“盤古α”數據、算法、模型和服務的逐步全面開源開放，希望以啟智開源社區為載體，集眾智、聚眾力，吸引開發者共同參與到模型的壓縮輕量化和應用創新工作中，不斷探索“盤古α”模型的強大潛力。

OpenI啟智社區是在國家實施新一代人工智能發展戰略背景下，新一代人工智能產業技術創新戰略聯盟（AITISA）組織產學研用協作共建共享的開源平臺，旨在以鵬城云腦重大科研基礎設施及Trustie軟件開發群體化方法與平臺為基礎，全面推動人工智能領域的開源開放協同創新。“盤古α”的全面開源開放旨在通過以大模型為基礎，在探索通用智能的道路上不斷前進，打通大規模AI設備集群和通用性軟硬件生態協同的屏障，形成國產自主可控的通用超大規模分布式訓練基座及相關核心技術。同時通過支持開源開放、賦能相關產業界的應用創新和基礎研究的不斷協同進步。

“盤古α”開源地址：https://git.www.cfcf666.com/PCL-Platform.Intelligence/PanGu-Alpha

撰稿：網絡智能部陶恒韜趙海英

啟智社區，確實給力

資訊

首個兩千億參數中文預訓練語言模型 “盤古α” 全開源至啟智社區