鵬程·盤古α是業(yè)界首個2000億參數(shù)以中文為核心的預(yù)訓(xùn)練生成語言模型,目前開源了兩個版本:鵬程·盤古α和鵬程·盤古α增強版,并支持NPU和GPU兩個版本,支持豐富的場景應(yīng)用,在知識問答、知識檢索、知識推理、閱讀理解等文本生成領(lǐng)域表現(xiàn)突出,具備較強的少樣本學(xué)習(xí)的能力。
基于盤古系列大模型提供大模型應(yīng)用落地技術(shù)幫助用戶高效的落地超大預(yù)訓(xùn)練模型到實際場景。整個框架特點如下:
主要有如下幾個核心模塊:
數(shù)據(jù)集:從開源開放數(shù)據(jù)集、common crawl數(shù)據(jù)集、電子書等收集近80TB原始語料,構(gòu)建了約1.1TB的高質(zhì)量中文語料數(shù)據(jù)集、53種語種高質(zhì)量單、雙語數(shù)據(jù)集2TB。
基礎(chǔ)模塊:提供預(yù)訓(xùn)練模型庫,支持常用的中文預(yù)訓(xùn)練模型,包括鵬程·盤古α、鵬程·盤古α增強版等。
應(yīng)用層:支持常見的NLP應(yīng)用比如多語言翻譯、開放域?qū)υ挼龋С诸A(yù)訓(xùn)練模型落地工具,包括模型壓縮、框架移植、可持續(xù)學(xué)習(xí),助力大模型快速落地。