清華開源世界最大中文預訓練模型,64塊V100耗時3周訓練
昨日清華大學研究團隊發布了以中文為核心的大規模預訓練語言模型CPM-LM,參數規模達26億,預訓練中文數據規模100GB。為訓練該CPM模型,共有64塊V100顯卡投入使用。未來CPM-LM有望在對話系統、推薦搜索、文本處理等領域,與相關企業合作落地。
國產開源中文大規模預訓練模型
自2018年谷歌發布BERT以來,預訓練模型在自然語言處理(NLP)領域逐漸成為主流。但是,目前NLP領域的預訓練模型多針對英語語言,以英語語言數據為訓練數據。
近期,清華大學研究團隊開展了一項名為「清源 CPM (Chinese Pretrained Models)」的大規模預訓練模型開源計劃,旨在構建以中文為核心的大規模預訓練模型。首期開源內容包括預訓練中文語言模型和預訓練知識表示模型,可廣泛應用于中文自然語言理解、生成任務以及知識計算應用,所有模型免費向學術界和產業界開放下載,供研究使用。
清源 CPM 主頁:https://cpm.baai.ac.cn/
清源 CPM Github 托管代碼主頁:https://github.com/TsinghuaAI/
根據清源CPM主頁介紹,該預訓練模型具備以下特點:
模型規模大:本次發布的CPM-LM參數規模達26億,預訓練中文數據規模100GB,使用了64塊V100 GPU,訓練時間約為3周;CPM-KG的參數規模為217億,預訓練結構化知識圖譜為WikiData全量數據,包含近1300個關系、8500萬實體、4.8億個事實三元組,使用了8塊V100 GPU 訓練時間約為2周。
語料豐富多樣:收集大量豐富多樣的中文語料,包括百科、小說、對話、問答、新聞等類型。
學習能力強:能夠在多種自然語言處理任務上進行零次學習或少次學習,并達到較好的效果。
行文自然流暢:基于給定上文,模型可以續寫出一致性高、可讀性強的文本,達到現有中文生成模型的領先效果。
模型效果展示
我們可以從以下示例中,觀察 CPM 預訓練中文語言模型的效果。比如基于對單個常識性問題的學習,依照規律進行提問和正確回答:
根據前文真實的天氣預報,繼續報道天氣預報(不保證正確性):
執行數理推理:
甚至續寫《紅樓夢》片段:
據了解,清源CPM未來計劃開源發布更大規模的預訓練中文語言模型、以中文為核心的多語言預訓練模型、融合大規模知識的預訓練語言模型等。
訓練大型卷積神經網絡
RTX 30比V100更超值
清華大學人工智能系統實驗室是支撐人工智能實踐教學的基礎設施,由30臺GPU工作站集群組成。GPU集群總峰值算力600TFLOPS,可提供多種容器鏡像及不同軟件包環境,快速滿足不同的AI研究與學習用途, 快速搭建模型訓練環境。Cloudhin云軒是清華大學人工智能平臺合作伙伴,GPU集群整體按照院校需求完成適配定制。
目前,新一代Ampere架構可針對AI、數據分析和HPC,在各種規模上實現出色加速。如果你打算訓練大型卷積神經網絡,那么RTX 3090一定比專業卡Tesla V100要好,而且成本方面也更劃算。3090更好的原因在于內存更大,能夠運行比V100更大的網絡。即使在V100上可以小批量進行處理,但3090的速度要更快一些,因此無需縮小批處理大小,選擇3090更加合適。
▲AI Benchmark測試得分排行
Cloudhin?云軒專業售前工程師可為您量身定制深度學習AI服務器/工作站,并可預裝ubuntu、centos、redhat、TensorFlow、cuda、cudnn等軟件環境,讓您收到即用,快速開展實驗項目。目前,我們已通過自主設計,有效解決RTX 30系列GPU多路并行計算散熱以及背部GDDR6X顯存高溫問題。多路RTX 3080/3090 GPU工作站,高??蒲杏脩艨上韺傺a貼,歡迎垂詢。
專業勤修,銳意進取。云軒技術工程師畢業于NVIDIA深度學習研究所,豐富經驗,值得信賴。
如果您有合作需求或寶貴建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:021-5415 5559