7天8卡訓練32種語言,深度學習打造機器翻譯“天才”
機器翻譯對于信息時代下海量信息的捕獲無疑具有重要作用,事實上,人們對于機器翻譯的需求也與日俱增,比如不同語言間交流信息、海內外文學作品的專業翻譯等等。一個理想的模型是一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平,EMNLP 2020的多語言翻譯新范式mRASP就成功實現了這一理想模型。
機器翻譯界的“趙元任”
1920 年哲學家羅素來中國各地訪問,陪同翻譯的是當時清華大學語言學家趙元任。趙元任極富語言天才,當時已經會說保定話、常州話、福州話、南京話等多地方言和英語。他在陪同羅素從上海到長沙的船上跟同船的經濟學家楊瑞六學長沙話,船到長沙靠岸,趙元任已經能把羅素的演講和俚語翻譯成長沙話了。神經網絡翻譯能否成為「機器翻譯界的趙元任」呢?即創造一個統一的具備多種語言能力的模型,在遇到新的語言時,臨時少量學習即可達到很流利的語言水平。
趙元任(后排左二)與羅素(前排右一)
EMNLP 2020新鮮出爐的多語言翻譯新范式 (mRASP),其核心思想是打造「機器翻譯界的趙元任模型」,通過預訓練技術再在具體語種上微調即可達到領先的翻譯效果,其在32個語種上預訓練出的統一模型在47個翻譯測試集上取得了全面顯著地提升。
7天8卡快速訓練
字節跳動已應用
mRASP主要針對機器翻譯任務而設計,它有三個應用優勢:
打破了資源場景的限制。不論平行雙語資源高低都能有所提升。在低資源語言中,mRASP的表現令人驚喜,極端情況下,只需要一萬句訓練數據,通過10分鐘微調訓練,就能得到一個還不錯的翻譯系統。
打破了語種數量的限制。任何語言的翻譯,無論是孟加拉語到古吉拉特語還是印地語到菲利賓語,只要是地球上的語言,mRASP都可以直接拿來微調,并且效果可期。
資源消耗低。相比于上百張卡的「軍備競賽」預訓練玩法,mRASP更平民,僅需要8卡訓練一周就可以得到。簡單來說,我們可以把mRASP理解為機器翻譯領域的輕量級BERT,只要是機器翻譯任務,任何場景或者語言,拿來用用,都有可能出現小驚喜!
論文作者表示已經在字節跳動研發的火山翻譯系統上使用了這項技術,得到了實際業務的檢驗。作者還公布了研究數據、代碼和預訓練模型,參見下方GitHub地址。
Github 地址:https://github.com/linzehui/mRASP
論文地址:https://arxiv.org/abs/2010.03142
定制RTX30液冷服務器
穩定加速訓練神經網絡
Cloudhin?云軒專業售前工程師可為您量身定制深度學習AI服務器/工作站,并可預裝ubuntu、centos、redhat、TensorFlow、cuda、cudnn等軟件環境,讓您收到即用,快速開展實驗項目。
針對深度學習機器發熱量大、散熱難、噪音刺耳的問題,Cloudhin?云軒研發組排除重重苦難,歷時數百個小時的打磨迭代和反復測試,率先全國推出8路RTX 30機架式GPU液冷服務器!有效解決RTX 30系列GPU多路并行計算散熱以及背部GDDR6X顯存高溫問題。大幅提升RTX 30系列并行計算功率密度,具有更高性能、更低能耗、更低成本、更為可靠的特點。
通過定制化高質量液冷系統使GPU和處理器可超頻工作,進而獲得更強性能。每個服務器機架的硬件包裝密度可最大化,即使在連續負載下,也可調出硬件的最佳性能而無需擔心任何散熱問題。廣泛應用于3D渲染、深度學習、3D CAD、科學計算等領域。
專業勤修,銳意進取。云軒技術工程師畢業于NVIDIA深度學習研究所,豐富經驗,值得信賴。
如果您有合作需求或寶貴建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:021-5415 5559