近日,騰訊云小微提出的多語(yǔ)言預訓練模型“神農MShenNonG”以平均分85分的成績(jì)登頂XTREME榜單。與此同時(shí),該模型僅包含5億級別的小參數量,也一舉刷新業(yè)界記錄。
據了解,該榜單是目前最受?chē)鴥韧庑袠I(yè)公司認可的多語(yǔ)言評測榜單,研究人員以多語(yǔ)言預訓練模型在此榜單的表現作為其跨語(yǔ)言遷移能力的評價(jià)標準。
目前,全球有超過(guò)6900種語(yǔ)言,其中大多數語(yǔ)種都沒(méi)有足夠的數據支撐研究者將其單獨訓練成成熟模型。騰訊云小微深耕知識挖掘、語(yǔ)義理解技術(shù)以及預訓練技術(shù),“神農MShenNonG”此次登頂XTREME榜單,代表了其從單語(yǔ)言到多語(yǔ)言理解能力的一個(gè)顯著(zhù)擴展,將跨語(yǔ)言遷移開(kāi)發(fā)由市場(chǎng)平均的月級降低至10天。同時(shí),“神農”系列的預訓練模型已應用于云小微全系列產(chǎn)品矩陣,可顯著(zhù)提升AI語(yǔ)音助手、智能客服機器人、數智人等產(chǎn)品的多項技術(shù)指標,助力出海企業(yè)快速落地本地化服務(wù)。
刷新行業(yè)記錄,跨語(yǔ)言遷移開(kāi)發(fā)周期縮短至10天
(資料圖片僅供參考)
憑借對自然語(yǔ)言應用程序等領(lǐng)域發(fā)展研究的積極作用,XTREME榜單備受業(yè)界認可。
由于大多數的NLP預訓練模型主要為中文、英文等高資源語(yǔ)種,低資源小語(yǔ)種的研究并未得到足夠重視。2020年,來(lái)自 CMU、谷歌研究院和 DeepMind的科學(xué)家們提出了覆蓋四十種語(yǔ)言、橫跨了12個(gè)語(yǔ)系的大規模多語(yǔ)言多任務(wù)基準 XTREME,其中包含了9項需要不同句法或語(yǔ)義層面進(jìn)行推理的任務(wù),并可以為語(yǔ)句文本分類(lèi)、結構預測、語(yǔ)句檢索和跨語(yǔ)言問(wèn)答等自然語(yǔ)言處理任務(wù)提供有效支持。
此次登頂XTREME榜單,主要是由于“神農MShenNonG”在以下三個(gè)不同維度做了創(chuàng )新性的嘗試。
首先,在數據層面,預訓練模型的訓練數據主要由兩種形式的數據構成:單語(yǔ)種句子和雙語(yǔ)平行句對。此前的模型處理方法是,對于單語(yǔ)種句子,單純地將單語(yǔ)種信息輸入模型,并以MLM作為訓練目標,非常依賴(lài)相似語(yǔ)系之間“共享詞”的預測來(lái)建模各語(yǔ)言間的語(yǔ)義對齊關(guān)系;對于平行句對,又依賴(lài)平行語(yǔ)料的規模和組合,模型對其對齊關(guān)系的建模存在一定缺陷。為緩解以上問(wèn)題,騰訊云小微研究團隊提出了基于混合編碼的數據構造方式,分別利用雙語(yǔ)對齊詞典和句子檢索工具,構造大量的“多語(yǔ)言混合”訓練數據。
其次,在模型層面,研究團隊提出了一種可插拔的、基于多尺度的多語(yǔ)言信息融合模塊,分別從詞級別和句子級別多個(gè)尺度融入多語(yǔ)言信息,期望在訓練過(guò)程中,加強所有語(yǔ)種的詞向量的更新和對齊,解決多語(yǔ)言模型對低資源語(yǔ)種、低頻次詞匯建模較弱的問(wèn)題。
第三,在訓練方式上,研究團隊分別通過(guò)語(yǔ)種層面和語(yǔ)義層面引入對比學(xué)習策略,使得相同語(yǔ)義的表示相互拉近,不同語(yǔ)義的表示相互遠離,進(jìn)一步強化多語(yǔ)言預訓練模型對于多語(yǔ)言的語(yǔ)義建模能力和語(yǔ)義匹配能力。
值得注意的是,研究團隊重視多尺度的多語(yǔ)言的一致性建模,以強化預訓練模型的跨語(yǔ)言遷移能力,并將跨語(yǔ)言遷移開(kāi)發(fā)由市場(chǎng)平均的月級降低至周級,同時(shí),相較市場(chǎng)平均1個(gè)月以上的模型迭代周期,“神農MShenNonG”僅需10天。
多次登頂權威榜單神農以技術(shù)優(yōu)勢探索出海場(chǎng)景
“神農MShenNonG”登頂XTREME榜單,依托于騰訊云小微團隊技術(shù)研發(fā)和行業(yè)知識的長(cháng)期積累。此前,騰訊云小微的中文預訓練模型ShenNonG就以十億級參數量一舉登頂CLUE總排行榜、1.1分類(lèi)任務(wù)、閱讀理解任務(wù)和命名實(shí)體任務(wù)四個(gè)榜單,刷新行業(yè)記錄。
專(zhuān)注于語(yǔ)義理解技術(shù)以及預訓練技術(shù)的研發(fā),此次登頂XTREME榜單代表了騰訊云小微從單語(yǔ)言到多語(yǔ)言理解相關(guān)技術(shù)的一個(gè)擴展。目前,“神農”系列的預訓練模型已應用于全系列產(chǎn)品矩陣,可顯著(zhù)提升AI語(yǔ)音助手、智能客服機器人、數智人等產(chǎn)品的多項技術(shù)指標。
隨著(zhù)開(kāi)發(fā)的不斷成熟,優(yōu)勢產(chǎn)品向海外拓展成為不少?lài)鴥绕髽I(yè)的選擇。但產(chǎn)品出海通常要面臨適應新語(yǔ)種、業(yè)務(wù)本地化的挑戰。過(guò)往,以機器翻譯的方式將單語(yǔ)種遷移到多語(yǔ)言場(chǎng)景,不僅費時(shí)費力,效果也差強人意。相對于傳統的機器翻譯模式,騰訊云小微“神農MShenNonG”預訓練模型有著(zhù)低成本、低門(mén)檻的優(yōu)勢,以輕量參數為多行業(yè)、小語(yǔ)種提供跨語(yǔ)言遷移服務(wù),助力企業(yè)降本增效,落地出海業(yè)務(wù)。
未來(lái),騰訊云小微團隊還將持續深耕知識挖掘和深度學(xué)習技術(shù),探索更多技術(shù)落地場(chǎng)景,以科技助力各行業(yè)的企業(yè)更好地服務(wù)用戶(hù),為社會(huì )創(chuàng )造更多價(jià)值。
免責聲明:本文不構成任何商業(yè)建議,投資有風(fēng)險,選擇需謹慎!本站發(fā)布的圖文一切為分享交流,傳播正能量,此文不保證數據的準確性,內容僅供參考
關(guān)鍵詞: