近期, 火山翻譯官網(wǎng)上新了包括世界語、塔希提語、韃靼語等在內(nèi)的38個稀有語種的翻譯。目前,包括漢語、英語、阿拉伯語、俄語、法語、西班牙語六個通用語種在內(nèi),火山翻譯已具備94個語種、8742個語向的翻譯能力,整體 bleu(機器翻譯質(zhì)量自動評估指標(biāo))達33.45,處于行業(yè)領(lǐng)先水平。
據(jù)了解,通過采用自研的 mRASP 多語言模型,火山翻譯僅使用一個模型就完成了上述38個語種與英文的雙向互譯,突破了傳統(tǒng)雙語言翻譯模型對每個語向單獨訓(xùn)練、單獨上線服務(wù)的方式,大幅降低機器學(xué)習(xí)的訓(xùn)練和服務(wù)成本。
“通常情況下,訓(xùn)練76個語向的雙語言模型需要150-200天。而相同硬件條件下,訓(xùn)練一個多語言模型只需要30天?!被鹕椒g團隊介紹,“對于請求量小的語種,使用 mRASP 模型集中服務(wù)可以大大節(jié)省計算資源,僅需半張用于深度學(xué)習(xí)訓(xùn)練的 Tesla T4 顯卡就可以滿足38個語言的全部翻譯請求,和雙語翻譯所需的資源一樣?!?/p>

圖說:藍色部分為火山翻譯上新的38個語種
由于稀有語種缺少訓(xùn)練用的平行語料,翻譯質(zhì)量往往容易大打折扣?;鹕椒g通過 mRASP 中的對比學(xué)習(xí)和詞對齊信息,可以很好地借助單語語料和其他擁有豐富語料的語種來幫助訓(xùn)練,彌補訓(xùn)練數(shù)據(jù)的不足。數(shù)據(jù)顯示,火山翻譯此次上新的稀有語種平均 bleu 值達33.36,其中,海地語翻譯表現(xiàn)最為突出,bleu 值達50.76。
火山翻譯由字節(jié)跳動 AI Lab 研發(fā)。2021年,火山翻譯憑借“并行翻譯”技術(shù)一舉打破了“自回歸式”技術(shù)在機器翻譯領(lǐng)域的絕對統(tǒng)治地位,奪得國際機器翻譯大賽(WMT)德語到英語方向機器翻譯冠軍;此前,火山翻譯已在WMT中榮獲7項冠軍, 并斬獲了平行語料過濾對齊項目的2項第一。
目前,火山翻譯擁有火山同傳、機器翻譯與視頻翻譯三大產(chǎn)品,支持飛書、今日頭條、西瓜視頻等業(yè)務(wù)的翻譯需求,并通過字節(jié)跳動旗下的企業(yè)級技術(shù)服務(wù)平臺火山引擎對外提供翻譯服務(wù)。