字节跳动火山翻译上新 38 个稀有语种,自研训练模型效率提升超 500%
2021 年 12 月,字节跳动旗下的火山翻译官网,上新了包括世界语、塔希提语、鞑靼语等在内的 38 个稀有语种的翻译。目前,包括汉语、英语、阿拉伯语、俄语、法语、西班牙语六个通用语种在内,火山翻译已具备 94 个语种、8742 个语向的翻译能力,整体 bleu(机器翻译质量自动评估指标)达 33.45,处于行业领先水平。
▲ 蓝色部分为火山翻译上新的 38 个语种
据了解,通过采用自研的 mRASP 多语言模型,火山翻译仅使用一个模型就完成了上述 38 个语种与英文的双向互译,突破了传统双语言翻译模型对每个语向单独训练、单独上线服务的方式,大幅降低机器学习的训练和服务成本。
“通常情况下,训练 76 个语向的双语言模型需要 150-200 天。而相同硬件条件下,训练一个多语言模型只需要 30 天。”火山翻译团队介绍,“对于请求量小的语种,使用 mRASP 模型集中服务可以大大节省计算资源,仅需半张用于深度学习训练的 Tesla T4 显卡就可以满足 38 个语言的全部翻译请求,和双语翻译所需的资源一样。”
IT之家了解到,火山翻译通过 mRASP 中的对比学习和词对齐信息,可以很好地借助单语语料和其他拥有丰富语料的语种来帮助训练,弥补训练数据的不足。数据显示,火山翻译此次上新的稀有语种平均 bleu 值达 33.36,其中,海地语翻译表现最为突出,bleu 值达 50.76。
目前,火山翻译拥有:火山同传、机器翻译与视频翻译三大产品,支持飞书、今日头条、西瓜视频等业务的翻译需求,并通过字节跳动旗下的企业级技术服务平台火山引擎对外提供翻译服务。
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
LG新能源计划投资7.2万亿韩元在美国亚利桑那州新建一座电池厂
分析师称苹果计划推出USB-C充电盒版AirPods Pro 2
消息称三星将自研移动GPU 减少对ARM Mali GPU依赖
马云现身杭州云谷学校,证实回国传闻!还首次谈到ChatGPT
消息称苹果已向100名顶级高管演示MR头显 还是在乔布斯剧院
推特部分源代码遭泄露 相关责任人可能于去年离职
特斯拉柏林超级工厂Model Y周产量再上一层楼 已达到5000辆
iPhone 15全系标配USB-C接口:但传输速率可能并不一致
华为P60系列支持数字人民币无电支付:没电没网也不怕
更多
- 百望云发布数智化创新解决方案 CEO杨正道:做企业业财税融服务的Copilot
- “摩尔定律”提出者 戈登•摩尔先生逝世
- 山东大学-飞桨人工智能教育创新中心正式挂牌 助力山东AI人才培养
- 马云现身杭州云谷学校,证实回国传闻!还首次谈到ChatGPT
- 映宇宙2022年营收63.19亿元 经调整净利润3.88亿元
- 快狗打车2022年经调亏损2.289亿元 同比收窄17.5%
- 启明创投邝子平:新一代人工智能将颠覆搜索、教育等行业
- OceanBase 4.1版本正式发布 持续降低使用门槛
- 第六届中国“网络文学+”大会优秀网络文学作品揭晓:《何日请长缨》等3部阅文作品入选
- 阿维塔11单电机版发布:全系标配HI华为全栈智能汽车解决方案31.99万元起售
更多
- 分析师预计三星电子芯片业务一季度将亏损3.3万亿韩元
- LG新能源计划投资7.2万亿韩元在美国亚利桑那州新建一座电池厂
- 分析师称苹果计划推出USB-C充电盒版AirPods Pro 2
- SK海力士已将全球销售和营销团队迁至首尔
- 消息称三星将自研移动GPU 减少对ARM Mali GPU依赖
- 消息称苹果已向100名顶级高管演示MR头显 还是在乔布斯剧院
- 推特部分源代码遭泄露 相关责任人可能于去年离职
- 特斯拉柏林超级工厂Model Y周产量再上一层楼 已达到5000辆
- ChatGPT漏洞致部分用户信息泄露 OpenAI向用户和ChatGPT社区致歉
- 丰田正同LG新能源就潜在合作进行谈判 包括成立合资企业