当越来越多的AI翻译大模型走向应用落地,如何从使用效果来全面评价AI翻译水平,成为业界的新命题。
近日,首个应用型AI翻译测评榜单TransBench在OpenCompass上线,与传统的翻译测评体系相比,增加了幻觉率、文化禁忌词、敬语规范等指标,首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈,由此来测评大模型是否符合大规模应用的标准。
传统的翻译测评维度主要关注通用质量(如BLEU、COMET),而大模型时代翻译面临幻觉等更多问题。随着AI技术的发展,业内也对大模型翻译效果有了更高的要求,比如要符合不同地区的文化特性、能体现不同行业的语言特色等。
为此,阿里国际的AI Business团队联合上海人工智能实验室、北京语言大学一起,构建了更全面、最新的评测标准和规范,包括:
- 全面的通用标准:不仅包括通用质量,还新增幻觉率和鲁棒性评测;
- 行业垂直标准:首次针对行业的细分领域构建评测数据和评测方法,数据均来自行业细分领域真实数据,并利用语言专家在应用中的标注数据训练面向行业的打分模型;
- 跨文化特性标准:首次提出文化禁忌和敬语规范的评测数据和评测方法。
例如,电商场景下的用户投诉,通常与敬语、禁忌语等相关,这些翻译结果从字面意思看无误,但会直接影响到对话人的体验,应该被纳入到测评的范围中。
为什么是阿里国际推出了AI翻译领域的首个应用型测评榜单?阿里国际旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等电商业务,覆盖全球200多个国家和地区,多语言翻译是助力业务发展的重要一环。去年10月,阿里国际的AI Business团队发布了首个大规模商用的翻译大模型Marco MT,其效果赶超Google、DeepL等头部AI翻译工具。Marco MT的日均调用量6亿次,是电商领域使用量最大的翻译大模型。
基于Marco MT在全球市场的用户反馈,阿里国际推出了此次的测评榜单TransBench,并将TransBench的测评方法进行了开源,希望借此推动业界共建新的大模型标准。目前,TransBench已发布了首期测评结果,欢迎更多的AI翻译机构参与打榜。
根据公开信息,2023年3月,阿里国际成立了AI Business,基于全球化电商场景探索AI技术。现在,阿里国际的所有电商平台均已广泛应用AI能力,已服务了超50万卖家,形成了以服务中小企业出海为核心,覆盖全球多元市场、多种电商模式的规模级AI应用。
今年以来,阿里国际持续加大对AI人才的招募,在最近启动的2026届校招中,80%为AI岗位,包括AI算法、研发、AI产品经理等。
附测评网址:https://transbench.com/#/?lang=zh-cn
