AI翻译哪家强？首个应用型AI翻译测评榜单给出了答案-CSDN.NET

CSDN首页> 业界

订阅业界RSS

AI翻译哪家强？首个应用型AI翻译测评榜单给出了答案

发表于 2025-05-22 15:33:49

当越来越多的AI翻译大模型走向应用落地，如何从使用效果来全面评价AI翻译水平，成为业界的新命题。

近日，首个应用型AI翻译测评榜单TransBench在OpenCompass上线，与传统的翻译测评体系相比，增加了幻觉率、文化禁忌词、敬语规范等指标，首次针对行业的细分领域构建评测数据和评测方法。这些指标均来自真实场景的使用反馈，由此来测评大模型是否符合大规模应用的标准。

传统的翻译测评维度主要关注通用质量（如BLEU、COMET），而大模型时代翻译面临幻觉等更多问题。随着AI技术的发展，业内也对大模型翻译效果有了更高的要求，比如要符合不同地区的文化特性、能体现不同行业的语言特色等。

为此，阿里国际的AI Business团队联合上海人工智能实验室、北京语言大学一起，构建了更全面、最新的评测标准和规范，包括：

全面的通用标准：不仅包括通用质量，还新增幻觉率和鲁棒性评测；
行业垂直标准：首次针对行业的细分领域构建评测数据和评测方法，数据均来自行业细分领域真实数据，并利用语言专家在应用中的标注数据训练面向行业的打分模型；
跨文化特性标准：首次提出文化禁忌和敬语规范的评测数据和评测方法。

例如，电商场景下的用户投诉，通常与敬语、禁忌语等相关，这些翻译结果从字面意思看无误，但会直接影响到对话人的体验，应该被纳入到测评的范围中。

为什么是阿里国际推出了AI翻译领域的首个应用型测评榜单？阿里国际旗下有Aliexpress、Lazada、Alibaba.com、Trendyol及Daraz等电商业务，覆盖全球200多个国家和地区，多语言翻译是助力业务发展的重要一环。去年10月，阿里国际的AI Business团队发布了首个大规模商用的翻译大模型Marco MT，其效果赶超Google、DeepL等头部AI翻译工具。Marco MT的日均调用量6亿次，是电商领域使用量最大的翻译大模型。

基于Marco MT在全球市场的用户反馈，阿里国际推出了此次的测评榜单TransBench，并将TransBench的测评方法进行了开源，希望借此推动业界共建新的大模型标准。目前，TransBench已发布了首期测评结果，欢迎更多的AI翻译机构参与打榜。

根据公开信息，2023年3月，阿里国际成立了AI Business，基于全球化电商场景探索AI技术。现在，阿里国际的所有电商平台均已广泛应用AI能力，已服务了超50万卖家，形成了以服务中小企业出海为核心，覆盖全球多元市场、多种电商模式的规模级AI应用。

今年以来，阿里国际持续加大对AI人才的招募，在最近启动的2026届校招中，80%为AI岗位，包括AI算法、研发、AI产品经理等。

附测评网址：https://transbench.com/#/?lang=zh-cn

CSDN官方微信

扫描二维码,向CSDN吐槽

微信号：CSDNnews

程序员移动端【订阅下载】

微博关注

【免责声明：CSDN本栏目发布信息，目的在于传播更多信息，丰富网络文化，稿件仅代表作者个人观点，与CSDN无关。其原创性以及文中陈述文字和文字内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本网不做任何保证或者承诺，请读者仅作参考，并请自行核实相关内容。您若对该稿件有任何怀疑或质疑，请立即与CSDN联系，我们将迅速给您回应并做处理。】