Skip to main content

MQM翻译质量评估框架完整指南2025

KTTC Team2025/1/22 min read
mqm翻译质量iso标准lqa质量评估

MQM,全称Multidimensional Quality Metrics(多维质量指标),最早是欧盟QTLaunchPad项目的产物。说白了,它就是一套给翻译质量打分的标准化方法——告诉你翻译哪里出了问题、问题有多严重、该扣多少分。现在ISO已经把它写进了正式标准,成了行业里绕不过去的东西。

这篇文章把MQM的核心概念、评分逻辑和落地方法都讲清楚。

什么是MQM?

MQM是做分析性翻译质量评估(TQE)用的框架。和那种"我觉得翻得还行"的主观审查不同,MQM有一套标准化的错误分类和评分体系,不管谁来评、评哪种语言、评哪个项目,标准是一致的。

它的几个核心特点:标准化的错误分类,带明确定义;三级严重性(严重、主要、次要);可以根据项目需求灵活配置;通过ISO 5060:2024和ISO 11669:2024获得了ISO背书;人工翻译和机器翻译都能用。

2025年为什么还要关注MQM

你想想看,现在GPT-4、Claude这些大模型翻出来的东西读起来特别通顺,但通顺不等于准确。"听起来像人话"和"翻对了"是两回事。我们需要严格的指标去衡量真实质量,MQM就是干这个的。

再说几个现实原因。企业客户越来越挑剔,要求你拿得出可量化的质量数据。新发布的ISO 5060:2024标准直接基于MQM原则。翻译公司也在用MQM客观对比不同译员和MT引擎的表现——谁好谁差,数字说话。

MQM错误类别详解

MQM把翻译错误分成了层级结构。下面是主要的几大类。

准确性错误 (Accuracy)

跟源文本忠实度相关。

错误类型描述示例
误译意义传递不正确"年度报告"译为"月度报告"
遗漏源内容在译文中缺失原文中的句子未翻译
添加源文本中没有的额外内容译员添加了原文没有的解释
未翻译源文本保留在译文中技术术语在中文文本中保留英文

流畅性错误 (Fluency)

目标文本读起来不自然。

错误类型描述示例
语法语法错误主谓不一致
拼写拼写错误错别字
标点标点符号错误复合句中缺少逗号
不一致使用不一致同一术语翻译不同

术语错误 (Terminology)

专业词汇用错了。

错误类型描述示例
术语错误使用了不正确的术语"鼠标"译为"老鼠"
术语不一致同一术语翻译不同"用户界面"和"UI"交替使用

风格错误 (Style)

不符合风格指南。

错误类型描述示例
语域正式程度错误需要正式用语时使用口语
不地道不自然但不算错误直译听起来不自然

本地化错误 (Locale)

地域习惯没对上。

错误类型描述示例
日期格式错误的日期约定中文环境中使用MM/DD/YYYY
货币货币处理不正确人民币金额使用$符号
度量单位错误的单位制使用英里而非公里

MQM严重性级别

每个错误会被打上一个严重性标签,直接影响扣分:

严重性描述典型扣分
严重造成严重危害的错误(法律、安全、财务)25分
主要显著影响理解或可用性的错误5分
次要对理解影响最小的错误1分

怎么判断?问自己三个问题。这个错误会不会导致法律责任、安全风险或重大财务损失?那就是严重。会不会妨碍理解或造成明显混淆?主要。能看出来有问题但不影响读懂?次要。

MQM评分模型

分数算法其实很简单:

MQM分数 = 100 - (总扣分 / 字数 × 100) 

举个例子。一个1000字的文档,查出2个主要错误(5 × 2 = 10分)和5个次要错误(1 × 5 = 5分),总扣分15分。

MQM分数 = 100 - (15 / 1000 × 100) = 98.5

那98.5算好吗?看行业惯例:

分数范围质量等级所需行动
99-100优秀可交付
95-98良好建议少量审查
90-94可接受需要审查和修正
低于90大量修改

怎么在工作流程中落地

第1步:定义你的MQM配置

不是所有项目都需要全套错误类别。营销文案、法律合同、技术手册,侧重点完全不同。根据内容类型、目标受众和质量要求来裁剪。

第2步:培训评估人员

让评估人员理解错误类别的定义、严重性判断标准、以及你项目的特殊要求。MQM评估的一致性全靠这一步——同一个错误,不同人打出不同严重性,分数就没意义了。

第3步:选择样本量

统计上要站得住脚。每个文档至少250-500字,建议覆盖总字数的10-15%。高风险内容(比如药品说明书)就别抽样了,100%过一遍。

第4步:记录和分析结果

单次评估的价值有限。MQM分数随时间积累才能看到趋势——哪类错误反复出现、哪个译员在进步、哪个MT引擎退步了。这些数据才是真正有用的东西。

MQM与其他质量框架对比

MQM与LISA QA模型

方面MQMLISA QA
错误类别全面、层级化固定类别
可定制性高度灵活有限
ISO支持是 (ISO 5060)
行业采用增长中的标准传统

MQM与DQF (TAUS)

MQM和DQF(动态质量框架)其实已经合流了。DQF现在用的就是MQM的错误分类,两者是互补关系,不是竞争关系。

支持MQM的工具

目前市面上支持MQM评估的工具有不少。KTTC提供完整的MQM支持和自动错误检测。Phrase有企业级的MQM实施。TAUS DQF做行业基准测试。memoQ的QA功能内置了MQM类别。选哪个取决于你的具体场景。

FAQ

MQM代表什么?

MQM代表Multidimensional Quality Metrics(多维质量指标)。这是一个使用标准化错误类别和严重性级别来系统评估和衡量翻译质量的框架。

MQM是ISO标准吗?

MQM原则已纳入ISO 5060:2024(翻译质量评估)并与ISO 11669:2024(翻译项目)保持一致。虽然MQM本身是一个框架,但它为这些国际标准提供了错误分类的基础。

MQM有多少个错误类别?

完整的MQM框架包含100多种分层组织的错误类型。然而,大多数实施使用与其特定用例相关的20-40个类别的子集。主要的顶级类别是:准确性、流畅性、术语、风格和本地化约定。

MQM可以用于机器翻译评估吗?

是的,MQM广泛用于机器翻译评估。WMT(机器翻译研讨会)共享任务使用基于MQM的标注进行机器翻译系统的人工评估。MQM有助于客观比较不同引擎的机器翻译输出。

什么是好的MQM分数?

好的MQM分数取决于内容类型和用例。一般来说,95分以上被认为是可发布质量,90-95分对于大多数目的是可接受的,90分以下通常需要修订。法律或医疗文档等关键内容通常需要99分以上。

往前看

MQM给翻译行业提供了一把严格的尺子。AI翻译越来越普及,客户对质量的要求只会更高,有一套客观的评估方法就不是"锦上添花"而是"必需品"了。

不管你是评估供应商的翻译公司、提质量要求的甲方,还是想精进手艺的译者——搞懂MQM都值得投入时间。我觉得接下来几年,不懂MQM的从业者会越来越被动。

想在工作流程中试试MQM?用KTTC跑一次基于MQM的质量评估,感受一下客观指标带来的区别。

We use cookies to improve your experience. Learn more in our Cookie Policy.