MQM翻译质量评估框架完整指南2025
MQM,全称Multidimensional Quality Metrics(多维质量指标),最早是欧盟QTLaunchPad项目的产物。说白了,它就是一套给翻译质量打分的标准化方法——告诉你翻译哪里出了问题、问题有多严重、该扣多少分。现在ISO已经把它写进了正式标准,成了行业里绕不过去的东西。
这篇文章把MQM的核心概念、评分逻辑和落地方法都讲清楚。
什么是MQM?
MQM是做分析性翻译质量评估(TQE)用的框架。和那种"我觉得翻得还行"的主观审查不同,MQM有一套标准化的错误分类和评分体系,不管谁来评、评哪种语言、评哪个项目,标准是一致的。
它的几个核心特点:标准化的错误分类,带明确定义;三级严重性(严重、主要、次要);可以根据项目需求灵活配置;通过ISO 5060:2024和ISO 11669:2024获得了ISO背书;人工翻译和机器翻译都能用。
2025年为什么还要关注MQM
你想想看,现在GPT-4、Claude这些大模型翻出来的东西读起来特别通顺,但通顺不等于准确。"听起来像人话"和"翻对了"是两回事。我们需要严格的指标去衡量真实质量,MQM就是干这个的。
再说几个现实原因。企业客户越来越挑剔,要求你拿得出可量化的质量数据。新发布的ISO 5060:2024标准直接基于MQM原则。翻译公司也在用MQM客观对比不同译员和MT引擎的表现——谁好谁差,数字说话。
MQM错误类别详解
MQM把翻译错误分成了层级结构。下面是主要的几大类。
准确性错误 (Accuracy)
跟源文本忠实度相关。
| 错误类型 | 描述 | 示例 |
|---|---|---|
| 误译 | 意义传递不正确 | "年度报告"译为"月度报告" |
| 遗漏 | 源内容在译文中缺失 | 原文中的句子未翻译 |
| 添加 | 源文本中没有的额外内容 | 译员添加了原文没有的解释 |
| 未翻译 | 源文本保留在译文中 | 技术术语在中文文本中保留英文 |
流畅性错误 (Fluency)
目标文本读起来不自然。
| 错误类型 | 描述 | 示例 |
|---|---|---|
| 语法 | 语法错误 | 主谓不一致 |
| 拼写 | 拼写错误 | 错别字 |
| 标点 | 标点符号错误 | 复合句中缺少逗号 |
| 不一致 | 使用不一致 | 同一术语翻译不同 |
术语错误 (Terminology)
专业词汇用错了。
| 错误类型 | 描述 | 示例 |
|---|---|---|
| 术语错误 | 使用了不正确的术语 | "鼠标"译为"老鼠" |
| 术语不一致 | 同一术语翻译不同 | "用户界面"和"UI"交替使用 |
风格错误 (Style)
不符合风格指南。
| 错误类型 | 描述 | 示例 |
|---|---|---|
| 语域 | 正式程度错误 | 需要正式用语时使用口语 |
| 不地道 | 不自然但不算错误 | 直译听起来不自然 |
本地化错误 (Locale)
地域习惯没对上。
| 错误类型 | 描述 | 示例 |
|---|---|---|
| 日期格式 | 错误的日期约定 | 中文环境中使用MM/DD/YYYY |
| 货币 | 货币处理不正确 | 人民币金额使用$符号 |
| 度量单位 | 错误的单位制 | 使用英里而非公里 |
MQM严重性级别
每个错误会被打上一个严重性标签,直接影响扣分:
| 严重性 | 描述 | 典型扣分 |
|---|---|---|
| 严重 | 造成严重危害的错误(法律、安全、财务) | 25分 |
| 主要 | 显著影响理解或可用性的错误 | 5分 |
| 次要 | 对理解影响最小的错误 | 1分 |
怎么判断?问自己三个问题。这个错误会不会导致法律责任、安全风险或重大财务损失?那就是严重。会不会妨碍理解或造成明显混淆?主要。能看出来有问题但不影响读懂?次要。
MQM评分模型
分数算法其实很简单:
MQM分数 = 100 - (总扣分 / 字数 × 100) 举个例子。一个1000字的文档,查出2个主要错误(5 × 2 = 10分)和5个次要错误(1 × 5 = 5分),总扣分15分。
MQM分数 = 100 - (15 / 1000 × 100) = 98.5
那98.5算好吗?看行业惯例:
| 分数范围 | 质量等级 | 所需行动 |
|---|---|---|
| 99-100 | 优秀 | 可交付 |
| 95-98 | 良好 | 建议少量审查 |
| 90-94 | 可接受 | 需要审查和修正 |
| 低于90 | 差 | 大量修改 |
怎么在工作流程中落地
第1步:定义你的MQM配置
不是所有项目都需要全套错误类别。营销文案、法律合同、技术手册,侧重点完全不同。根据内容类型、目标受众和质量要求来裁剪。
第2步:培训评估人员
让评估人员理解错误类别的定义、严重性判断标准、以及你项目的特殊要求。MQM评估的一致性全靠这一步——同一个错误,不同人打出不同严重性,分数就没意义了。
第3步:选择样本量
统计上要站得住脚。每个文档至少250-500字,建议覆盖总字数的10-15%。高风险内容(比如药品说明书)就别抽样了,100%过一遍。
第4步:记录和分析结果
单次评估的价值有限。MQM分数随时间积累才能看到趋势——哪类错误反复出现、哪个译员在进步、哪个MT引擎退步了。这些数据才是真正有用的东西。
MQM与其他质量框架对比
MQM与LISA QA模型
| 方面 | MQM | LISA QA |
|---|---|---|
| 错误类别 | 全面、层级化 | 固定类别 |
| 可定制性 | 高度灵活 | 有限 |
| ISO支持 | 是 (ISO 5060) | 否 |
| 行业采用 | 增长中的标准 | 传统 |
MQM与DQF (TAUS)
MQM和DQF(动态质量框架)其实已经合流了。DQF现在用的就是MQM的错误分类,两者是互补关系,不是竞争关系。
支持MQM的工具
目前市面上支持MQM评估的工具有不少。KTTC提供完整的MQM支持和自动错误检测。Phrase有企业级的MQM实施。TAUS DQF做行业基准测试。memoQ的QA功能内置了MQM类别。选哪个取决于你的具体场景。
FAQ
MQM代表什么?
MQM代表Multidimensional Quality Metrics(多维质量指标)。这是一个使用标准化错误类别和严重性级别来系统评估和衡量翻译质量的框架。
MQM是ISO标准吗?
MQM原则已纳入ISO 5060:2024(翻译质量评估)并与ISO 11669:2024(翻译项目)保持一致。虽然MQM本身是一个框架,但它为这些国际标准提供了错误分类的基础。
MQM有多少个错误类别?
完整的MQM框架包含100多种分层组织的错误类型。然而,大多数实施使用与其特定用例相关的20-40个类别的子集。主要的顶级类别是:准确性、流畅性、术语、风格和本地化约定。
MQM可以用于机器翻译评估吗?
是的,MQM广泛用于机器翻译评估。WMT(机器翻译研讨会)共享任务使用基于MQM的标注进行机器翻译系统的人工评估。MQM有助于客观比较不同引擎的机器翻译输出。
什么是好的MQM分数?
好的MQM分数取决于内容类型和用例。一般来说,95分以上被认为是可发布质量,90-95分对于大多数目的是可接受的,90分以下通常需要修订。法律或医疗文档等关键内容通常需要99分以上。
往前看
MQM给翻译行业提供了一把严格的尺子。AI翻译越来越普及,客户对质量的要求只会更高,有一套客观的评估方法就不是"锦上添花"而是"必需品"了。
不管你是评估供应商的翻译公司、提质量要求的甲方,还是想精进手艺的译者——搞懂MQM都值得投入时间。我觉得接下来几年,不懂MQM的从业者会越来越被动。
想在工作流程中试试MQM?用KTTC跑一次基于MQM的质量评估,感受一下客观指标带来的区别。
