做翻译质量评估，第一件事就是搞清楚翻译错误有哪些类型。不管你是QA经理、译员还是本地化工程师，能准确识别和分类错误，才能保证评估标准统一、反馈有针对性、质量真正能提升。

这篇指南覆盖了基于MQM（多维质量指标）和ISO 5060:2024标准的完整错误分类体系。这两套框架是目前全球用得最广的。

为什么要搞标准化的错误分类

你可能觉得"错了就是错了，有什么好分类的"。但实际操作中，没有统一标准会出问题：

好处	具体表现
一致性	不同评估员按同一套标准打分
可操作	译员确切知道该改什么
可量化	质量分数有实际意义
培训	从错误模式里发现技能短板
自动化	AI工具能针对特定错误类型做检测

没有标准的话，审核员A说"这有问题"，审核员B可能觉得"这算可接受的变体"。分类体系就是用来消除这种模糊的。

MQM错误分类体系

**多维质量指标（MQM）**框架现在已经写进了ISO 5060:2024标准，把错误按层级分类。顶层一共7大类：

MQM错误层级 ├── 准确性 (Accuracy) ├── 流畅性 (Fluency) ├── 术语 (Terminology) ├── 风格 (Style) ├── 区域规范 (Locale Convention) ├── 真实性 (Verity) └── 设计 (Design)

一个一个来看。

1. 准确性错误 (Accuracy)

准确性错误是指翻译没能忠实传达原文的意思。这类错误通常最严重——信息传错了，后果可能不只是"读着别扭"。

1.1 误译 (Mistranslation)

翻译传达了跟原文不同的意思。

例子：

原文 (EN): "The product is not available in your region." 译文 (ZH): "该产品在您的地区可用。" 错误: "not available" → "可用" (意思反了) 严重程度: 重大

误译有几个层次：

完全误译：意思彻底搞反或搞错
部分误译：一部分意思跑偏了
细微误译：有微妙的含义差异

1.2 遗漏 (Omission)

原文里有的信息，翻译里没了。

例子：

原文 (EN): "Click Save to confirm your changes and exit." 译文 (ZH): "点击保存以确认您的更改。" 错误: "and exit" 漏掉了 严重程度: 轻微（如果UI不受影响）或重大（如果是关键指令）

1.3 添加 (Addition)

翻译里多出了原文没有的内容。

例子：

原文 (EN): "Enter your password." 译文 (ZH): "请输入您的安全密码。" 错误: "安全"是加上去的——原文里没这个词 严重程度: 轻微（除非改变了意思或产生法律风险）

1.4 未翻译 (Untranslated)

原文直接留在了译文里。

例子：

原文 (EN): "Welcome to the Dashboard" 译文 (ZH): "Welcome to the 仪表板" 错误: "Welcome to the" 没翻 严重程度: 重大

1.5 过度翻译 (Over-Translation)

应该保留原文的地方反而翻了。

例子：

原文 (EN): "Click the OK button." 译文 (ZH): "点击确定按钮。" 错误: "OK" 在很多UI场景下应该保留 严重程度: 轻微

2. 流畅性错误 (Fluency)

流畅性错误看的是目标语言本身读起来通不通顺、自不自然，跟原文无关。翻译可能意思完全正确，但读起来别扭，那就是流畅性的问题。

2.1 语法

目标语言的语法出了错。

例子：

译文 (ZH): "数据正在被处理中。" 错误: "被处理中" 语法冗余，应该是 "正在处理" 严重程度: 轻微

常见的语法问题包括：主谓搭配、时态一致性、量词使用、代词指代、介词搭配。

2.2 拼写

错别字。

例子：

译文 (ZH): "您的帐户已更新。" 错误: 规范写法是"账户"不是"帐户" 严重程度: 轻微

2.3 标点

标点符号用错了。

例子：

译文 (ZH): "点击这里,继续操作" 错误: 该用中文逗号"，"不是英文逗号"," 严重程度: 轻微

2.4 排版

字符显示、间距、格式方面的问题。

例子：

译文 (ZH): "版权所有 © 2025." 错误: 中文句号应该是"。"不是英文句号"." 严重程度: 轻微

还包括：引号类型不对、间距有问题、字符编码错误、大小写混乱。

2.5 无法理解 (Unintelligible)

语言错误严重到读不懂。

例子：

译文 (ZH): "系统为访问拒绝已被有。" 错误: 完全混乱——大概率是MT出了故障 严重程度: 严重

3. 术语错误 (Terminology)

术语错误是领域专有词汇或标准化术语用得不对。

3.1 错误术语

概念对应的术语选错了。

例子：

原文 (EN): "RAM (Random Access Memory)" 译文 (ZH): "随机存取存储器（随机访问内存）" 错误: 括号内应使用标准缩写或保留英文 严重程度: 轻微到重大（看领域）

3.2 术语不一致

同一个术语在同一篇文档里翻法不同。

例子：

第12段: "Dashboard" → "仪表板" 第45段: "Dashboard" → "控制面板" 错误: 核心UI术语前后不一致 严重程度: 轻微

这种问题特别烦人——用户会以为这是两个不同的东西。

3.3 未批准术语

用了项目术语表里没批准的术语。

例子：

术语表规定: "Server" → "服务器" 译文用了: "伺服器" 错误: 用了台湾地区的叫法，但项目要求简体中文术语 严重程度: 轻微（除非客户明确要求）

4. 风格错误 (Style)

风格错误是翻译在语域、语气或文风上跟要求不符。

4.1 语域

正式程度不对。

例子：

风格指南要求: 使用正式的"您" 译文 (ZH): "你可以在这里更改密码。" 错误: 用了"你"而不是"您" 严重程度: 重大（品牌调性出了问题）

4.2 不地道

语法没毛病但听着不像中文。

例子：

原文 (EN): "It's raining cats and dogs." 译文 (ZH): "正在下猫和狗。" 错误: 英文习语直译——应该用"倾盆大雨"之类的中文表达 严重程度: 轻微

这种"翻译腔"在新手译员和MT输出里很常见。

4.3 风格不一致

同一篇文档里风格忽高忽低。

例子：

第一段: 正儿八经的技术写作 第二段: 突然变成聊天的语气 错误: 文档内风格不统一 严重程度: 轻微

5. 区域规范错误 (Locale Convention)

区域规范错误是内容没有正确适配目标地区的习惯。

5.1 日期/时间格式

例子：

原文 (US): "12/25/2025" 译文 (ZH): "12/25/2025" 错误: 中文应该写 "2025年12月25日" 严重程度: 轻微到重大（可能造成混淆——12月25日还是25月12日？）

5.2 数字格式

例子：

原文 (US): "1,234.56" 译文 (ZH): "1,234.56" 错误: 中文环境下可以接受，但大数字要考虑用 "1234.56" 或 "1,234.56" 严重程度: 轻微

5.3 货币

例子：

原文 (US): "$99.99" 译文 (ZH): "$99.99" 错误: 该考虑改成 "¥99.99" 或至少标明是美元 严重程度: 重大（直接影响用户的购买判断）

5.4 度量单位

例子：

原文 (US): "10 miles" 译文 (ZH): "10英里" 错误: 对中国读者来说应该转换成 "16公里" 严重程度: 看上下文——旅游指南里是重大，文学翻译里可能是轻微

5.5 地址/电话格式

例子：

原文 (US): "(555) 123-4567" 译文 (ZH): "(555) 123-4567" 错误: 应该用国际格式 +1 555 123-4567 或适配本地风格 严重程度: 轻微

6. 真实性错误 (Verity)

真实性错误是事实信息不对，跟原文翻得准不准没关系。

6.1 事实错误

译文里有客观错误的信息。

例子：

译文 (ZH): "珠穆朗玛峰，世界最高峰，海拔8,849米..." 如果原文高度就是错的：即便翻译跟原文一致，也该标记 严重程度: 重大到严重（看影响面）

6.2 法律/合规

内容违反了目标市场的法律或监管要求。

例子：

译文 (ZH): "本产品可以治愈癌症。" 错误: 在中国这种医疗声明可能违反广告法 严重程度: 严重

7. 设计错误 (Design)

设计错误是翻译在最终产品里造成了视觉或功能问题。

7.1 截断

文本被截断了。

例子：

UI按钮: [保存更...] 错误: "保存更改" 被截掉了——按钮太小 严重程度: 重大

7.2 重叠

文本跟其他元素叠在一起。

例子：

标签文本延伸到了旁边的字段或图片上 错误: 没考虑到翻译后文本变长 严重程度: 重大

7.3 编码

字符编码出问题导致乱码。

例子：

显示: "咖啡厅" 显示为 "咖å•¡åŽ…" 错误: UTF-8编码问题 严重程度: 重大

严重程度怎么定

每个错误都要标一个严重程度，决定它对质量分数的影响有多大。

严重 (Severity 1)

必须马上改的错误：

安全风险（药物剂量翻错）
法律责任（合规条款有误）
含义完全反了
冒犯性或文化不当的内容
导致系统出问题的错误

**扣分：**25分（ISO 5060默认值）

重大 (Severity 2)

明显影响质量的错误：

意思变了，影响读者理解
关键信息缺失
明显的流畅性问题
品牌调性出了偏差
功能受影响

**扣分：**5分（ISO 5060默认值）

轻微 (Severity 3)

影响有限的小问题：

小的流畅性瑕疵
轻微的风格偏差
不太关键的术语不一致
不显眼位置的格式问题

**扣分：**1分（ISO 5060默认值）

质量分数怎么算

用MQM的评分方式：

质量分数 = 100 - (扣分总数 / 字数 × 100)

算个例子：

文档：1,000字
发现错误：1个严重、2个重大、5个轻微
扣分：(1 × 25) + (2 × 5) + (5 × 1) = 40分
分数：100 - (40 / 1000 × 100) = 100 - 4 = 96

分数对照表

质量级别	分数范围	什么意思
优秀	98-100	可以直接发布
良好	95-97	小改一下就行
可接受	90-94	需要认真编辑
较差	低于90	要大改或重译

不同内容类型的常见错误模式

这部分挺有意思——不同类型的内容，出问题的地方完全不一样。

营销内容

风格/语域 (37%)
术语不一致 (24%)
不地道表达 (19%)
区域规范 (12%)
准确性 (8%)

营销内容最大的坑不是翻错，而是翻出来没感觉。

技术文档

术语 (42%)
准确性 - 遗漏 (21%)
不一致 (18%)
流畅性 - 语法 (11%)
区域规范 (8%)

技术文档里术语问题占了四成多，这就是为什么术语库对技术翻译特别重要。

法律内容

准确性 - 误译 (35%)
术语 (30%)
遗漏 (20%)
真实性 - 合规 (10%)
风格 (5%)

法律翻译里准确性排第一，翻错一个词可能就是一场官司。

软件UI

截断/设计 (28%)
术语不一致 (25%)
区域规范 (22%)
未翻译字符串 (15%)
准确性 (10%)

UI翻译最常见的问题竟然是截断——翻译后文字变长，按钮放不下了。

错误分类的实操建议

1. 用标准框架，别自己发明

采用MQM或ISO 5060的分类法，别自创一套。好处是：

行业通用，报告别人看得懂
项目之间可以横向比较
跟工具兼容

2. 根据项目自定义严重程度

MQM的类别是通用的，但严重程度要根据你的项目来定：

project_guidelines:critical_conditions:-安全警告中的任何错误-法律声明误译-品牌名称错误major_conditions:-功能描述中意思变了-行动号召文本漏了minor_conditions:-风格偏好偏差-非关键位置的格式问题

3. 评估员要校准

正式开工前先做校准：

几个评估员评同一份内容
比较结果，讨论分歧
根据讨论结果更新指南
把校准决定记下来，以后用

4. 建一个错误示例库

错误类型	原文	译文	正确翻译	严重程度
误译	"Disable feature"	"启用功能"	"禁用功能"	重大
遗漏	"Click Save and Exit"	"点击保存"	"点击保存并退出"	轻微

有了例子，新评估员上手更快，老评估员判断也更一致。

5. 类别数量要适度

MQM有100多个子类型，但大多数项目用20到30个就够了。我建议这样开始：

7个顶级类别先用上
加上你的内容类型里最常见的10到15个子类别
碰到新的错误模式再按需扩展

AI检测错误能做到什么程度

现在的AI LQA工具对不同错误类型的检测准确率差别很大：

错误类型	AI检测准确率（2025）
拼写	99%+
语法	95%+
术语（有术语表）	90%+
格式/区域	95%+
误译	85-90%
风格	75-85%
遗漏	85-90%
不地道	70-80%

拼写和语法这种规则明确的，AI已经做得非常好了。但"不地道"这种需要语感的判断，AI还差点火候。最靠谱的用法是：AI做初筛，人工做验证。如果你有领域术语表和风格指南，AI的表现会好很多。

FAQ

最常见的翻译错误类型是什么？

看内容类型。技术内容里，术语错误最常见（40%以上）。营销内容里，风格和语域问题占大头（35%以上）。法律内容里，准确性错误是头号问题（35%以上）。流畅性错误（语法、拼写、标点）在所有内容类型里都有，但通常算轻微。

LQA该用多少个错误类别？

从MQM的7个顶级类别开始，然后根据你的内容类型扩展到15到25个子类别。太少会丢失有用信息，太多会让评估员之间判断不一致。ISO 5060推荐的也是这个思路。

重大错误和轻微错误怎么区分？

重大错误会让读者停下来——困惑、误解、或者获得错误信息。轻微错误虽然能注意到，但不妨碍理解——有错误但意思还是传达到了。严重错误则是可能带来安全、法律或严重功能风险的，得立刻改。

同一个错误在不同项目里可以有不同的严重程度吗？

可以，而且这很正常。术语不一致在内部文档里可能只是轻微问题，但在面向客户的产品UI里就变成了重大问题。项目指南里应该根据内容的重要性、受众和风险来具体定义严重程度标准。所以校准和文档化真的很重要。

一个错误同时属于多个类别怎么办？

选影响最根本的那个类别。比如把"您"（正式）翻成"你"（非正式），可以算风格（语域不对）也可以算准确性（正式场景下含义有差异）。如果原文明确要求正式称呼，那就归到风格/语域——因为这才是根本原因。每个错误只计一次，避免扣分翻倍。

准备在你的工作流程里用上标准化的错误分类？试用KTTC，体验AI驱动的LQA，支持完整的MQM错误分类和ISO 5060标准。