ISO 5060:翻译质量评估的新国际标准
2024年,ISO终于发布了一个专门讲"怎么评翻译质量"的标准——ISO 5060:2024。这事等了很多年。之前行业里各用各的方法,LISA QA、J2450、MQM、自定义框架……大家标准不统一,供应商之间比质量跟鸡同鸭讲似的。ISO 5060把这些年积累的最佳实践(尤其是MQM框架)正式写成了国际标准。
ISO 5060到底是什么
它的官方标题是"翻译和口译——翻译产出评估——一般指南"。跟ISO 17100(翻译服务要求)和ISO 18587(机器翻译后编辑要求)不一样,ISO 5060只管一件事:怎么评估翻译出来的东西好不好。
几个要点:
| 特点 | 描述 |
|---|---|
| 错误类型学 | 与MQM一级类别协调一致 |
| 严重程度级别 | 关键、重要、轻微分类 |
| 评估阶段 | 评估前、评估中、评估后 |
| 评分模型 | 质量评分计算指导 |
| 评估员要求 | 资质和培训标准 |
为什么这个标准有意义?说实话,之前那种碎片化的局面确实让人头疼。跨供应商比质量,没有统一基准。建立行业benchmark,各家方法不同没法比。培训评估员,每换一个客户就要学一套新规则。ISO 5060给了一个大家都能用的参照点。
ISO 5060与MQM的关系
MQM是ISO 5060的主要理论基础。标准的错误分类直接跟MQM的一级类别对齐:
| 类别 | 子类别 | 描述 |
|---|---|---|
| 准确性 | 误译、遗漏、添加、未翻译 | 意义传递错误 |
| 流畅性 | 语法、拼写、排版、标点 | 目标语言错误 |
| 术语 | 错误术语、不一致、未批准 | 技术词汇错误 |
| 风格 | 语域、不地道、风格不一致 | 风格问题 |
| 区域设置 | 日期/时间、数字、货币、度量 | 区域惯例错误 |
严重程度分三级。关键错误可能导致法律责任、安全风险或严重误解——比如医疗翻译里把药物剂量搞错。重要错误明显影响理解或用户体验——比如产品核心功能翻译出错。轻微错误对理解影响不大——比如标点符号有点小问题。
ISO 5060和其他标准怎么区分
ISO 5060 vs. ISO 17100
| 方面 | ISO 17100 | ISO 5060 |
|---|---|---|
| 焦点 | 翻译服务要求 | 质量评估 |
| 范围 | 完整翻译流程 | 评估方法论 |
| 认证 | 可获得LSP认证 | 框架标准 |
| 目的 | 服务质量保证 | 产出质量测量 |
一句话:ISO 17100管"怎么做翻译",ISO 5060管"怎么评翻译"。
ISO 5060 vs. ISO 11669
ISO 11669:2024跟ISO 5060同期发布,它管的是翻译开始前怎么定需求。两个标准配合着用——11669先定好质量要求,5060再去检验有没有达标。
ISO 5060 vs. ISO 18587
ISO 18587专门针对机器翻译后编辑。ISO 5060的适用范围更广,人工翻译、机器翻译、后编辑翻译都能评。
评估的三个阶段
阶段1:评估前
评估开始前要把规则定清楚。
质量规范方面:要评哪些错误类别、每类的严重程度权重、通过阈值(比如MQM得分≥95)、样本量和抽取方法。
评估员的选择也有讲究:目标语言母语者,对专业领域有了解,接受过评估方法的培训,最好跟原始译员没有利益关系。
还要准备好工具模板、术语表、风格指南这些参考材料,以及校准流程。
阶段2:评估
评估员干的活就是:对比源语言和目标语言片段,找出可能的错误,给错误分类和定严重程度,记录下来写注释,按严重程度扣分。
ISO 5060特别强调一件事:校准。在正式评估之前,让多名评估员评同一段内容,比较结果,讨论分歧,更新指南,把校准决策记下来。这一步很多团队嫌麻烦会跳过,但我觉得它直接决定了评估结果的可信度。
阶段3:评估后
算分:
质量得分 = 100 - (总扣分 / 字数 × 100) 典型的扣分权重:关键25分,重要5分,轻微1分。
然后出报告——总体质量得分、按类别和严重程度的错误分布、带示例的具体注释、趋势分析。
最后是反馈循环:把发现分享给译员,识别反复出现的问题,更新培训材料,必要时调整工作流程。这个循环跑起来,质量才能真正往上走。
怎么在组织里落地
步骤1:摸清家底
先看看现在用什么方法评估,跟ISO 5060的要求差多远,有没有经过训练的评估员。别急着上新的,先搞清楚缺口在哪。
步骤2:分内容层级
不是所有内容都需要同样严格的评估。
| 层级 | 内容类型 | 评估方法 | 通过阈值 |
|---|---|---|---|
| 高级 | 法律、医疗、营销 | 100%人工评估 | 98+ |
| 标准 | 技术文档 | 20%样本评估 | 95+ |
| 基础 | 内部沟通 | AI辅助评估 | 90+ |
法律文件翻错一个词可能吃官司,内部邮件翻译差一点没人追究。资源有限的情况下,分层处理最务实。
步骤3:培训团队
评估员要能"比较成对的源语言和目标语言片段,并根据MQM错误类型学标准判断翻译质量"——这是ISO 5060原文的要求。具体来说就是吃透错误类别定义、严重程度标准、评分方法和校准流程。
步骤4:选工具
评估工具要能支持错误注释分类、严重程度分配、得分计算、报告生成和趋势跟踪。像KTTC这样的AI工具可以自动化大部分评估流程,同时保持ISO 5060合规性。
步骤5:建立校准机制
每周做快速对齐检查,每月开完整校准会议,每季度审查和更新方法论。校准不是一次性的事,它需要持续运转。
步骤6:把一切记下来
评估指南、错误示例数据库、校准记录、评估员认证、质量报告档案——该建的都建起来。文档化听起来枯燥,但将来回头查证的时候你会感谢自己。
ISO 5060遇上AI
AI做翻译质量评估越来越靠谱了,这给ISO 5060合规性带来了新可能。
AI LQA工具能识别潜在错误、按MQM类别分类、自动算分、批量出报告。但它目前还做不了的事也很明确:细微的文化判断、创意营销内容的评估、作为关键内容的唯一评估员、替代人工校准监督。
我觉得2025年最靠谱的做法是混合路线:AI先做第一轮大规模自动评估,人工验证AI的发现(尤其是关键错误),对AI评估过的内容做随机抽查,持续比较AI和人工结果来调优。这样既省时间省钱,又不丢ISO 5060合规性。
怎么证明你合规了
对语言服务提供商来说,ISO 5060合规性是拿来跟客户谈的加分项。记录你的评估方法论,培训和认证评估员,保存校准记录,用ISO 5060格式出质量报告。
对企业客户来说,把ISO 5060写进招标文件,要求供应商出ISO 5060格式的报告,定期审计,用统一指标做供应商比较。
FAQ
翻译中的ISO 5060是什么?
ISO 5060:2024是首个专门针对翻译质量评估的国际标准。它提供了评估翻译内容的框架,包括错误分类(与MQM一致)、严重程度级别、评估阶段和评分方法论。组织使用它来标准化翻译质量的测量和报告方式。
ISO 5060与MQM有什么区别?
ISO 5060基于MQM(多维质量指标),但它是一个官方ISO标准。MQM是一个灵活的开放框架,组织可以自定义。ISO 5060将MQM的关键概念正式化为国际标准,提供实施、评估员资质和评估流程的官方指导。它们是互补的——您可以在遵循ISO 5060方法论的同时使用MQM工具。
ISO 5060有认证吗?
截至2025年,ISO 5060本身没有像ISO 17100那样的认证项目。但是,组织可以记录其ISO 5060合规性并将其纳入质量管理体系。一些认证机构可能会在未来开发与ISO 5060一致的评估员认证项目。
通过ISO 5060评估的最低分数是多少?
ISO 5060没有规定特定的通过分数——这由您的组织根据内容类型和风险确定。常见阈值为:关键内容(法律、医疗)98+,标准商业内容95+,低风险内部内容90+。该标准提供设置适当阈值的指导。
AI工具可以用于ISO 5060评估吗?
可以,AI工具可以协助ISO 5060评估,特别是用于初步筛选和规模化。但是,该标准强调合格的人工评估员对最终质量决策的作用,特别是对于关键内容。混合方法——AI辅助评估加人工监督——是2025年保持合规性同时提高效率的最佳实践。
接下来会怎样
ISO 5060是翻译行业等了很久的东西。终于有一个国际标准明确告诉大家"翻译质量应该这么评"。
落地的时候别贪多。从优先级最高的内容开始,先做基础培训,然后逐步扩大覆盖面。AI工具能帮你在保持严谨性的同时大幅提升效率。我预测未来两三年,ISO 5060会成为翻译服务采购中的标配要求。
准备好实施符合ISO 5060的质量评估了吗?试用KTTC,获得基于MQM的AI驱动LQA错误分类和自动质量评分。
