ISO 18587 2026年修订版:扩展标准对LLM翻译的深远影响
2017年ISO 18587刚出来的时候,机器翻译的主流还是统计模型和早期神经网络。标准定义了机器翻译译后编辑的要求——范围挺窄的,假定的也是那个年代MT系统产出的那类错误。九年过去了,翻译行业已经换了一副面孔。LLM翻出来的东西流畅、有语境感,有时候连专业译员都分不出是不是机器翻的。老标准根本不是为这个现实设计的。
2026年修订版直接回应了这个断层。适用范围扩展到所有AI生成的翻译,译后编辑人员的能力要求更新了,还明确跟ISO 42001等AI治理框架做了衔接。怎么说呢,2026年还在用机器翻译的组织——基本上就是整个行业——理解这些变化不是选修课。
ISO 18587管什么,为什么你该在意
ISO 18587:2017全称《翻译服务——机器翻译译后编辑——要求》,给组织处理MT输出建了一套基准规范:译后编辑流程要哪些步骤、译后编辑人员得有什么能力、客户和服务方开工前该说清楚什么。
这个标准重要在哪?它给用机器翻译的组织提供了一个能拿得出手的质量保障框架。在法律、医疗、金融这些受监管的行业,能证明符合ISO标准经常是甲方采购的硬性条件。
2026年修订版改了什么
范围大幅扩展
最根本的变化:适用范围从"机器翻译输出"扩展为"AI生成的翻译输出"。明确包括LLM(GPT、Claude、Gemini等)生成的翻译、AI代理在自动化工作流中产出的翻译、翻译记忆匹配与AI生成内容的混合输出、还有能从译后编辑修改中实时学习的自适应MT系统。
老标准针对的是基于短语和神经网络的MT——那类系统犯的错有规律可循。LLM带来了不一样的麻烦:译文可能流畅但事实不对,风格打磨到位但术语乱来,这个片段语境把握得好、下个片段语体就跑偏了。
译后编辑人员得懂更多了
2017版要求译后编辑人员有翻译能力、语言能力和"机器翻译素养"。修订版把最后一项大幅扩展了:
| 能力领域 | ISO 18587:2017 | ISO 18587:2026(修订版) |
|---|---|---|
| 翻译能力 | 必需 | 必需(未变) |
| 语言能力 | 源语 + 目标语 | 源语 + 目标语(未变) |
| MT素养 | 了解MT输出特征 | 了解AI模型能力、幻觉模式、置信度校准 |
| AI输出评估 | 未规定 | 能识别AI特有错误:幻觉、风格漂移、伪流畅 |
| 提示词意识 | 不适用 | 了解提示词和上下文如何影响输出质量 |
| 工具能力 | 基础MT和CAT工具 | AI辅助编辑环境、TQA平台、质量评分解读 |
新增要求里最关键的是**"伪流畅"检测能力**——就是识别那些在目标语中读起来完美无瑕、但实际包含细微准确性错误或意义偏移的译文。你想想看,LLM翻出来的东西越流畅,越容易让人放松警惕。修订版标准把这一点明确提了出来。
新增AI特有的错误类型
修订版引入了一套专门针对AI生成内容的补充错误分类:
幻觉——译文里出现原文完全没有依据的内容。源文偏离——译文反映了对原文合理但错误的理解。伪流畅——目标语读起来很自然,但实际上包含被流畅行文掩盖的不准确之处。上下文泄漏——提示词、系统指令或相邻片段的信息渗入了译文。语体不一致——同一文档内正式程度或语调发生漂移。
这些类别是对现有MQM错误类型的补充,不是替代。两套都得跟踪。
跟ISO 42001接上了
修订版明确引用了ISO 42001:2023(AI管理体系标准),形成了双层合规框架:ISO 42001在组织层面管AI系统的使用——风险评估、治理、透明度、监控;ISO 18587修订版具体规范AI翻译输出的处理、评估和质量保障。
已经在推ISO 42001认证的组织(2026年越来越多了),会发现修订版ISO 18587提供了翻译工作流的领域级实施指导。两个标准设计上是互补的。
TQA平台怎么帮你证明合规
修订版最实际的一点是强调了有据可查的质量评估。你得证明自己在用结构化框架系统地评估AI翻译。TQA平台在这里不光是质量工具,更是合规工具。
审计人员会查什么
根据修订草案,审计人员期望看到五样东西:
文档化的评估方法——清楚描述怎么衡量翻译质量,包括错误类别、严重程度等级和评分公式。一致的执行——证明同一套方法在不同项目、语言和时间段内得到统一应用。AI特有错误追踪——记录显示幻觉、伪流畅等AI特有错误被单独识别和追踪。阈值文档——每种内容类型的书面质量阈值,加上为什么选这个水平的说明。趋势分析——展示质量随时间变化的历史数据,最好能看出在持续改善。
KTTC怎么帮上忙
KTTC的设计恰好能产出修订版标准要的那些结构化评估数据。
基于MQM的评分包含完整的错误分类体系(含AI特有类别),这就是文档化的评估方法。项目级别的配置覆盖错误类别和严重程度权重,确保对所有内容统一应用。通过API可访问的评估历史让审计人员能以编程方式审核质量记录。阈值配置和通过/拒绝过滤形成了标准要求的文档化质量阈值。带历史趋势的分析仪表板直接支持趋势分析要求。
用KTTC这类平台的核心好处是可审计性。每次评估都有时间戳、归属记录并持久存储。审计人员问"你们怎么评估AI翻译质量"的时候,你给他看的是一个有结构化数据的平台——不是某个人维护的Excel表格。
新旧对比一览
| 维度 | ISO 18587:2017(原版) | ISO 18587:2026(修订版) |
|---|---|---|
| 适用范围 | 机器翻译输出 | 所有AI生成的翻译输出(MT、LLM、混合) |
| 覆盖的MT系统 | 统计和神经网络MT | 所有AI系统,包括LLM和代理工作流 |
| 译后编辑能力 | MT素养 | AI素养,包括幻觉检测、提示词意识 |
| 错误分类 | 标准翻译错误 | 扩展AI特有类别(幻觉、伪流畅、上下文泄漏) |
| 质量评估 | 要求但规定宽泛 | 结构化评估,文档化方法为强制要求 |
| AI治理 | 未涉及 | 明确关联ISO 42001 AI管理框架 |
| 自动化程度 | 假定由人工进行译后编辑 | 承认自动化QA配合人工监督 |
| 数据要求 | 基本项目文档 | 历史评估数据、趋势分析、阈值文档 |
| 客户沟通 | 告知客户使用了MT | 披露AI系统类型、能力、已知局限性 |
| 持续改进 | 建议性 | 强制性,需有文档化的反馈机制 |
准备清单:按时间线来
赶紧做(2026年Q1-Q2)
- 审计现有流程——翻译管线里哪些AI系统在产出翻译?LLM、MT引擎、混合系统,都列出来
- 评估译后编辑能力——你的译后编辑人员接受过AI特有错误类型的培训吗?特别是幻觉检测和伪流畅识别
- 上结构化QA——还没用MQM评估的话,现在就开始。KTTC可以做评估平台
- 开始追踪AI特有错误——幻觉、伪流畅、上下文泄漏,立刻加进错误分类体系
中期做(2026年Q3-Q4)
- 建质量基线——用KTTC评估当前AI翻译的代表性样本,按语言对和内容类型记录基线分数
- 定质量阈值——根据基线数据和业务需求,为每种内容类型设通过/拒绝线
- 做培训计划——开发专门涵盖AI输出特征的培训材料,重点讲MT错误和LLM错误的区别
- 评估ISO 42001对齐——如果组织大量使用AI,考虑是否要同步推ISO 42001认证
持续做
- 监控质量趋势——用KTTC的分析功能追踪质量变化,及早发现退化苗头
- 更新错误分类——AI系统在演进,新的错误模式会冒出来,分类体系要跟上
- 记录一切——评估方法变更、阈值调整、流程更新,全部留档,随时准备好接受审计
- 每季度回顾——检查译后编辑人员的能力水平和评估方法的有效性
相关标准全景
ISO 18587不是孤立的。了解它跟周边标准怎么配合很有用:
| 标准 | 与ISO 18587(修订版)的关系 |
|---|---|
| ISO 17100(翻译服务) | 人工翻译的上级标准;ISO 18587将其扩展至AI输出 |
| ISO 42001(AI管理) | 互补的治理框架;ISO 18587引用其进行AI监管 |
| ISO 5060(翻译质量) | 定义质量指标;ISO 18587要求将其应用于AI输出 |
| MQM(多维质量指标) | 行业标准错误框架;被ISO 18587推荐为评估方法 |
FAQ
修订版ISO 18587适用于所有LLM生成的翻译吗?
是的。修订后的适用范围明确覆盖任何由AI系统生成的翻译输出,不管底层技术是什么。通用LLM(GPT、Claude、Gemini)生成的翻译、专业翻译模型、AI代理流水线、翻译记忆与AI生成相结合的混合系统——只要AI系统产出了翻译,且这个翻译要发布或交付给客户,标准就适用。
要符合修订版,是否必须先拿ISO 42001认证?
不需要。修订版引用了ISO 42001并建议对齐,但没有要求认证。不过说实话,大规模跑AI翻译的组织会发现,ISO 42001推荐的治理架构能让ISO 18587合规变得轻松很多。可以把ISO 42001理解为组织层面的框架,ISO 18587是翻译领域的具体落地。
完全自动化、没有人工译后编辑的翻译怎么处理?
修订版承认有些工作流几乎或完全没有人工译后编辑,特别是低风险内容。这类场景下,标准要求:自动化质量评估必须有文档记录,AI系统的质量受到系统性监控,存在明确的升级标准把需要人看的内容路由到人工审核。KTTC提供自动质量评分和可配置阈值,直接支持这个场景。
"伪流畅"到底是什么,为什么LLM输出特别容易中招?
伪流畅是指译文在目标语读起来完美无缺,但实际上包含不准确的地方——漏了信息、改了意思或者编了细节——这些问题被自然流畅的行文给盖住了。传统MT输出本身就生硬,错误一眼就看得出来。LLM默认就产出流畅文本,结果就是准确性错误可能被以流畅度做判断标准的译后编辑人员忽略。修订版标准明确要求培训译后编辑人员的伪流畅检测能力,并推荐用结构化评估方法(比如通过KTTC做MQM评分)把准确性和流畅性拆开来独立评估。
