LLM时代的MQM框架:为什么流畅的翻译仍然需要人工质量评估
翻译越流畅,越容易出事
大语言模型翻出来的东西,语法精准、风格连贯、读起来顺畅得很。但这恰恰是麻烦的地方。
一段翻译读着漂亮,意思却是错的——自动化评估指标往往发现不了。 COMET打了高分,MetricX没报警,错误就这么溜进了生产环节。我们亲眼见过药品剂量被翻错、法律条款被翻反、产品参数凭空冒出来的案例。
这就是我说的"流畅性陷阱":LLM在优化翻译"听起来怎么样"这件事上做到了极致,但"意思对不对"它不一定管得住。2026年,越来越多的企业把LLM翻译管线扩展到每月几百万条片段,流畅但不准确这个问题变成了翻译质量的头号挑战。
MQM(多维质量度量框架)比LLM做翻译早了很多年,但它那套基于错误分类的结构化方法,放到今天反而比以前更管用。下面讲讲为什么,以及怎么落地。
自动化指标为什么抓不住LLM幻觉
COMET的尴尬
COMET是自动化翻译评估的金标准,跟人类判断的相关性很高——但那是从平均值看的。平均值把最要命的失败模式给掩盖了。
看这个例子:
| 文本 | |
|---|---|
| 源文(德语): | Die Dosierung beträgt 5 mg zweimal täglich. |
| 参考译文: | 剂量为每日两次,每次5毫克。 |
| LLM输出: | 推荐剂量为每日三次,每次5毫克,以达到最佳疗效。 |
| COMET评分: | 0.87(良好) |
LLM的输出流畅自然,用词专业,还贴心地加了个限定语。COMET给了高分,因为嵌入相似度确实高。但**"每日两次"变成了"每日三次"**,"以达到最佳疗效"完全是编的。这种错误要是进了药品说明书,后果你想想看。
根子上的问题
COMET和MetricX这类指标是拿人类质量判断训练出来的,而那些判断以流畅性信号为主导。放在以前,翻译主要靠短语系统或早期NMT,流畅性确实是区分好坏的关键——准确的翻译经常读起来磕磕绊绊。指标就学会了给流畅性打高权重。
LLM把这个分布翻了个个儿。现在几乎所有LLM输出都很流畅,真正的差异体现在准确性上——但指标还在用老标准打分。
| 指标 | 流畅性问题检测 | 准确性问题检测 | 幻觉检测 |
|---|---|---|---|
| COMET | 优秀 | 中等 | 差 |
| MetricX | 优秀 | 中等 | 差 |
| COMET-KIWI (QE) | 良好 | 低 | 很差 |
| COMETKiwi-XL | 良好 | 中等 | 低 |
| 人工MQM | 优秀 | 优秀 | 优秀 |
LLM翻译幻觉长什么样
我们把LLM翻译中常见的幻觉归了几类:
数字失真——改数量、改日期、改百分比、改剂量。语义添加——塞进去原文根本没有但听着挺像那么回事的信息。语义遗漏——悄悄删掉限定意义的从句或修饰语。实体替换——把一个专有名词换成同类别的另一个。极性反转——把"不推荐"翻成"推荐",把"大于"翻成"小于"。
这些错误的共同特点是:自动化指标评分高,但实际问题严重。
用MQM给LLM输出分类打分
MQM的错误分类是层级化的。到了LLM时代,准确性维度需要被重点关注,因为流畅性错误已经很少见了。
错误分布怎么变的:NMT vs LLM
| 错误类别 | NMT(2020) | LLM(2026) | 变化趋势 |
|---|---|---|---|
| 准确性 — 误译 | 28% | 22% | ↓ |
| 准确性 — 添加 | 3% | 18% | ↑↑↑ |
| 准确性 — 遗漏 | 15% | 12% | ↓ |
| 流畅性 — 语法 | 22% | 3% | ↓↓↓ |
| 流畅性 — 语域 | 8% | 5% | ↓ |
| 术语 | 18% | 25% | ↑ |
| 风格 | 6% | 15% | ↑ |
最扎眼的变化是准确性 — 添加:LLM往译文里塞原文没有的信息,频率是传统NMT的6倍。这就是幻觉,也是自动化指标最难发现的那类错误。
中文翻译这个问题更突出。中文是高语境语言,LLM翻的时候特别喜欢"补全"它觉得隐含的东西,导致中文译文里的添加型幻觉比例高于其他语言。通义千问MT和DeepSeek-V3在中文准确性上比GPT-5好一些,但仍然需要MQM来系统性地兜底。
严重级别怎么定
给LLM输出做MQM评审时,严重级别的标准得校准好:
| 严重级别 | 定义 | 扣分 | 示例 |
|---|---|---|---|
| 关键 | 在安全/法律/财务语境中改变含义 | 25 | 剂量"两次"→"三次" |
| 重大 | 含义错误但风险较低的语境 | 5 | 添加无依据的营销声明 |
| 轻微 | 细微偏差,含义保留 | 1 | 语域略有不匹配 |
| 中性 | 偏好差异,非错误 | 0 | 同义词选择 |
质量评分算法:
评分 = 100 -(扣分总计 / 字数 × 100) 行业阈值:
- 95+:可直接发布
- 90-95:简单审校后可接受
- 85-90:需要译后编辑
- <85:退回重译
人工MQM + 自动化指标 = 完整质量图景
两种方法单独都不够用。最优解是两者组合。
两层评估架构
第一层:自动化筛查(覆盖100%片段)
所有翻译片段都过一遍COMET-KIWI。这能抓住严重的流畅性错误,过滤掉明显的低质量翻译。快、便宜、可规模化。
第二层:人工MQM评审(覆盖10-20%片段)
抽一部分片段给人工评审,抽样的优先级是:COMET评分落在模糊区间(0.80-0.90)的片段、高风险领域(医疗、法律、金融)的片段、源文复杂度高的片段(长句、嵌套列表、条件句),加上一些随机样本做校准。
两层合起来能抓住92-95%的所有错误,人工评审只需要覆盖总量的一小部分。
成本算一笔账
以每月处理100万字的管线为例:
| 方法 | 月度成本 | 错误发现率 | 出结果时间 |
|---|---|---|---|
| 仅COMET | $50 | 65% | 分钟级 |
| 仅人工MQM | $15,000 | 98% | 5-7天 |
| 混合方案(COMET + 15% MQM) | $2,300 | 94% | 1-2天 |
混合方案的错误发现率接近纯人工,成本低了85%。
中国企业的成本可以更低——国内专业译审人员的费率大约是国际市场的40-60%。这意味着混合方案的实际成本可以降到**$1,200-1,500/月**。
KTTC怎么做MQM评估
KTTC把上面说的两层方法变成了可以直接用的工作流。
片段级标注
评审员在源文和译文并排的界面里工作,直接在译文上高亮错误片段,标上错误类别(准确性、流畅性、术语、风格、本地化惯例)、子类别(比如准确性→添加、准确性→遗漏)和严重级别(关键、重大、轻微)。平台自动算MQM评分,支持片段级、文档级和项目级汇总。
多模型对比模式
评估不同LLM的输出时,KTTC把各模型的译文匿名并排展示。评审员独立标注每个版本,标完之后平台才揭示对应的模型名。这么做是为了消除"我知道这是Claude翻的所以给高分"这种偏见。
时间长了,你会积累出一张经验性的模型能力地图——哪个模型在哪种内容和语言对上表现最好。这对路由优化太有用了。
自动标记
KTTC的自动化层会根据以下规则把需要优先人工审核的片段标出来:
数字偏差检测——比较源文和译文中的数字,对不上就触发审核。长度比异常——译文比预期长很多,可能塞了多余内容。术语违规——用了未经批准的术语。低置信度分数——COMET-KIWI评分低于设定阈值。
这些标记把人工评审的命中率提高了3-4倍,钱花在刀刃上。
四个实际评分案例
案例1:幻觉添加(关键级别)
| 文本 | |
|---|---|
| 源文(法语): | Le contrat prend effet le 1er mars 2026. |
| 参考译文: | 合同于2026年3月1日生效。 |
| LLM输出: | 合同于2026年3月1日生效,有效期为12个月。 |
MQM标注: 错误片段"有效期为12个月",类别:准确性→添加,严重级别:关键(法律语境,凭空编造了合同条款),扣25分。
这条输出的COMET评分是0.91——指标看到的是一个流畅完整的句子。只有人工MQM评审才能发现这个捏造的条款。
案例2:数字失真(关键级别)
| 文本 | |
|---|---|
| 源文(日语): | 投与量は1日2回、各10mgです。 |
| 参考译文: | 剂量为每日两次,每次10毫克。 |
| LLM输出: | 剂量为每日一次,每次10毫克。 |
MQM标注: 错误片段"每日一次",类别:准确性→误译,严重级别:关键(医疗剂量),扣25分。
案例3:语域不匹配(轻微级别)
| 文本 | |
|---|---|
| 源文(德语): | Bitte wenden Sie sich an unseren Kundendienst. |
| 参考译文: | 请联系我们的客户服务部门。 |
| LLM输出: | 有啥问题直接找客服就行! |
MQM标注: 类别:流畅性→语域,严重级别:轻微(正式源文用了过于口语化的表达),扣1分。
案例4:中文特有的添加型幻觉
| 文本 | |
|---|---|
| 源文(英语): | The software supports Windows and macOS. |
| 参考译文: | 该软件支持Windows和macOS。 |
| LLM输出: | 该软件全面支持Windows和macOS系统,同时兼容主流Linux发行版。 |
MQM标注: 错误片段"全面""同时兼容主流Linux发行版",类别:准确性→添加,严重级别:重大(技术规格,编造了不存在的平台支持),扣5分。
这是中文LLM翻译里非常典型的幻觉套路——模型觉得"只支持两个平台好像不够完整",就自作主张补上了第三个。技术文档里这种错误特别危险。
搭建你自己的MQM实践
第一步:想清楚你最怕什么错
不同行业对MQM各类别的重视程度差别很大。医疗器械公司把准确性错误的权重调到最高天经地义;游戏公司可能更在意风格和本地化惯例。开评审之前先把严重级别的权重系数定好。
第二步:校准评审团队
评审员之间打分要一致,不然MQM评分就没有可信度。做法是开校准会议——让多位评审员标注同样的50-100个片段,然后讨论打分不一致的地方。正式用于生产决策之前,目标是Cohen's Kappa达到0.7以上。
第三步:把MQM接进翻译管线
MQM最大的价值是评分结果反馈回管线里。用它来调多模型路由规则、找系统性错误以改进提示词、设质量关卡(比如低于90分的批次打回重做)、在上线前给新模型做基准测试。
第四步:跟踪趋势
单次MQM评估只是一张快照。真正有用的是纵向追踪:模型更新后准确性错误是不是变多了?某个语言对是不是在退步?KTTC的分析仪表盘会自动呈现这些趋势。
五条实操建议
别只靠COMET评估LLM翻译。 它是为LLM之前的错误分布设计的,系统性地低估准确性问题。
上两层评估。 100%片段自动化筛查 + 10-20%人工MQM评审,用智能抽样把覆盖率拉到最高。
MQM里重点盯准确性。 对LLM输出来说,添加和遗漏是最高风险类别,给足权重。
用MQM数据反过来改进LLM。 评审中发现的错误模式可以拿来优化提示词、调术语表、重新训练路由分类器。
评审员校准不是可选项。 不一致的MQM评分比没有评分还糟。花时间做校准,这是整个体系的地基。
FAQ
MQM做大规模LLM翻译评估,是不是太慢太贵了?
不是——前提是你用混合方案。不需要每个片段都做MQM评审。两层方法(自动化筛查+抽样人工评审)的成本在每千字$2-3,错误捕获率94%以上。KTTC通过自动化抽样、标注界面和评分汇总把这个流程跑通了。用国内评审团队的话,成本还能再降。
能不能用LLM代替人工做MQM评估?
"LLM当评审员"这个方向在进步,但对最关键的错误类型还是不可靠——幻觉添加和细微语义扭曲。用一个LLM评另一个LLM的翻译会产生共同盲区:两个模型可能都觉得幻觉内容看起来挺合理的。初步筛查可以用LLM,但MQM标注环节必须有人参与。
MQM跟COMET、MetricX是什么关系?冲突吗?
不冲突,互补。COMET和MetricX是自动化指标——快、能规模化、适合做筛查。MQM是人工标注框架——更慢更贵,但在检测关键错误上准确性远超自动化指标。最佳方案是两者一起用:自动化负责广度,MQM负责深度。
做可靠的MQM评估需要多大样本?
单个文档或批次的质量评估,至少评审200-300个片段(大约2,000-3,000字)。如果要比较两个模型,数量翻倍——每个模型300+片段,最好用同一批源文。KTTC的多模型对比模式就是为这个场景设计的。
