Skip to main content

LLM时代的MQM框架:为什么流畅的翻译仍然需要人工质量评估

alex-chen2026/3/163 min read
mqm翻译质量llm评估comet质量标准

翻译越流畅,越容易出事

大语言模型翻出来的东西,语法精准、风格连贯、读起来顺畅得很。但这恰恰是麻烦的地方。

一段翻译读着漂亮,意思却是错的——自动化评估指标往往发现不了。 COMET打了高分,MetricX没报警,错误就这么溜进了生产环节。我们亲眼见过药品剂量被翻错、法律条款被翻反、产品参数凭空冒出来的案例。

这就是我说的"流畅性陷阱":LLM在优化翻译"听起来怎么样"这件事上做到了极致,但"意思对不对"它不一定管得住。2026年,越来越多的企业把LLM翻译管线扩展到每月几百万条片段,流畅但不准确这个问题变成了翻译质量的头号挑战。

MQM(多维质量度量框架)比LLM做翻译早了很多年,但它那套基于错误分类的结构化方法,放到今天反而比以前更管用。下面讲讲为什么,以及怎么落地。

自动化指标为什么抓不住LLM幻觉

COMET的尴尬

COMET是自动化翻译评估的金标准,跟人类判断的相关性很高——但那是从平均值看的。平均值把最要命的失败模式给掩盖了。

看这个例子:

文本
源文(德语):Die Dosierung beträgt 5 mg zweimal täglich.
参考译文:剂量为每日两次,每次5毫克。
LLM输出:推荐剂量为每日三次,每次5毫克,以达到最佳疗效。
COMET评分:0.87(良好)

LLM的输出流畅自然,用词专业,还贴心地加了个限定语。COMET给了高分,因为嵌入相似度确实高。但**"每日两次"变成了"每日三次"**,"以达到最佳疗效"完全是编的。这种错误要是进了药品说明书,后果你想想看。

根子上的问题

COMET和MetricX这类指标是拿人类质量判断训练出来的,而那些判断以流畅性信号为主导。放在以前,翻译主要靠短语系统或早期NMT,流畅性确实是区分好坏的关键——准确的翻译经常读起来磕磕绊绊。指标就学会了给流畅性打高权重。

LLM把这个分布翻了个个儿。现在几乎所有LLM输出都很流畅,真正的差异体现在准确性上——但指标还在用老标准打分。

指标流畅性问题检测准确性问题检测幻觉检测
COMET优秀中等
MetricX优秀中等
COMET-KIWI (QE)良好很差
COMETKiwi-XL良好中等
人工MQM优秀优秀优秀

LLM翻译幻觉长什么样

我们把LLM翻译中常见的幻觉归了几类:

数字失真——改数量、改日期、改百分比、改剂量。语义添加——塞进去原文根本没有但听着挺像那么回事的信息。语义遗漏——悄悄删掉限定意义的从句或修饰语。实体替换——把一个专有名词换成同类别的另一个。极性反转——把"不推荐"翻成"推荐",把"大于"翻成"小于"。

这些错误的共同特点是:自动化指标评分高,但实际问题严重。

用MQM给LLM输出分类打分

MQM的错误分类是层级化的。到了LLM时代,准确性维度需要被重点关注,因为流畅性错误已经很少见了。

错误分布怎么变的:NMT vs LLM

错误类别NMT(2020)LLM(2026)变化趋势
准确性 — 误译28%22%
准确性 — 添加3%18%↑↑↑
准确性 — 遗漏15%12%
流畅性 — 语法22%3%↓↓↓
流畅性 — 语域8%5%
术语18%25%
风格6%15%

最扎眼的变化是准确性 — 添加:LLM往译文里塞原文没有的信息,频率是传统NMT的6倍。这就是幻觉,也是自动化指标最难发现的那类错误。

中文翻译这个问题更突出。中文是高语境语言,LLM翻的时候特别喜欢"补全"它觉得隐含的东西,导致中文译文里的添加型幻觉比例高于其他语言。通义千问MT和DeepSeek-V3在中文准确性上比GPT-5好一些,但仍然需要MQM来系统性地兜底。

严重级别怎么定

给LLM输出做MQM评审时,严重级别的标准得校准好:

严重级别定义扣分示例
关键在安全/法律/财务语境中改变含义25剂量"两次"→"三次"
重大含义错误但风险较低的语境5添加无依据的营销声明
轻微细微偏差,含义保留1语域略有不匹配
中性偏好差异,非错误0同义词选择

质量评分算法:

评分 = 100 -(扣分总计 / 字数 × 100) 

行业阈值:

  • 95+:可直接发布
  • 90-95:简单审校后可接受
  • 85-90:需要译后编辑
  • <85:退回重译

人工MQM + 自动化指标 = 完整质量图景

两种方法单独都不够用。最优解是两者组合。

两层评估架构

第一层:自动化筛查(覆盖100%片段)

所有翻译片段都过一遍COMET-KIWI。这能抓住严重的流畅性错误,过滤掉明显的低质量翻译。快、便宜、可规模化。

第二层:人工MQM评审(覆盖10-20%片段)

抽一部分片段给人工评审,抽样的优先级是:COMET评分落在模糊区间(0.80-0.90)的片段、高风险领域(医疗、法律、金融)的片段、源文复杂度高的片段(长句、嵌套列表、条件句),加上一些随机样本做校准。

两层合起来能抓住92-95%的所有错误,人工评审只需要覆盖总量的一小部分。

成本算一笔账

以每月处理100万字的管线为例:

方法月度成本错误发现率出结果时间
仅COMET$5065%分钟级
仅人工MQM$15,00098%5-7天
混合方案(COMET + 15% MQM)$2,30094%1-2天

混合方案的错误发现率接近纯人工,成本低了85%

中国企业的成本可以更低——国内专业译审人员的费率大约是国际市场的40-60%。这意味着混合方案的实际成本可以降到**$1,200-1,500/月**。

KTTC怎么做MQM评估

KTTC把上面说的两层方法变成了可以直接用的工作流。

片段级标注

评审员在源文和译文并排的界面里工作,直接在译文上高亮错误片段,标上错误类别(准确性、流畅性、术语、风格、本地化惯例)、子类别(比如准确性→添加、准确性→遗漏)和严重级别(关键、重大、轻微)。平台自动算MQM评分,支持片段级、文档级和项目级汇总。

多模型对比模式

评估不同LLM的输出时,KTTC把各模型的译文匿名并排展示。评审员独立标注每个版本,标完之后平台才揭示对应的模型名。这么做是为了消除"我知道这是Claude翻的所以给高分"这种偏见。

时间长了,你会积累出一张经验性的模型能力地图——哪个模型在哪种内容和语言对上表现最好。这对路由优化太有用了。

自动标记

KTTC的自动化层会根据以下规则把需要优先人工审核的片段标出来:

数字偏差检测——比较源文和译文中的数字,对不上就触发审核。长度比异常——译文比预期长很多,可能塞了多余内容。术语违规——用了未经批准的术语。低置信度分数——COMET-KIWI评分低于设定阈值。

这些标记把人工评审的命中率提高了3-4倍,钱花在刀刃上。

四个实际评分案例

案例1:幻觉添加(关键级别)

文本
源文(法语):Le contrat prend effet le 1er mars 2026.
参考译文:合同于2026年3月1日生效。
LLM输出:合同于2026年3月1日生效,有效期为12个月。

MQM标注: 错误片段"有效期为12个月",类别:准确性→添加,严重级别:关键(法律语境,凭空编造了合同条款),扣25分。

这条输出的COMET评分是0.91——指标看到的是一个流畅完整的句子。只有人工MQM评审才能发现这个捏造的条款。

案例2:数字失真(关键级别)

文本
源文(日语):投与量は1日2回、各10mgです。
参考译文:剂量为每日两次,每次10毫克。
LLM输出:剂量为每日一次,每次10毫克。

MQM标注: 错误片段"每日一次",类别:准确性→误译,严重级别:关键(医疗剂量),扣25分。

案例3:语域不匹配(轻微级别)

文本
源文(德语):Bitte wenden Sie sich an unseren Kundendienst.
参考译文:请联系我们的客户服务部门。
LLM输出:有啥问题直接找客服就行!

MQM标注: 类别:流畅性→语域,严重级别:轻微(正式源文用了过于口语化的表达),扣1分。

案例4:中文特有的添加型幻觉

文本
源文(英语):The software supports Windows and macOS.
参考译文:该软件支持Windows和macOS。
LLM输出:该软件全面支持Windows和macOS系统,同时兼容主流Linux发行版。

MQM标注: 错误片段"全面""同时兼容主流Linux发行版",类别:准确性→添加,严重级别:重大(技术规格,编造了不存在的平台支持),扣5分。

这是中文LLM翻译里非常典型的幻觉套路——模型觉得"只支持两个平台好像不够完整",就自作主张补上了第三个。技术文档里这种错误特别危险。

搭建你自己的MQM实践

第一步:想清楚你最怕什么错

不同行业对MQM各类别的重视程度差别很大。医疗器械公司把准确性错误的权重调到最高天经地义;游戏公司可能更在意风格和本地化惯例。开评审之前先把严重级别的权重系数定好。

第二步:校准评审团队

评审员之间打分要一致,不然MQM评分就没有可信度。做法是开校准会议——让多位评审员标注同样的50-100个片段,然后讨论打分不一致的地方。正式用于生产决策之前,目标是Cohen's Kappa达到0.7以上

第三步:把MQM接进翻译管线

MQM最大的价值是评分结果反馈回管线里。用它来调多模型路由规则、找系统性错误以改进提示词、设质量关卡(比如低于90分的批次打回重做)、在上线前给新模型做基准测试。

第四步:跟踪趋势

单次MQM评估只是一张快照。真正有用的是纵向追踪:模型更新后准确性错误是不是变多了?某个语言对是不是在退步?KTTC的分析仪表盘会自动呈现这些趋势。

五条实操建议

别只靠COMET评估LLM翻译。 它是为LLM之前的错误分布设计的,系统性地低估准确性问题。

上两层评估。 100%片段自动化筛查 + 10-20%人工MQM评审,用智能抽样把覆盖率拉到最高。

MQM里重点盯准确性。 对LLM输出来说,添加和遗漏是最高风险类别,给足权重。

用MQM数据反过来改进LLM。 评审中发现的错误模式可以拿来优化提示词、调术语表、重新训练路由分类器。

评审员校准不是可选项。 不一致的MQM评分比没有评分还糟。花时间做校准,这是整个体系的地基。

FAQ

MQM做大规模LLM翻译评估,是不是太慢太贵了?

不是——前提是你用混合方案。不需要每个片段都做MQM评审。两层方法(自动化筛查+抽样人工评审)的成本在每千字$2-3,错误捕获率94%以上。KTTC通过自动化抽样、标注界面和评分汇总把这个流程跑通了。用国内评审团队的话,成本还能再降。

能不能用LLM代替人工做MQM评估?

"LLM当评审员"这个方向在进步,但对最关键的错误类型还是不可靠——幻觉添加和细微语义扭曲。用一个LLM评另一个LLM的翻译会产生共同盲区:两个模型可能都觉得幻觉内容看起来挺合理的。初步筛查可以用LLM,但MQM标注环节必须有人参与。

MQM跟COMET、MetricX是什么关系?冲突吗?

不冲突,互补。COMET和MetricX是自动化指标——快、能规模化、适合做筛查。MQM是人工标注框架——更慢更贵,但在检测关键错误上准确性远超自动化指标。最佳方案是两者一起用:自动化负责广度,MQM负责深度。

做可靠的MQM评估需要多大样本?

单个文档或批次的质量评估,至少评审200-300个片段(大约2,000-3,000字)。如果要比较两个模型,数量翻倍——每个模型300+片段,最好用同一批源文。KTTC的多模型对比模式就是为这个场景设计的。

We use cookies to improve your experience. Learn more in our Cookie Policy.