翻译越流畅，越容易出事

大语言模型翻出来的东西，语法精准、风格连贯、读起来顺畅得很。但这恰恰是麻烦的地方。

一段翻译读着漂亮，意思却是错的——自动化评估指标往往发现不了。 COMET打了高分，MetricX没报警，错误就这么溜进了生产环节。我们亲眼见过药品剂量被翻错、法律条款被翻反、产品参数凭空冒出来的案例。

这就是我说的"流畅性陷阱"：LLM在优化翻译"听起来怎么样"这件事上做到了极致，但"意思对不对"它不一定管得住。2026年，越来越多的企业把LLM翻译管线扩展到每月几百万条片段，流畅但不准确这个问题变成了翻译质量的头号挑战。

MQM（多维质量度量框架）比LLM做翻译早了很多年，但它那套基于错误分类的结构化方法，放到今天反而比以前更管用。下面讲讲为什么，以及怎么落地。

自动化指标为什么抓不住LLM幻觉

COMET的尴尬

COMET是自动化翻译评估的金标准，跟人类判断的相关性很高——但那是从平均值看的。平均值把最要命的失败模式给掩盖了。

看这个例子：

	文本
源文（德语）：	Die Dosierung beträgt 5 mg zweimal täglich.
参考译文：	剂量为每日两次，每次5毫克。
LLM输出：	推荐剂量为每日三次，每次5毫克，以达到最佳疗效。
COMET评分：	0.87（良好）

LLM的输出流畅自然，用词专业，还贴心地加了个限定语。COMET给了高分，因为嵌入相似度确实高。但**"每日两次"变成了"每日三次"**，"以达到最佳疗效"完全是编的。这种错误要是进了药品说明书，后果你想想看。

根子上的问题

COMET和MetricX这类指标是拿人类质量判断训练出来的，而那些判断以流畅性信号为主导。放在以前，翻译主要靠短语系统或早期NMT，流畅性确实是区分好坏的关键——准确的翻译经常读起来磕磕绊绊。指标就学会了给流畅性打高权重。

LLM把这个分布翻了个个儿。现在几乎所有LLM输出都很流畅，真正的差异体现在准确性上——但指标还在用老标准打分。

指标	流畅性问题检测	准确性问题检测	幻觉检测
COMET	优秀	中等	差
MetricX	优秀	中等	差
COMET-KIWI (QE)	良好	低	很差
COMETKiwi-XL	良好	中等	低
人工MQM	优秀	优秀	优秀

LLM翻译幻觉长什么样

我们把LLM翻译中常见的幻觉归了几类：

数字失真——改数量、改日期、改百分比、改剂量。语义添加——塞进去原文根本没有但听着挺像那么回事的信息。语义遗漏——悄悄删掉限定意义的从句或修饰语。实体替换——把一个专有名词换成同类别的另一个。极性反转——把"不推荐"翻成"推荐"，把"大于"翻成"小于"。

这些错误的共同特点是：自动化指标评分高，但实际问题严重。

用MQM给LLM输出分类打分

MQM的错误分类是层级化的。到了LLM时代，准确性维度需要被重点关注，因为流畅性错误已经很少见了。

错误分布怎么变的：NMT vs LLM

错误类别	NMT（2020）	LLM（2026）	变化趋势
准确性 — 误译	28%	22%	↓
准确性 — 添加	3%	18%	↑↑↑
准确性 — 遗漏	15%	12%	↓
流畅性 — 语法	22%	3%	↓↓↓
流畅性 — 语域	8%	5%	↓
术语	18%	25%	↑
风格	6%	15%	↑

最扎眼的变化是准确性 — 添加：LLM往译文里塞原文没有的信息，频率是传统NMT的6倍。这就是幻觉，也是自动化指标最难发现的那类错误。

中文翻译这个问题更突出。中文是高语境语言，LLM翻的时候特别喜欢"补全"它觉得隐含的东西，导致中文译文里的添加型幻觉比例高于其他语言。通义千问MT和DeepSeek-V3在中文准确性上比GPT-5好一些，但仍然需要MQM来系统性地兜底。

严重级别怎么定

给LLM输出做MQM评审时，严重级别的标准得校准好：

严重级别	定义	扣分	示例
关键	在安全/法律/财务语境中改变含义	25	剂量"两次"→"三次"
重大	含义错误但风险较低的语境	5	添加无依据的营销声明
轻微	细微偏差，含义保留	1	语域略有不匹配
中性	偏好差异，非错误	0	同义词选择

质量评分算法：

评分 = 100 -（扣分总计 / 字数 × 100）

行业阈值：

95+：可直接发布
90-95：简单审校后可接受
85-90：需要译后编辑
<85：退回重译

人工MQM + 自动化指标 = 完整质量图景

两种方法单独都不够用。最优解是两者组合。

两层评估架构

第一层：自动化筛查（覆盖100%片段）

所有翻译片段都过一遍COMET-KIWI。这能抓住严重的流畅性错误，过滤掉明显的低质量翻译。快、便宜、可规模化。

第二层：人工MQM评审（覆盖10-20%片段）

抽一部分片段给人工评审，抽样的优先级是：COMET评分落在模糊区间（0.80-0.90）的片段、高风险领域（医疗、法律、金融）的片段、源文复杂度高的片段（长句、嵌套列表、条件句），加上一些随机样本做校准。

两层合起来能抓住92-95%的所有错误，人工评审只需要覆盖总量的一小部分。

成本算一笔账

以每月处理100万字的管线为例：

方法	月度成本	错误发现率	出结果时间
仅COMET	$50	65%	分钟级
仅人工MQM	$15,000	98%	5-7天
混合方案（COMET + 15% MQM）	$2,300	94%	1-2天

混合方案的错误发现率接近纯人工，成本低了85%。

中国企业的成本可以更低——国内专业译审人员的费率大约是国际市场的40-60%。这意味着混合方案的实际成本可以降到**$1,200-1,500/月**。

KTTC怎么做MQM评估

KTTC把上面说的两层方法变成了可以直接用的工作流。

片段级标注

评审员在源文和译文并排的界面里工作，直接在译文上高亮错误片段，标上错误类别（准确性、流畅性、术语、风格、本地化惯例）、子类别（比如准确性→添加、准确性→遗漏）和严重级别（关键、重大、轻微）。平台自动算MQM评分，支持片段级、文档级和项目级汇总。

多模型对比模式

评估不同LLM的输出时，KTTC把各模型的译文匿名并排展示。评审员独立标注每个版本，标完之后平台才揭示对应的模型名。这么做是为了消除"我知道这是Claude翻的所以给高分"这种偏见。

时间长了，你会积累出一张经验性的模型能力地图——哪个模型在哪种内容和语言对上表现最好。这对路由优化太有用了。

自动标记

KTTC的自动化层会根据以下规则把需要优先人工审核的片段标出来：

数字偏差检测——比较源文和译文中的数字，对不上就触发审核。长度比异常——译文比预期长很多，可能塞了多余内容。术语违规——用了未经批准的术语。低置信度分数——COMET-KIWI评分低于设定阈值。

这些标记把人工评审的命中率提高了3-4倍，钱花在刀刃上。

四个实际评分案例

案例1：幻觉添加（关键级别）

	文本
源文（法语）：	Le contrat prend effet le 1er mars 2026.
参考译文：	合同于2026年3月1日生效。
LLM输出：	合同于2026年3月1日生效，有效期为12个月。

MQM标注： 错误片段"有效期为12个月"，类别：准确性→添加，严重级别：关键（法律语境，凭空编造了合同条款），扣25分。

这条输出的COMET评分是0.91——指标看到的是一个流畅完整的句子。只有人工MQM评审才能发现这个捏造的条款。

案例2：数字失真（关键级别）

	文本
源文（日语）：	投与量は1日2回、各10mgです。
参考译文：	剂量为每日两次，每次10毫克。
LLM输出：	剂量为每日一次，每次10毫克。

MQM标注： 错误片段"每日一次"，类别：准确性→误译，严重级别：关键（医疗剂量），扣25分。

案例3：语域不匹配（轻微级别）

	文本
源文（德语）：	Bitte wenden Sie sich an unseren Kundendienst.
参考译文：	请联系我们的客户服务部门。
LLM输出：	有啥问题直接找客服就行！

MQM标注： 类别：流畅性→语域，严重级别：轻微（正式源文用了过于口语化的表达），扣1分。

案例4：中文特有的添加型幻觉

	文本
源文（英语）：	The software supports Windows and macOS.
参考译文：	该软件支持Windows和macOS。
LLM输出：	该软件全面支持Windows和macOS系统，同时兼容主流Linux发行版。

MQM标注： 错误片段"全面""同时兼容主流Linux发行版"，类别：准确性→添加，严重级别：重大（技术规格，编造了不存在的平台支持），扣5分。

这是中文LLM翻译里非常典型的幻觉套路——模型觉得"只支持两个平台好像不够完整"，就自作主张补上了第三个。技术文档里这种错误特别危险。

搭建你自己的MQM实践

第一步：想清楚你最怕什么错

不同行业对MQM各类别的重视程度差别很大。医疗器械公司把准确性错误的权重调到最高天经地义；游戏公司可能更在意风格和本地化惯例。开评审之前先把严重级别的权重系数定好。

第二步：校准评审团队

评审员之间打分要一致，不然MQM评分就没有可信度。做法是开校准会议——让多位评审员标注同样的50-100个片段，然后讨论打分不一致的地方。正式用于生产决策之前，目标是Cohen's Kappa达到0.7以上。

第三步：把MQM接进翻译管线

MQM最大的价值是评分结果反馈回管线里。用它来调多模型路由规则、找系统性错误以改进提示词、设质量关卡（比如低于90分的批次打回重做）、在上线前给新模型做基准测试。

第四步：跟踪趋势

单次MQM评估只是一张快照。真正有用的是纵向追踪：模型更新后准确性错误是不是变多了？某个语言对是不是在退步？KTTC的分析仪表盘会自动呈现这些趋势。

五条实操建议

别只靠COMET评估LLM翻译。 它是为LLM之前的错误分布设计的，系统性地低估准确性问题。

上两层评估。 100%片段自动化筛查 + 10-20%人工MQM评审，用智能抽样把覆盖率拉到最高。

MQM里重点盯准确性。 对LLM输出来说，添加和遗漏是最高风险类别，给足权重。

用MQM数据反过来改进LLM。 评审中发现的错误模式可以拿来优化提示词、调术语表、重新训练路由分类器。

评审员校准不是可选项。 不一致的MQM评分比没有评分还糟。花时间做校准，这是整个体系的地基。

FAQ

MQM做大规模LLM翻译评估，是不是太慢太贵了？

不是——前提是你用混合方案。不需要每个片段都做MQM评审。两层方法（自动化筛查+抽样人工评审）的成本在每千字$2-3，错误捕获率94%以上。KTTC通过自动化抽样、标注界面和评分汇总把这个流程跑通了。用国内评审团队的话，成本还能再降。

能不能用LLM代替人工做MQM评估？

"LLM当评审员"这个方向在进步，但对最关键的错误类型还是不可靠——幻觉添加和细微语义扭曲。用一个LLM评另一个LLM的翻译会产生共同盲区：两个模型可能都觉得幻觉内容看起来挺合理的。初步筛查可以用LLM，但MQM标注环节必须有人参与。

MQM跟COMET、MetricX是什么关系？冲突吗？

不冲突，互补。COMET和MetricX是自动化指标——快、能规模化、适合做筛查。MQM是人工标注框架——更慢更贵，但在检测关键错误上准确性远超自动化指标。最佳方案是两者一起用：自动化负责广度，MQM负责深度。

做可靠的MQM评估需要多大样本？

单个文档或批次的质量评估，至少评审200-300个片段（大约2,000-3,000字）。如果要比较两个模型，数量翻倍——每个模型300+片段，最好用同一批源文。KTTC的多模型对比模式就是为这个场景设计的。