做翻译质量评估，2025年有两条主流的自动化路线：AI LQA（AI驱动的语言质量保证）和MTQE（机器翻译质量评估）。两个都用AI，但干的活完全不同——一个给你分数，一个给你诊断报告。搞混了会踩坑。

这篇文章把两者的区别、各自适合的场景、以及怎么组合使用都讲清楚。

MTQE是什么

MTQE的全称是Machine Translation Quality Estimation。它做的事情很简单：看一对源文-译文，预测一个质量分数。不需要人工参考译文，直接给出"这个翻译大概有多好"的数值判断。

源文: "The server is temporarily unavailable." MT输出: "服务器暂时不可用。" MTQE分数: 0.92（高置信度，大概率可用）

模型是从人工评分的翻译样本里学出来的。主流架构有这几种：

架构	描述	示例
COMET	跨语言优化翻译评估指标	最先进的神经网络指标
BLEURT	基于BERT的学习评估指标	Google的训练质量评估器
质量评估	无参考直接预测	用于生产MT系统

MTQE的好处很直接：速度快（毫秒级），规模大（每小时几百万个片段），训练好之后每个片段的成本几乎为零，嵌入MT管道很容易，快速筛出需要审核的片段。

但它也有明显的短板。只有分数没有解释——你知道这个片段"不太好"，但不知道哪里不好。质量依赖训练数据，碰到没见过的领域可能判断失准。中等分数特别难处理，0.75到底是修一修还是重翻？分数也没法直接对应到MQM的错误类型。

AI LQA是什么

AI LQA用大语言模型做详细的翻译质量评估，输出跟人工LQA评估员一样的结构化错误标注。

源文: "The annual report is due by December 31." 译文: "年度报告必须在1月31日前提交。" AI LQA输出: - 错误1: 误译（准确性） - "December"被翻译为"1月"（January） - 严重程度: 重要 - 扣分: 5分 - MQM分数: 95

AI LQA的优势在于信息量。它告诉你哪里错了、什么类型的错误、多严重、为什么算错。这些信息对译者培训、供应商管理、SLA验证都有用。

代价是什么？慢——每个片段要几秒，MTQE是几毫秒。贵——每个片段都有LLM推理成本。偶尔会"幻觉"——标记不存在的错误或漏掉真实错误。需要校准。结果在不同运行之间可能略有差异。

正面对比

目的和输出

方面	MTQE	AI LQA
主要目的	预测整体质量	识别具体错误
输出类型	数值分数（0-1或0-100）	错误标注 + 分数
错误详情	无	完整MQM分类
可解释性	低（黑盒）	高（自然语言）

性能

方面	MTQE	AI LQA
速度	每片段约1毫秒	每片段约2-5秒
吞吐量	每小时数百万	每小时数千
每片段成本	约$0.00001	约$0.001-0.01
可扩展性	优秀	中等

质量评估能力

方面	MTQE	AI LQA
准确性	排序效果好	错误检测效果好
粒度	仅片段级	错误级详情
校准	领域特定训练	提示词工程
与人类相关性	高（训练良好时）	高（提示词良好时）

用在哪里合适

用例	MTQE	AI LQA
MT输出分流	优秀	过度
供应商比较	有限	优秀
译者反馈	差	优秀
SLA验证	有限	优秀
实时过滤	优秀	太慢
后编辑指导	有限	优秀

什么时候用MTQE

MTQE最适合"快速决策"的场景。

实时过滤MT输出——分数高的自动放行，中等的排队审核，低的重翻：

for segment in mt_output: score = mtqe_model.predict(source, target) if score >= 0.85: publish(segment) elif score >= 0.60: queue_for_review(segment) else: queue_for_retranslation(segment)

比较多个MT引擎的表现：

引擎	平均MTQE分数	成本	建议
DeepL	0.89	$25/百万字符	质量最佳
Google	0.85	$20/百万字符	平衡之选
自定义NMT	0.82	$5/百万字符	预算选项

分配人工审核资源——高分跳过，中分抽查，低分全查。

把内容路由到合适的翻译方式——MTQE 0.90以上原始MT就够了，0.70-0.90轻度后编辑，0.70以下完整后编辑或找人翻。

什么时候用AI LQA

AI LQA适合"需要知道为什么"的场景。

给译者做具体反馈——不是"你这段分数低"，而是"片段47里Dashboard在前面翻成了'控制面板'，这里翻成了'仪表盘'，按术语表统一"。

生成符合ISO 5060的质量报告：

类别	关键	重要	轻微	扣分
准确性	0	2	3	13
流畅性	0	1	5	10
术语	0	0	4	4
总计	0	3	12	27
MQM分数				97.3

跟踪供应商质量趋势：

供应商	2024 Q4	2025 Q1	趋势	问题
机构A	96.2	97.1	↑	术语改进
机构B	94.8	93.5	↓	准确性下降
自由译者C	97.5	97.8	→	质量稳定

还有培训数据生成（找出译者最常犯的错误类型）和合规验证（合同要求MQM≥95，这批评出来96.3，通过）。

两个一起用才是最优解

说实话，单独用哪个都有缺陷。MTQE便宜快速但没有诊断信息，AI LQA信息丰富但贵且慢。拼在一起刚好互补。

 ┌─────────────────┐ │ MT输出 │ └────────┬────────┘ │ ┌────────▼────────┐ │ MTQE │ │ (快速过滤) │ └────────┬────────┘ │ ┌───────────────────┼───────────────────┐ │ │ │ 分数 ≥ 0.90 0.70-0.90 分数 < 0.70 │ │ │ ▼ ▼ ▼ ┌─────────┐ ┌───────────┐ ┌───────────┐ │直接发布 │ │ AI LQA │ │ 人工 │ │ │ │ 审核 │ │ 翻译 │ └─────────┘ └─────┬─────┘ └───────────┘ │ ┌─────────────┼─────────────┐ │ │ │ 无错误 仅轻微错误 重要/关键错误 │ │ │ ▼ ▼ ▼ ┌─────────┐ ┌─────────┐ ┌───────────┐ │ 发布 │ │ 自动 │ │ 人工 │ │ │ │ 修复 │ │ 审核 │ └─────────┘ └─────────┘ └───────────┘

MTQE先快速筛一遍，高分的直接过，低分的直接送人工。中间那批才用AI LQA做精细诊断——这批通常占30%左右，大幅降低了AI LQA的成本。

实施步骤也不复杂。

配置MTQE阈值——不同内容类型用不同标准：

THRESHOLDS = { "marketing": {"high": 0.92, "low": 0.75}, "technical": {"high": 0.88, "low": 0.70}, "legal": {"high": 0.95, "low": 0.85}, }

设置AI LQA管道：

AI_LQA_CONFIG = { "error_categories": ["Accuracy", "Fluency", "Terminology", "Style"], "severity_weights": {"critical": 25, "major": 5, "minor": 1}, "pass_threshold": 95, }

路由规则：

MTQE分数	AI LQA结果	操作
≥ 0.90	不适用	自动发布
0.70-0.90	无错误	发布
0.70-0.90	仅轻微	尽可能自动修复
0.70-0.90	重要/关键	人工审核
< 0.70	不适用	人工翻译

然后持续监控误报率、漏报率、人工审核量和发布内容的平均质量分数，不断调整阈值。

算笔账

假设每月100万个片段。

方法	成本	覆盖率	错误详情
人工LQA	$5,000	5%	完整
仅MTQE	$10	100%	无
仅AI LQA	$5,000	100%	完整
混合	$3,510	100%	按需提供

混合方案的构成：全部MTQE $10 + 30%走AI LQA $1,500 + 2%送人工审核 $2,000 = $3,510。100%覆盖，需要详情的地方有详情。

我觉得这个账算完，答案就很明显了。

工具选择

MTQE工具：

工具	类型	优势
COMET	开源	最先进的准确性
ModernMT QE	商业	生产就绪
Google AutoML	云端	易于训练
Amazon Translate QE	云端	AWS集成

AI LQA工具：

工具	类型	优势
KTTC	SaaS	完整MQM，符合ISO 5060
Phrase Auto LQA	企业级	TMS集成
ContentQuo	专业化	供应商中立
自定义GPT-4	DIY	灵活，需要工程开发

FAQ

MTQE和AI LQA有什么区别？

MTQE（机器翻译质量评估）预测翻译的单一质量分数，但不解释原因。AI LQA（AI驱动的语言质量保证）识别具体错误，按类型和严重程度分类，并提供详细反馈。MTQE更快更便宜；AI LQA更有信息量和可操作性。

MTQE和AI LQA哪个更准确？

取决于您的目标。MTQE在按整体质量排序翻译方面高度准确，与人工判断有很好的相关性。AI LQA更擅长识别人工会标记的具体错误。就错误检测准确性而言，AI LQA目前优于MTQE，但MTQE在大规模"足够好"的二元决策上更可靠。

MTQE能否替代人工质量评估？

MTQE可以替代低风险分流决策（哪些片段需要审核）的人工评估，但不能替代详细的质量评估。它无法提供译者培训或SLA合规报告所需的具体错误反馈。对于这些用例，仍然需要AI LQA或人工评估。

MTQE分数与MQM分数如何对应？

没有直接映射。MTQE分数（通常0-1或0-100）代表预测质量，但不对应MQM扣分。MTQE为0.85的片段可能有92或98的MQM分数，取决于错误类型。如果需要MQM兼容的评分，请使用AI LQA，它输出可转换为MQM分数的错误标注。

我应该训练自己的MTQE模型吗？

如果满足以下条件，请训练自己的模型：您有领域特定内容（医疗、法律），您有来自自己评估的标注数据，您需要针对特定用例的最高准确性。如果满足以下条件，请使用现成模型（COMET、BLEURT）：您处理的是通用内容，您没有标注训练数据，或者您需要快速启动。

看远一点

AI LQA和MTQE不是非此即彼的关系。MTQE管实时过滤、引擎选择和工作量分流，AI LQA管详细诊断、供应商管理和合规。拼在一起用，成本效益和覆盖率都是最好的。

翻译行业正在快速接受这种混合做法。我判断，能把两种技术熟练组合的团队，在质量控制、响应速度和成本管理上都会拉开差距。不会很久，两三年内这会变成行业的标准配置。