Skip to main content

AI LQA vs MTQE:2025年翻译质量评估该选哪个

alex-chen2025/1/85 min read
ai-lqamtqe翻译质量机器翻译llm质量评估

做翻译质量评估,2025年有两条主流的自动化路线:AI LQA(AI驱动的语言质量保证)和MTQE(机器翻译质量评估)。两个都用AI,但干的活完全不同——一个给你分数,一个给你诊断报告。搞混了会踩坑。

这篇文章把两者的区别、各自适合的场景、以及怎么组合使用都讲清楚。

MTQE是什么

MTQE的全称是Machine Translation Quality Estimation。它做的事情很简单:看一对源文-译文,预测一个质量分数。不需要人工参考译文,直接给出"这个翻译大概有多好"的数值判断。

源文: "The server is temporarily unavailable." MT输出: "服务器暂时不可用。" MTQE分数: 0.92(高置信度,大概率可用) 

模型是从人工评分的翻译样本里学出来的。主流架构有这几种:

架构描述示例
COMET跨语言优化翻译评估指标最先进的神经网络指标
BLEURT基于BERT的学习评估指标Google的训练质量评估器
质量评估无参考直接预测用于生产MT系统

MTQE的好处很直接:速度快(毫秒级),规模大(每小时几百万个片段),训练好之后每个片段的成本几乎为零,嵌入MT管道很容易,快速筛出需要审核的片段。

但它也有明显的短板。只有分数没有解释——你知道这个片段"不太好",但不知道哪里不好。质量依赖训练数据,碰到没见过的领域可能判断失准。中等分数特别难处理,0.75到底是修一修还是重翻?分数也没法直接对应到MQM的错误类型。

AI LQA是什么

AI LQA用大语言模型做详细的翻译质量评估,输出跟人工LQA评估员一样的结构化错误标注。

源文: "The annual report is due by December 31." 译文: "年度报告必须在1月31日前提交。" AI LQA输出: - 错误1: 误译(准确性) - "December"被翻译为"1月"(January) - 严重程度: 重要 - 扣分: 5分 - MQM分数: 95 

AI LQA的优势在于信息量。它告诉你哪里错了、什么类型的错误、多严重、为什么算错。这些信息对译者培训、供应商管理、SLA验证都有用。

代价是什么?慢——每个片段要几秒,MTQE是几毫秒。贵——每个片段都有LLM推理成本。偶尔会"幻觉"——标记不存在的错误或漏掉真实错误。需要校准。结果在不同运行之间可能略有差异。

正面对比

目的和输出

方面MTQEAI LQA
主要目的预测整体质量识别具体错误
输出类型数值分数(0-1或0-100)错误标注 + 分数
错误详情完整MQM分类
可解释性低(黑盒)高(自然语言)

性能

方面MTQEAI LQA
速度每片段约1毫秒每片段约2-5秒
吞吐量每小时数百万每小时数千
每片段成本约$0.00001约$0.001-0.01
可扩展性优秀中等

质量评估能力

方面MTQEAI LQA
准确性排序效果好错误检测效果好
粒度仅片段级错误级详情
校准领域特定训练提示词工程
与人类相关性高(训练良好时)高(提示词良好时)

用在哪里合适

用例MTQEAI LQA
MT输出分流优秀过度
供应商比较有限优秀
译者反馈优秀
SLA验证有限优秀
实时过滤优秀太慢
后编辑指导有限优秀

什么时候用MTQE

MTQE最适合"快速决策"的场景。

实时过滤MT输出——分数高的自动放行,中等的排队审核,低的重翻:

for segment in mt_output: score = mtqe_model.predict(source, target) if score >= 0.85: publish(segment) elif score >= 0.60: queue_for_review(segment) else: queue_for_retranslation(segment) 

比较多个MT引擎的表现:

引擎平均MTQE分数成本建议
DeepL0.89$25/百万字符质量最佳
Google0.85$20/百万字符平衡之选
自定义NMT0.82$5/百万字符预算选项

分配人工审核资源——高分跳过,中分抽查,低分全查。

把内容路由到合适的翻译方式——MTQE 0.90以上原始MT就够了,0.70-0.90轻度后编辑,0.70以下完整后编辑或找人翻。

什么时候用AI LQA

AI LQA适合"需要知道为什么"的场景。

给译者做具体反馈——不是"你这段分数低",而是"片段47里Dashboard在前面翻成了'控制面板',这里翻成了'仪表盘',按术语表统一"。

生成符合ISO 5060的质量报告:

类别关键重要轻微扣分
准确性02313
流畅性01510
术语0044
总计031227
MQM分数97.3

跟踪供应商质量趋势:

供应商2024 Q42025 Q1趋势问题
机构A96.297.1术语改进
机构B94.893.5准确性下降
自由译者C97.597.8质量稳定

还有培训数据生成(找出译者最常犯的错误类型)和合规验证(合同要求MQM≥95,这批评出来96.3,通过)。

两个一起用才是最优解

说实话,单独用哪个都有缺陷。MTQE便宜快速但没有诊断信息,AI LQA信息丰富但贵且慢。拼在一起刚好互补。

 ┌─────────────────┐ │ MT输出 │ └────────┬────────┘ │ ┌────────▼────────┐ │ MTQE │ │ (快速过滤) │ └────────┬────────┘ │ ┌───────────────────┼───────────────────┐ │ │ │ 分数 ≥ 0.90 0.70-0.90 分数 < 0.70 │ │ │ ▼ ▼ ▼ ┌─────────┐ ┌───────────┐ ┌───────────┐ │直接发布 │ │ AI LQA │ │ 人工 │ │ │ │ 审核 │ │ 翻译 │ └─────────┘ └─────┬─────┘ └───────────┘ │ ┌─────────────┼─────────────┐ │ │ │ 无错误 仅轻微错误 重要/关键错误 │ │ │ ▼ ▼ ▼ ┌─────────┐ ┌─────────┐ ┌───────────┐ │ 发布 │ │ 自动 │ │ 人工 │ │ │ │ 修复 │ │ 审核 │ └─────────┘ └─────────┘ └───────────┘ 

MTQE先快速筛一遍,高分的直接过,低分的直接送人工。中间那批才用AI LQA做精细诊断——这批通常占30%左右,大幅降低了AI LQA的成本。

实施步骤也不复杂。

配置MTQE阈值——不同内容类型用不同标准:

THRESHOLDS = { "marketing": {"high": 0.92, "low": 0.75}, "technical": {"high": 0.88, "low": 0.70}, "legal": {"high": 0.95, "low": 0.85}, } 

设置AI LQA管道:

AI_LQA_CONFIG = { "error_categories": ["Accuracy", "Fluency", "Terminology", "Style"], "severity_weights": {"critical": 25, "major": 5, "minor": 1}, "pass_threshold": 95, } 

路由规则:

MTQE分数AI LQA结果操作
≥ 0.90不适用自动发布
0.70-0.90无错误发布
0.70-0.90仅轻微尽可能自动修复
0.70-0.90重要/关键人工审核
< 0.70不适用人工翻译

然后持续监控误报率、漏报率、人工审核量和发布内容的平均质量分数,不断调整阈值。

算笔账

假设每月100万个片段。

方法成本覆盖率错误详情
人工LQA$5,0005%完整
仅MTQE$10100%
仅AI LQA$5,000100%完整
混合$3,510100%按需提供

混合方案的构成:全部MTQE $10 + 30%走AI LQA $1,500 + 2%送人工审核 $2,000 = $3,510。100%覆盖,需要详情的地方有详情。

我觉得这个账算完,答案就很明显了。

工具选择

MTQE工具:

工具类型优势
COMET开源最先进的准确性
ModernMT QE商业生产就绪
Google AutoML云端易于训练
Amazon Translate QE云端AWS集成

AI LQA工具:

工具类型优势
KTTCSaaS完整MQM,符合ISO 5060
Phrase Auto LQA企业级TMS集成
ContentQuo专业化供应商中立
自定义GPT-4DIY灵活,需要工程开发

FAQ

MTQE和AI LQA有什么区别?

MTQE(机器翻译质量评估)预测翻译的单一质量分数,但不解释原因。AI LQA(AI驱动的语言质量保证)识别具体错误,按类型和严重程度分类,并提供详细反馈。MTQE更快更便宜;AI LQA更有信息量和可操作性。

MTQE和AI LQA哪个更准确?

取决于您的目标。MTQE在按整体质量排序翻译方面高度准确,与人工判断有很好的相关性。AI LQA更擅长识别人工会标记的具体错误。就错误检测准确性而言,AI LQA目前优于MTQE,但MTQE在大规模"足够好"的二元决策上更可靠。

MTQE能否替代人工质量评估?

MTQE可以替代低风险分流决策(哪些片段需要审核)的人工评估,但不能替代详细的质量评估。它无法提供译者培训或SLA合规报告所需的具体错误反馈。对于这些用例,仍然需要AI LQA或人工评估。

MTQE分数与MQM分数如何对应?

没有直接映射。MTQE分数(通常0-1或0-100)代表预测质量,但不对应MQM扣分。MTQE为0.85的片段可能有92或98的MQM分数,取决于错误类型。如果需要MQM兼容的评分,请使用AI LQA,它输出可转换为MQM分数的错误标注。

我应该训练自己的MTQE模型吗?

如果满足以下条件,请训练自己的模型:您有领域特定内容(医疗、法律),您有来自自己评估的标注数据,您需要针对特定用例的最高准确性。如果满足以下条件,请使用现成模型(COMET、BLEURT):您处理的是通用内容,您没有标注训练数据,或者您需要快速启动。

看远一点

AI LQA和MTQE不是非此即彼的关系。MTQE管实时过滤、引擎选择和工作量分流,AI LQA管详细诊断、供应商管理和合规。拼在一起用,成本效益和覆盖率都是最好的。

翻译行业正在快速接受这种混合做法。我判断,能把两种技术熟练组合的团队,在质量控制、响应速度和成本管理上都会拉开差距。不会很久,两三年内这会变成行业的标准配置。

准备好实施AI驱动的质量评估了吗?试用KTTC,获得基于MQM错误分类的混合MTQE和AI LQA。

We use cookies to improve your experience. Learn more in our Cookie Policy.