AI LQA vs MTQE:2025年翻译质量评估该选哪个
做翻译质量评估,2025年有两条主流的自动化路线:AI LQA(AI驱动的语言质量保证)和MTQE(机器翻译质量评估)。两个都用AI,但干的活完全不同——一个给你分数,一个给你诊断报告。搞混了会踩坑。
这篇文章把两者的区别、各自适合的场景、以及怎么组合使用都讲清楚。
MTQE是什么
MTQE的全称是Machine Translation Quality Estimation。它做的事情很简单:看一对源文-译文,预测一个质量分数。不需要人工参考译文,直接给出"这个翻译大概有多好"的数值判断。
源文: "The server is temporarily unavailable." MT输出: "服务器暂时不可用。" MTQE分数: 0.92(高置信度,大概率可用) 模型是从人工评分的翻译样本里学出来的。主流架构有这几种:
| 架构 | 描述 | 示例 |
|---|---|---|
| COMET | 跨语言优化翻译评估指标 | 最先进的神经网络指标 |
| BLEURT | 基于BERT的学习评估指标 | Google的训练质量评估器 |
| 质量评估 | 无参考直接预测 | 用于生产MT系统 |
MTQE的好处很直接:速度快(毫秒级),规模大(每小时几百万个片段),训练好之后每个片段的成本几乎为零,嵌入MT管道很容易,快速筛出需要审核的片段。
但它也有明显的短板。只有分数没有解释——你知道这个片段"不太好",但不知道哪里不好。质量依赖训练数据,碰到没见过的领域可能判断失准。中等分数特别难处理,0.75到底是修一修还是重翻?分数也没法直接对应到MQM的错误类型。
AI LQA是什么
AI LQA用大语言模型做详细的翻译质量评估,输出跟人工LQA评估员一样的结构化错误标注。
源文: "The annual report is due by December 31." 译文: "年度报告必须在1月31日前提交。" AI LQA输出: - 错误1: 误译(准确性) - "December"被翻译为"1月"(January) - 严重程度: 重要 - 扣分: 5分 - MQM分数: 95 AI LQA的优势在于信息量。它告诉你哪里错了、什么类型的错误、多严重、为什么算错。这些信息对译者培训、供应商管理、SLA验证都有用。
代价是什么?慢——每个片段要几秒,MTQE是几毫秒。贵——每个片段都有LLM推理成本。偶尔会"幻觉"——标记不存在的错误或漏掉真实错误。需要校准。结果在不同运行之间可能略有差异。
正面对比
目的和输出
| 方面 | MTQE | AI LQA |
|---|---|---|
| 主要目的 | 预测整体质量 | 识别具体错误 |
| 输出类型 | 数值分数(0-1或0-100) | 错误标注 + 分数 |
| 错误详情 | 无 | 完整MQM分类 |
| 可解释性 | 低(黑盒) | 高(自然语言) |
性能
| 方面 | MTQE | AI LQA |
|---|---|---|
| 速度 | 每片段约1毫秒 | 每片段约2-5秒 |
| 吞吐量 | 每小时数百万 | 每小时数千 |
| 每片段成本 | 约$0.00001 | 约$0.001-0.01 |
| 可扩展性 | 优秀 | 中等 |
质量评估能力
| 方面 | MTQE | AI LQA |
|---|---|---|
| 准确性 | 排序效果好 | 错误检测效果好 |
| 粒度 | 仅片段级 | 错误级详情 |
| 校准 | 领域特定训练 | 提示词工程 |
| 与人类相关性 | 高(训练良好时) | 高(提示词良好时) |
用在哪里合适
| 用例 | MTQE | AI LQA |
|---|---|---|
| MT输出分流 | 优秀 | 过度 |
| 供应商比较 | 有限 | 优秀 |
| 译者反馈 | 差 | 优秀 |
| SLA验证 | 有限 | 优秀 |
| 实时过滤 | 优秀 | 太慢 |
| 后编辑指导 | 有限 | 优秀 |
什么时候用MTQE
MTQE最适合"快速决策"的场景。
实时过滤MT输出——分数高的自动放行,中等的排队审核,低的重翻:
for segment in mt_output: score = mtqe_model.predict(source, target) if score >= 0.85: publish(segment) elif score >= 0.60: queue_for_review(segment) else: queue_for_retranslation(segment) 比较多个MT引擎的表现:
| 引擎 | 平均MTQE分数 | 成本 | 建议 |
|---|---|---|---|
| DeepL | 0.89 | $25/百万字符 | 质量最佳 |
| 0.85 | $20/百万字符 | 平衡之选 | |
| 自定义NMT | 0.82 | $5/百万字符 | 预算选项 |
分配人工审核资源——高分跳过,中分抽查,低分全查。
把内容路由到合适的翻译方式——MTQE 0.90以上原始MT就够了,0.70-0.90轻度后编辑,0.70以下完整后编辑或找人翻。
什么时候用AI LQA
AI LQA适合"需要知道为什么"的场景。
给译者做具体反馈——不是"你这段分数低",而是"片段47里Dashboard在前面翻成了'控制面板',这里翻成了'仪表盘',按术语表统一"。
生成符合ISO 5060的质量报告:
| 类别 | 关键 | 重要 | 轻微 | 扣分 |
|---|---|---|---|---|
| 准确性 | 0 | 2 | 3 | 13 |
| 流畅性 | 0 | 1 | 5 | 10 |
| 术语 | 0 | 0 | 4 | 4 |
| 总计 | 0 | 3 | 12 | 27 |
| MQM分数 | 97.3 |
跟踪供应商质量趋势:
| 供应商 | 2024 Q4 | 2025 Q1 | 趋势 | 问题 |
|---|---|---|---|---|
| 机构A | 96.2 | 97.1 | ↑ | 术语改进 |
| 机构B | 94.8 | 93.5 | ↓ | 准确性下降 |
| 自由译者C | 97.5 | 97.8 | → | 质量稳定 |
还有培训数据生成(找出译者最常犯的错误类型)和合规验证(合同要求MQM≥95,这批评出来96.3,通过)。
两个一起用才是最优解
说实话,单独用哪个都有缺陷。MTQE便宜快速但没有诊断信息,AI LQA信息丰富但贵且慢。拼在一起刚好互补。
┌─────────────────┐ │ MT输出 │ └────────┬────────┘ │ ┌────────▼────────┐ │ MTQE │ │ (快速过滤) │ └────────┬────────┘ │ ┌───────────────────┼───────────────────┐ │ │ │ 分数 ≥ 0.90 0.70-0.90 分数 < 0.70 │ │ │ ▼ ▼ ▼ ┌─────────┐ ┌───────────┐ ┌───────────┐ │直接发布 │ │ AI LQA │ │ 人工 │ │ │ │ 审核 │ │ 翻译 │ └─────────┘ └─────┬─────┘ └───────────┘ │ ┌─────────────┼─────────────┐ │ │ │ 无错误 仅轻微错误 重要/关键错误 │ │ │ ▼ ▼ ▼ ┌─────────┐ ┌─────────┐ ┌───────────┐ │ 发布 │ │ 自动 │ │ 人工 │ │ │ │ 修复 │ │ 审核 │ └─────────┘ └─────────┘ └───────────┘ MTQE先快速筛一遍,高分的直接过,低分的直接送人工。中间那批才用AI LQA做精细诊断——这批通常占30%左右,大幅降低了AI LQA的成本。
实施步骤也不复杂。
配置MTQE阈值——不同内容类型用不同标准:
THRESHOLDS = { "marketing": {"high": 0.92, "low": 0.75}, "technical": {"high": 0.88, "low": 0.70}, "legal": {"high": 0.95, "low": 0.85}, } 设置AI LQA管道:
AI_LQA_CONFIG = { "error_categories": ["Accuracy", "Fluency", "Terminology", "Style"], "severity_weights": {"critical": 25, "major": 5, "minor": 1}, "pass_threshold": 95, } 路由规则:
| MTQE分数 | AI LQA结果 | 操作 |
|---|---|---|
| ≥ 0.90 | 不适用 | 自动发布 |
| 0.70-0.90 | 无错误 | 发布 |
| 0.70-0.90 | 仅轻微 | 尽可能自动修复 |
| 0.70-0.90 | 重要/关键 | 人工审核 |
| < 0.70 | 不适用 | 人工翻译 |
然后持续监控误报率、漏报率、人工审核量和发布内容的平均质量分数,不断调整阈值。
算笔账
假设每月100万个片段。
| 方法 | 成本 | 覆盖率 | 错误详情 |
|---|---|---|---|
| 人工LQA | $5,000 | 5% | 完整 |
| 仅MTQE | $10 | 100% | 无 |
| 仅AI LQA | $5,000 | 100% | 完整 |
| 混合 | $3,510 | 100% | 按需提供 |
混合方案的构成:全部MTQE $10 + 30%走AI LQA $1,500 + 2%送人工审核 $2,000 = $3,510。100%覆盖,需要详情的地方有详情。
我觉得这个账算完,答案就很明显了。
工具选择
MTQE工具:
| 工具 | 类型 | 优势 |
|---|---|---|
| COMET | 开源 | 最先进的准确性 |
| ModernMT QE | 商业 | 生产就绪 |
| Google AutoML | 云端 | 易于训练 |
| Amazon Translate QE | 云端 | AWS集成 |
AI LQA工具:
| 工具 | 类型 | 优势 |
|---|---|---|
| KTTC | SaaS | 完整MQM,符合ISO 5060 |
| Phrase Auto LQA | 企业级 | TMS集成 |
| ContentQuo | 专业化 | 供应商中立 |
| 自定义GPT-4 | DIY | 灵活,需要工程开发 |
FAQ
MTQE和AI LQA有什么区别?
MTQE(机器翻译质量评估)预测翻译的单一质量分数,但不解释原因。AI LQA(AI驱动的语言质量保证)识别具体错误,按类型和严重程度分类,并提供详细反馈。MTQE更快更便宜;AI LQA更有信息量和可操作性。
MTQE和AI LQA哪个更准确?
取决于您的目标。MTQE在按整体质量排序翻译方面高度准确,与人工判断有很好的相关性。AI LQA更擅长识别人工会标记的具体错误。就错误检测准确性而言,AI LQA目前优于MTQE,但MTQE在大规模"足够好"的二元决策上更可靠。
MTQE能否替代人工质量评估?
MTQE可以替代低风险分流决策(哪些片段需要审核)的人工评估,但不能替代详细的质量评估。它无法提供译者培训或SLA合规报告所需的具体错误反馈。对于这些用例,仍然需要AI LQA或人工评估。
MTQE分数与MQM分数如何对应?
没有直接映射。MTQE分数(通常0-1或0-100)代表预测质量,但不对应MQM扣分。MTQE为0.85的片段可能有92或98的MQM分数,取决于错误类型。如果需要MQM兼容的评分,请使用AI LQA,它输出可转换为MQM分数的错误标注。
我应该训练自己的MTQE模型吗?
如果满足以下条件,请训练自己的模型:您有领域特定内容(医疗、法律),您有来自自己评估的标注数据,您需要针对特定用例的最高准确性。如果满足以下条件,请使用现成模型(COMET、BLEURT):您处理的是通用内容,您没有标注训练数据,或者您需要快速启动。
看远一点
AI LQA和MTQE不是非此即彼的关系。MTQE管实时过滤、引擎选择和工作量分流,AI LQA管详细诊断、供应商管理和合规。拼在一起用,成本效益和覆盖率都是最好的。
翻译行业正在快速接受这种混合做法。我判断,能把两种技术熟练组合的团队,在质量控制、响应速度和成本管理上都会拉开差距。不会很久,两三年内这会变成行业的标准配置。
准备好实施AI驱动的质量评估了吗?试用KTTC,获得基于MQM错误分类的混合MTQE和AI LQA。
