别再纠结"选哪个模型"了

一年前大家还在吵：翻译该用GPT还是Claude？现在回头看，这个问题问错了。没有哪个模型能在所有语言对、所有内容类型上同时拿第一。 我们团队测下来，2026年翻译质量最高的项目，清一色都在同时跑好几个模型——根据每个片段的特点，把它送到最合适的引擎去处理。

这篇文章拆解五大主流翻译引擎各自的长短板，讲清楚什么情况该用哪个，再聊聊混合路由策略怎么靠TQA评分把质量提上去、成本压下来30-40%。

基准测试全面对比

下表覆盖六个评估维度，数据来源包括内部测试、WMT-2025共享任务结果和KTTC平台用户的生产数据。分数归一化到0-100（越高越好）。

维度	GPT-5	Claude 4	通义千问MT	DeepSeek-V3	DeepL
COMET-KIWI（综合）	88.2	86.9	87.5	85.1	84.7
中日韩准确度	82	79	93	88	76
文学/语调	84	91	78	74	80
技术术语	86	83	84	90	82
低资源语言对	85	78	72	70	65
速度（token/秒）	120	95	140	160	—
每百万token成本	$6.00	$7.50	$1.20	$0.80	$25*

DeepL按字符计费，此处换算为等效token成本以便对比。

中文市场的朋友请注意这组数字：通义千问MT和DeepSeek-V3在中日韩语言对上全面超过了海外竞品，而且价格只有GPT-5的六分之一到八分之一。我第一次跑这组测试时，说实话自己也挺意外的。

什么情况用什么模型

选模型不是选"最好的"，是把模型优势跟你的具体任务对上号。

按语言对来选

语言对	推荐首选	备选
中 <-> 英	通义千问MT	DeepSeek-V3
日/韩 <-> 英	通义千问MT	GPT-5
中 <-> 日/韩	通义千问MT	DeepSeek-V3
英 <-> 德/法/西	GPT-5	DeepL
英 <-> 俄	GPT-5	DeepSeek-V3
低资源语言对	GPT-5	Claude 4

中日韩之间的互译是国产模型的绝对主场。通义千问MT在中日互译上的COMET分数比GPT-5高出11个点——你想想看，翻译质量评估里11分的差距意味着什么？基本上是"明显更好"和"将就能用"的区别。

按内容类型来选

营销文案和创意内容——Claude 4保留品牌调性和情感色彩确实是一把好手。但如果是中文营销文案，通义千问MT的本土化表达更地道。我们的做法是两者结合：Claude出英文方向的创意翻译，通义千问MT管中文方向。

技术文档——DeepSeek-V3处理代码片段、API参考和工程术语非常利索，成本只有GPT-5的七分之一。中文技术文档它更拿手，因为训练数据里中文技术语料很多。

法律和监管文本——GPT-5在跨司法管辖区的法律术语覆盖面最广。但我建议一定搭配专业术语表，别让模型自由发挥。

电商产品描述——这种场景量大、要求速度。DeepSeek-V3的吞吐量优势让它成了批量目录翻译的实用选择；中日韩电商场景交给通义千问MT。

文学和编辑内容——英文文学翻译Claude 4领先。但翻中文文学我更推荐通义千问MT——它对中文语境、典故和修辞的理解确实到位。

高风险领域怎么办

医疗、制药、航空这类安全关键型内容，不管基准分数多好看，任何LLM都不该在没人审过的情况下直接发布。混合策略照样用——选最优模型是为了让后面人工修改量降到最少。

混合路由策略怎么搭

翻译路由器是你的内容管线和LLM集群之间的一个中间层。它拿到每个片段后分析元数据——语言对、领域标签、内容类型、术语表要求——然后把请求分发到最合适的模型。

工作流程

源语言片段 │ ▼ ┌─────────────┐ │ 路由器 │ ← 规则 + ML分类器 │ │ └──────┬──────┘ │ ┌────┼────┬─────────┐ ▼ ▼ ▼ ▼ GPT-5 C4 千问MT DeepSeek │ │ │ │ └────┴────┴─────────┘ │ ▼ ┌─────────────┐ │ TQA评分 │ ← MQM / COMET / 人工 │ 反馈回路 │ └─────────────┘

三种路由方法

基于规则的路由——就是根据语言对和内容标签写if/else逻辑。实施快，能覆盖80%的场景。我建议从这里起步，别一上来就搞复杂的。

基于分类器的路由——用历史TQA评分训练一个轻量级模型，让它预测哪个LLM对给定片段表现最好。需要大概10,000个已评分片段才能跑起来。

竞争式路由——同一个片段同时发给两三个模型，用COMET-KIWI或MetricX自动评分，挑最好的那个。质量最高但费用也最高，只适合高端内容。

初始路由规则示例

条件	路由至
`lang_pair IN (zh, ja, ko)`	通义千问MT
`content_type = literary AND target_lang = zh`	通义千问MT
`content_type = literary AND target_lang != zh`	Claude 4
`content_type = technical AND cost_tier = budget`	DeepSeek-V3
`lang_pair = low_resource`	GPT-5
`default`	GPT-5

针对中文市场的路由跟全球策略不太一样：中日韩相关的流量默认就该走国产模型，只有低资源语言对这类特殊场景才需要GPT-5接手。

多模型比较，怎么判断谁的输出更好

跑多个模型很简单。客观判断哪个输出更好才是真正的难题——靠主观感觉在大规模场景下根本不靠谱。

KTTC这类平台的做法是：把不同模型的输出并排拉出来，让评审员用MQM标注体系打分。准确性、流畅性、术语、风格——每个维度独立评分，平台汇总出每个模型在每个语言对上的质量画像。

时间一长，这些数据就变成了路由分类器的训练信号：评估做得越多，路由器就越聪明。

KTTC还有一个实用功能：跨所有模型自动应用术语表。不管哪个LLM生成翻译，术语都保持一致。

成本到底差多少

拿一个真实场景算账：某SaaS公司每月翻译1000万token，目标语言8种。

策略	月度成本	平均COMET	MQM错误/千词
仅GPT-5	$480	88.2	12.4
仅DeepSeek-V3	$64	85.1	18.7
仅DeepL	$2,000	84.7	15.1
混合路由	$185	89.1	9.8

混合策略比单用GPT-5便宜61%，质量反而更高——因为每个片段都让最合适的模型来处理。省下的钱主要来自把高频、低复杂度片段分流到DeepSeek-V3和通义千问MT。

对于以中日韩翻译为主的中国企业，优势更明显。如果80%的翻译量集中在CJK语言对，月度成本可以压到**$100以下**，因为大头流量都由通义千问MT和DeepSeek-V3接了。

怎么把钱花到刀刃上

先从两个模型起步。 通义千问MT当中日韩主力，GPT-5兜底其他语言，先覆盖大部分需求再说。

先把评估体系搭起来。 没有靠谱的TQA数据，路由优化就是瞎调。KTTC这样的平台提供评分基础设施，帮你快速积累数据。

每季度重新测一轮。 模型更新可能改变质量表现。上个季度DeepSeek-V3翻技术文档最强，不代表下个季度还是。

动手干的时候按这个顺序来

先审计你的内容构成——按语言对、内容类型、领域把翻译量分个类。这就是路由规则的输入数据。

然后启动双模型试点——用当前模型和一个备选模型翻译500-1,000个代表性片段，用MQM给两边打分。

接着建简单路由规则——拿本文的决策矩阵做起点，根据TQA数据一轮轮迭代。

再把评分流程自动化——COMET-KIWI做快速自动检查，人工MQM评审留给高风险内容和周期性校准。

最后追踪每质量点的成本。目标不是最便宜的翻译，也不是最高的分数，而是针对你自己内容画像的最优性价比。

FAQ

如果只翻译一两种语言，还有必要用多模型吗？

有。即使只有一个语言对，不同内容类型也适合不同模型。比如中英技术文档用DeepSeek-V3可能得分更高，而同一语言对的营销文案用通义千问MT效果更好。质量提升和成本节省在语言数量少的时候一样会叠加。

训练路由分类器需要多少标注数据？

基于规则的路由不需要训练数据——靠领域经验就行。分类器的话，建议攒5,000-10,000个已评分片段，分散在各语言对和内容类型中。通过KTTC的MQM评审工作流，正常生产量跑几周就能凑够。

文档内切换模型会不会导致术语不一致？

这确实是个需要留心的问题。解法是术语表管控——确保所有模型用同一份术语表和风格指南。KTTC的术语表注入功能可以跨所有LLM统一术语，把模型间不一致的最常见来源堵死。

通义千问MT和DeepSeek-V3选哪个做中文翻译的主力？

两者各有所长。通义千问MT在中日韩互译的准确性上更强，特别是涉及文化语境和惯用表达的时候。DeepSeek-V3在技术内容上更厉害，速度更快、成本更低。我的建议是：通义千问MT处理一般性内容和文学翻译，DeepSeek-V3处理技术文档和大批量任务。两个搭着用，能覆盖中文翻译需求的90%以上。