超越GPT-5：通过性能效率优化路由构建更优、更经济的LLM

摘要

在大型语言模型（LLM）的演进浪潮中，性能与效率之间的平衡始终是核心挑战。近期备受瞩目的GPT-5通过引入“测试时路由”（test-time routing）机制，试图化解这一难题，它能在推理阶段动态地将用户查询分配给高效或高能模型。在这项工作中，我们提出了一个名为“复仇者联盟-专业版”（Avengers-Pro）的测试时路由框架，它通过集成不同能力与效率的LLM集群，为所有性能-效率权衡场景提供了一个统一的解决方案。Avengers-Pro的核心机制在于：首先对传入的查询进行向量嵌入并进行聚类分析，然后基于一个可调节的“性能-效率得分”，将每个查询路由到最适合处理它的模型。我们在6个极具挑战性的基准测试中，对包括GPT-5-medium、Gemini-2.5-pro和Claude-opus-4.1在内的8个业界领先模型进行了评估。实验结果表明，Avengers-Pro取得了当前最佳水平：通过调整性能-效率权衡参数α，其平均准确率能比最强的单一模型（GPT-5-medium）高出7%。更重要的是，它能在达到与最强模型相当的平均准确率时，将成本降低27%；或者在达到最强模型约90%性能时，将成本大幅削减63%。最后，我们的框架成功绘制出一条帕累托前沿（Pareto frontier）曲线，这意味着在任何给定的成本预算下，Avengers-Pro都能提供最高的准确率；反之，在任何给定的准确率目标下，它都能实现最低的成本。这项工作不仅展示了智能路由的巨大潜力，也为构建更强大、更经济、更可扩展的下一代LLM系统开辟了新的道路。

引言：鱼与熊掌，能否兼得？

大家好，我是这项研究的主要参与者之一。今天，我想和大家聊聊一个在大型语言模型（LLM）领域里，我们每天都在面对的“世纪难题”：我们既想要模型像一位无所不知的智者，能解决最棘手的问题（极致的性能），又希望它像一位随叫随到的朋友，反应迅速且花费低廉（极致的效率）。这就像我们希望拥有一辆既有F1赛车性能，又有小型电单车能耗的超级座驾。在现实世界中，这几乎是不可能的。

OpenAI的GPT-5给了我们一个有趣的启示。他们不再执着于用一个“万能模型”包打天下，而是构建了一个系统：一个聪明的“快速模型”处理大部分日常问题，一个深邃的“思考模型”专攻难题，中间还有一个“实时路由器”负责分发任务。这个想法非常棒，它承认了“术业有专攻”。

生活化类比：想象一下一个超级医院。不是让每一位病人都去挂最昂贵的专家号，而是设立一个高效的预检分诊台。感冒发烧这类常见病，由社区医生（高效模型）快速处理；而疑难杂症，则由顶尖专家（高能模型）会诊。这个分诊台，就是“路由器”的核心思想。

受到这个启发，我们问自己：能不能把这个“分诊系统”做得更极致、更智能？如果医院里不止两位医生，而是一个由各科专家、资深医师、实习医生组成的庞大团队呢？我们能否创建一个“超级分诊AI”，为每一位病人（每一个查询）精确匹配最合适的医生（模型），从而让整个医院（模型系统）的运行达到成本和疗效的最佳平衡点？

这就是我们“Avengers-Pro”项目的初心。我们集结了一个由8个不同“超级英雄”——也就是业界顶尖的LLM——组成的联盟，并为它们设计了一个大脑中枢。这个中枢不仅要决定把任务交给谁，还要学会“精打细算”，在性能和成本之间找到那个最美的“黄金分割点”。我们的目标是证明：通过聪明的协作，一群模型的力量，可以超越任何一个单打独斗的“超级英雄”。

Avengers-Pro的核心机制：三步智能路由

我们的“超级分诊AI”是如何工作的呢？其实过程非常直观，可以概括为三个核心步骤：嵌入（Embedding）、聚类（Clustering）和评分（Scoring）。

第一步：给问题“画像”——查询嵌入

当一个问题（查询）被提出来时，我们首先要理解它到底在问什么。是关于历史知识的简单事实，还是需要复杂逻辑推理的编程难题？我们使用一个专门的“文本嵌入模型”，将问题的文字转换成一串长长的数字，也就是一个高维向量。

生活化类比：这就像给每个问题拍一张“语义快照”。相似的问题，它们的“快照”在数学空间中的位置也会非常接近。比如，“法国的首都是哪里？”和“巴黎是哪个国家的首都？”这两张快照就会紧挨在一起。

动画一：查询的语义空间之旅

不同颜色的点代表不同类型的问题。点击“开始”，它们会被嵌入到语义空间中，并根据相似性自动聚拢成不同的星团（簇）。

第二步：物以类聚——查询聚类

有了成千上万张“语义快照”后，我们就可以进行聚类了。通过K-means这类算法，系统会自动将这些快照分成不同的群组（簇）。每个簇都代表了一类语义上高度相似的问题。比如，可能会形成一个“代码调试簇”、一个“诗歌创作簇”和一个“科学计算簇”。这个过程是在线下完成的，为我们的路由决策打下了坚实的基础。

示意图一：不同模型的“能力指纹”

每个模型在不同类型问题（簇）上的表现各不相同。这就像每个超级英雄都有自己擅长的领域。有的擅长力量，有的擅长速度。

第三步：谁是最佳人选？——性能-效率评分

这是最关键的一步。对于每一个问题簇，我们会让“复仇者联盟”里的所有模型都去尝试回答，然后记录下它们在每个簇上的“准确率”（性能）和“花费”（效率）。接着，我们引入了一个非常重要的权衡参数 $\alpha$。通过下面这个公式，我们可以为每个模型在每个簇上计算出一个综合得分：

\[ \text{Score}_j^i = \alpha \cdot \tilde{p}_j^i + (1 - \alpha) \cdot (1 - \tilde{q}_j^i) \]

这里的 $\text{Score}_j^i$ 是模型 $i$ 在簇 $j$ 上的得分。 $\tilde{p}_j^i$ 是归一化后的性能（准确率），$\tilde{q}_j^i$ 是归一化后的成本。参数 $\alpha$ 的取值范围是 $[0, 1]$。

当 $\alpha = 1$ 时，我们只看重性能，不计成本，系统会永远选择最强的模型。
当 $\alpha = 0$ 时，我们只看重效率，不问效果，系统会永远选择最便宜的模型。
当 $\alpha$ 在0和1之间时，我们就在性能和效率之间寻找平衡。

当一个新问题进来时，系统会迅速找到与它最相似的几个簇，然后综合计算每个模型在这些簇上的总得分，得分最高的模型将被选中，执行本次任务。

动画二：智能路由的决策瞬间

一个新查询（星形）进入系统。系统根据其位置（语义）和当前的α值，动态计算并选择得分最高的模型（高亮的模型）来处理它。

α (效率 संतुलन 性能):

当前 α 值: 0.50 | 路由至: GPT-5-Medium

实验结果：令人振奋的发现

理论说起来总是很美好，但实践才是检验真理的唯一标准。我们在6个业界公认的“地狱难度”基准测试上，对我们的Avengers-Pro系统和8个顶尖的单一模型进行了全面的“大比武”。结果如何呢？

发现一：团队的力量远超个人

当我们把$\alpha$设为1，也就是追求极致性能时，Avengers-Pro的平均准确率达到了66.66%。而当时单打独斗最强的“英雄”——GPT-5-medium——的成绩是62.25%。这意味着，通过智能协作，我们的模型联盟性能净增了7%！这证明了1+1 > 2在模型世界里是成立的。

示意图二：性能巅峰对决

在追求极致性能（α=1.0）时，Avengers-Pro相较于最强的单一模型GPT-5-medium，展现出明显的优势。

发现二：省钱才是硬道理

更惊人的发现在于成本控制。我们调整$\alpha$到0.53，此时Avengers-Pro的性能与GPT-5-medium几乎持平（62.66% vs 62.25%）。但你猜成本怎么样？我们的系统只花费了$35.05，而GPT-5-medium需要$47.96。这意味着，在同样的性能下，我们节省了27%的成本！

如果我们再把标准放宽一点，追求GPT-5-medium 90%的性能（这已经和Gemini-2.5-pro相当了），我们的成本可以骤降到$17.81，足足节省了63%的费用。这对于任何需要大规模使用LLM的应用来说，都是一笔巨大的节省。

动画三：成本管家的智慧

拖动滑块，观察不同α值下，Avengers-Pro如何调整对不同成本模型的调用比例。α值低时偏爱经济型模型，高时则更多依赖高性能模型。

调整 α 值:

当前 α 值: 0.53

发现三：无法超越的帕累托前沿

这是我们最引以为傲的成果。我们将所有单一模型和不同$\alpha$值下的Avengers-Pro的“性能-成本”点绘制在一张图上。我们发现，Avengers-Pro形成了一条优美的曲线，这条曲线就是经济学中著名的“帕累托前沿”。

生活化类比：想象你在购物，横轴是价格，纵轴是品质。所有商品都会在图上形成一个散点图。帕累托前沿就是那条“最佳性价比”线——线上任何一个点，都意味着你不可能在同样价格买到更好品质的商品，也不可能用更低价格买到同样品质的商品。所有不在线上的商品，都是“性价比低”的。

我们的Avengers-Pro就做到了这一点。在我们的实验中，没有任何一个单一模型能同时在性能和成本上都优于我们的系统。无论你的预算是多少，Avengers-Pro都能为你提供当前预算下最强的性能；无论你的性能要求有多高，它都能以最低的成本帮你实现。

动画四：绘制最佳性价比曲线

点击“开始绘制”，观察Avengers-Pro（红色星点）如何随着α值的变化，连接成一条超越所有单一模型（蓝色和橙色图标）的帕累托前沿曲线。

结论：未来属于“联盟”而非“孤胆英雄”

通过Avengers-Pro，我们证明了智能路由框架的巨大价值。它不仅仅是一个简单的任务分发器，更是一个能深刻理解任务本质、洞悉模型长短、并精于计算成本效益的“战略指挥官”。

这项工作告诉我们，未来的LLM发展可能不再是单纯追求“更大、更强”的军备竞赛。一个更聪明、更可持续的路径，是构建一个开放、协作的生态系统。在这个生态里，各种规模、各种特长的模型都能找到自己的位置，并通过一个像Avengers-Pro这样的智能中枢协同工作，共同对外提供既强大又经济的服务。

我们相信，这不仅是通往更优AI的道路，也是让顶尖AI技术能够被更广泛、更公平地应用的普惠之路。感谢大家的关注，希望我们的探索能为大家带来一些新的思考和启发。

附录：技术细节探讨

A.1 聚类和嵌入模型的选择

在我们的实验中，我们采用了经典的K-means算法进行聚类，设定簇的数量 $k=60$。这个数值是通过交叉验证在性能和计算开销之间权衡得到的。过少的簇会导致问题类型划分过于粗糙，无法体现模型的细微能力差异；过多的簇则会增加计算复杂度，并可能导致某些簇内样本过少，统计意义下降。

查询的嵌入表示至关重要。我们选用了Qwen3-embedding-8B模型，它能生成4096维的稠密向量。选择它的原因是其在多个语义表示评测中表现出色，能够精准捕捉文本的深层语义。一个高质量的嵌入是后续所有步骤成功的基础，它直接决定了聚类的质量和路由的准确性。

A.2 归一化方法的考量

在计算性能-效率得分时，对性能（准确率 $p_j^i$）和成本（$q_j^i$）进行归一化是必不可少的，因为它们的量纲和数值范围完全不同。我们采用了标准的最小-最大归一化（Min-Max Normalization）： \[ \tilde{x} = \frac{x - x_{\min}}{x_{\max} - x_{\min}} \] 其中 $x_{\min}$ 和 $x_{\max}$ 是在特定簇 $j$ 中，所有模型的性能或成本的最小值和最大值。这种方法简单有效，能将数值缩放到 $[0, 1]$ 区间内，便于加权求和。需要注意的是，这种归一化对异常值敏感，但在我们的场景中，顶尖模型的性能和成本分布相对集中，因此该方法是适用的。

A.3 推理阶段的路由策略

在推理时，当一个新查询到来，我们计算其嵌入向量，并找到与之欧氏距离最近的top-p个簇。在我们的实验中，我们设定 $p=4$。这个“软分配”策略比仅仅分配给最近的单个簇（top-1）更为鲁棒。因为一个查询的语义可能介于多个主题之间，参考多个相关簇的模型得分，可以做出更平滑、更准确的路由决策。最终，模型 $i$ 的总得分是其在top-p个簇上的性能-效率得分之和： \[ \text{TotalScore}^i = \sum_{j \in \text{top-p clusters}} \text{Score}_j^i \] 得分最高的模型将被选中。这个过程非常轻量，路由本身的计算开销远小于LLM生成一个token的开销，因此不会成为系统的性能瓶颈。

示意图三：Avengers-Pro 系统架构

从查询输入到模型输出的完整流程图，清晰展示了嵌入、聚类、评分和路由的各个环节。