超越GPT-5:通过性能效率优化路由构建更优、更经济的LLM

作者:Yiqun Zhang, Hao Li, Jianhao Chen, Hangfan Zhang, Peng Ye, Lei Bai, Shuyue Hu

机构:上海人工智能实验室

访问作者主页

摘要

在大型语言模型(LLM)的演进浪潮中,性能与效率之间的平衡始终是核心挑战。近期备受瞩目的GPT-5通过引入“测试时路由”(test-time routing)机制,试图化解这一难题,它能在推理阶段动态地将用户查询分配给高效或高能模型。在这项工作中,我们提出了一个名为“复仇者联盟-专业版”(Avengers-Pro)的测试时路由框架,它通过集成不同能力与效率的LLM集群,为所有性能-效率权衡场景提供了一个统一的解决方案。Avengers-Pro的核心机制在于:首先对传入的查询进行向量嵌入并进行聚类分析,然后基于一个可调节的“性能-效率得分”,将每个查询路由到最适合处理它的模型。我们在6个极具挑战性的基准测试中,对包括GPT-5-medium、Gemini-2.5-pro和Claude-opus-4.1在内的8个业界领先模型进行了评估。实验结果表明,Avengers-Pro取得了当前最佳水平:通过调整性能-效率权衡参数α,其平均准确率能比最强的单一模型(GPT-5-medium)高出7%。更重要的是,它能在达到与最强模型相当的平均准确率时,将成本降低27%;或者在达到最强模型约90%性能时,将成本大幅削减63%。最后,我们的框架成功绘制出一条帕累托前沿(Pareto frontier)曲线,这意味着在任何给定的成本预算下,Avengers-Pro都能提供最高的准确率;反之,在任何给定的准确率目标下,它都能实现最低的成本。这项工作不仅展示了智能路由的巨大潜力,也为构建更强大、更经济、更可扩展的下一代LLM系统开辟了新的道路。

引言:鱼与熊掌,能否兼得?

大家好,我是这项研究的主要参与者之一。今天,我想和大家聊聊一个在大型语言模型(LLM)领域里,我们每天都在面对的“世纪难题”:我们既想要模型像一位无所不知的智者,能解决最棘手的问题(极致的性能),又希望它像一位随叫随到的朋友,反应迅速且花费低廉(极致的效率)。这就像我们希望拥有一辆既有F1赛车性能,又有小型电单车能耗的超级座驾。在现实世界中,这几乎是不可能的。

OpenAI的GPT-5给了我们一个有趣的启示。他们不再执着于用一个“万能模型”包打天下,而是构建了一个系统:一个聪明的“快速模型”处理大部分日常问题,一个深邃的“思考模型”专攻难题,中间还有一个“实时路由器”负责分发任务。这个想法非常棒,它承认了“术业有专攻”。

生活化类比:想象一下一个超级医院。不是让每一位病人都去挂最昂贵的专家号,而是设立一个高效的预检分诊台。感冒发烧这类常见病,由社区医生(高效模型)快速处理;而疑难杂症,则由顶尖专家(高能模型)会诊。这个分诊台,就是“路由器”的核心思想。

受到这个启发,我们问自己:能不能把这个“分诊系统”做得更极致、更智能?如果医院里不止两位医生,而是一个由各科专家、资深医师、实习医生组成的庞大团队呢?我们能否创建一个“超级分诊AI”,为每一位病人(每一个查询)精确匹配最合适的医生(模型),从而让整个医院(模型系统)的运行达到成本和疗效的最佳平衡点

这就是我们“Avengers-Pro”项目的初心。我们集结了一个由8个不同“超级英雄”——也就是业界顶尖的LLM——组成的联盟,并为它们设计了一个大脑中枢。这个中枢不仅要决定把任务交给谁,还要学会“精打细算”,在性能和成本之间找到那个最美的“黄金分割点”。我们的目标是证明:通过聪明的协作,一群模型的力量,可以超越任何一个单打独斗的“超级英雄”。

Avengers-Pro的核心机制:三步智能路由

我们的“超级分诊AI”是如何工作的呢?其实过程非常直观,可以概括为三个核心步骤:嵌入(Embedding)、聚类(Clustering)和评分(Scoring)

第一步:给问题“画像”——查询嵌入

当一个问题(查询)被提出来时,我们首先要理解它到底在问什么。是关于历史知识的简单事实,还是需要复杂逻辑推理的编程难题?我们使用一个专门的“文本嵌入模型”,将问题的文字转换成一串长长的数字,也就是一个高维向量。

生活化类比:这就像给每个问题拍一张“语义快照”。相似的问题,它们的“快照”在数学空间中的位置也会非常接近。比如,“法国的首都是哪里?”和“巴黎是哪个国家的首都?”这两张快照就会紧挨在一起。

动画一:查询的语义空间之旅

不同颜色的点代表不同类型的问题。点击“开始”,它们会被嵌入到语义空间中,并根据相似性自动聚拢成不同的星团(簇)。

第二步:物以类聚——查询聚类

有了成千上万张“语义快照”后,我们就可以进行聚类了。通过K-means这类算法,系统会自动将这些快照分成不同的群组(簇)。每个簇都代表了一类语义上高度相似的问题。比如,可能会形成一个“代码调试簇”、一个“诗歌创作簇”和一个“科学计算簇”。这个过程是在线下完成的,为我们的路由决策打下了坚实的基础。

示意图一:不同模型的“能力指纹”

每个模型在不同类型问题(簇)上的表现各不相同。这就像每个超级英雄都有自己擅长的领域。有的擅长力量,有的擅长速度。

模型能力雷达图 代码 推理 创意 数学 事实 安全 ■ GPT-5-medium ■ Qwen3-thinking

第三步:谁是最佳人选?——性能-效率评分

这是最关键的一步。对于每一个问题簇,我们会让“复仇者联盟”里的所有模型都去尝试回答,然后记录下它们在每个簇上的“准确率”(性能)和“花费”(效率)。接着,我们引入了一个非常重要的权衡参数 \(\alpha\)。通过下面这个公式,我们可以为每个模型在每个簇上计算出一个综合得分:

\[ \text{Score}_j^i = \alpha \cdot \tilde{p}_j^i + (1 - \alpha) \cdot (1 - \tilde{q}_j^i) \]

这里的 \(\text{Score}_j^i\) 是模型 \(i\) 在簇 \(j\) 上的得分。 \(\tilde{p}_j^i\) 是归一化后的性能(准确率),\(\tilde{q}_j^i\) 是归一化后的成本。参数 \(\alpha\) 的取值范围是 \([0, 1]\)。

  • 当 \(\alpha = 1\) 时,我们只看重性能,不计成本,系统会永远选择最强的模型。
  • 当 \(\alpha = 0\) 时,我们只看重效率,不问效果,系统会永远选择最便宜的模型。
  • 当 \(\alpha\) 在0和1之间时,我们就在性能和效率之间寻找平衡。

当一个新问题进来时,系统会迅速找到与它最相似的几个簇,然后综合计算每个模型在这些簇上的总得分,得分最高的模型将被选中,执行本次任务。

动画二:智能路由的决策瞬间

一个新查询(星形)进入系统。系统根据其位置(语义)和当前的α值,动态计算并选择得分最高的模型(高亮的模型)来处理它。

当前 α 值: 0.50 | 路由至: GPT-5-Medium

实验结果:令人振奋的发现

理论说起来总是很美好,但实践才是检验真理的唯一标准。我们在6个业界公认的“地狱难度”基准测试上,对我们的Avengers-Pro系统和8个顶尖的单一模型进行了全面的“大比武”。结果如何呢?

发现一:团队的力量远超个人

当我们把\(\alpha\)设为1,也就是追求极致性能时,Avengers-Pro的平均准确率达到了66.66%。而当时单打独斗最强的“英雄”——GPT-5-medium——的成绩是62.25%。这意味着,通过智能协作,我们的模型联盟性能净增了7%!这证明了1+1 > 2在模型世界里是成立的。

示意图二:性能巅峰对决

在追求极致性能(α=1.0)时,Avengers-Pro相较于最强的单一模型GPT-5-medium,展现出明显的优势。

平均准确率对比 (α=1.0) 70% 60% 50% GPT-5-medium 62.3% Avengers-Pro 66.7% +7.1%

发现二:省钱才是硬道理

更惊人的发现在于成本控制。我们调整\(\alpha\)到0.53,此时Avengers-Pro的性能与GPT-5-medium几乎持平(62.66% vs 62.25%)。但你猜成本怎么样?我们的系统只花费了$35.05,而GPT-5-medium需要$47.96。这意味着,在同样的性能下,我们节省了27%的成本

如果我们再把标准放宽一点,追求GPT-5-medium 90%的性能(这已经和Gemini-2.5-pro相当了),我们的成本可以骤降到$17.81,足足节省了63%的费用。这对于任何需要大规模使用LLM的应用来说,都是一笔巨大的节省。

动画三:成本管家的智慧

拖动滑块,观察不同α值下,Avengers-Pro如何调整对不同成本模型的调用比例。α值低时偏爱经济型模型,高时则更多依赖高性能模型。

当前 α 值: 0.53

发现三:无法超越的帕累托前沿

这是我们最引以为傲的成果。我们将所有单一模型和不同\(\alpha\)值下的Avengers-Pro的“性能-成本”点绘制在一张图上。我们发现,Avengers-Pro形成了一条优美的曲线,这条曲线就是经济学中著名的“帕累托前沿”。

生活化类比:想象你在购物,横轴是价格,纵轴是品质。所有商品都会在图上形成一个散点图。帕累托前沿就是那条“最佳性价比”线——线上任何一个点,都意味着你不可能在同样价格买到更好品质的商品,也不可能用更低价格买到同样品质的商品。所有不在线上的商品,都是“性价比低”的。

我们的Avengers-Pro就做到了这一点。在我们的实验中,没有任何一个单一模型能同时在性能和成本上都优于我们的系统。无论你的预算是多少,Avengers-Pro都能为你提供当前预算下最强的性能;无论你的性能要求有多高,它都能以最低的成本帮你实现。

动画四:绘制最佳性价比曲线

点击“开始绘制”,观察Avengers-Pro(红色星点)如何随着α值的变化,连接成一条超越所有单一模型(蓝色和橙色图标)的帕累托前沿曲线。

结论:未来属于“联盟”而非“孤胆英雄”

通过Avengers-Pro,我们证明了智能路由框架的巨大价值。它不仅仅是一个简单的任务分发器,更是一个能深刻理解任务本质、洞悉模型长短、并精于计算成本效益的“战略指挥官”。

这项工作告诉我们,未来的LLM发展可能不再是单纯追求“更大、更强”的军备竞赛。一个更聪明、更可持续的路径,是构建一个开放、协作的生态系统。在这个生态里,各种规模、各种特长的模型都能找到自己的位置,并通过一个像Avengers-Pro这样的智能中枢协同工作,共同对外提供既强大又经济的服务。

我们相信,这不仅是通往更优AI的道路,也是让顶尖AI技术能够被更广泛、更公平地应用的普惠之路。感谢大家的关注,希望我们的探索能为大家带来一些新的思考和启发。

附录:技术细节探讨

A.1 聚类和嵌入模型的选择

在我们的实验中,我们采用了经典的K-means算法进行聚类,设定簇的数量 \(k=60\)。这个数值是通过交叉验证在性能和计算开销之间权衡得到的。过少的簇会导致问题类型划分过于粗糙,无法体现模型的细微能力差异;过多的簇则会增加计算复杂度,并可能导致某些簇内样本过少,统计意义下降。

查询的嵌入表示至关重要。我们选用了Qwen3-embedding-8B模型,它能生成4096维的稠密向量。选择它的原因是其在多个语义表示评测中表现出色,能够精准捕捉文本的深层语义。一个高质量的嵌入是后续所有步骤成功的基础,它直接决定了聚类的质量和路由的准确性。

A.2 归一化方法的考量

在计算性能-效率得分时,对性能(准确率 \(p_j^i\))和成本(\(q_j^i\))进行归一化是必不可少的,因为它们的量纲和数值范围完全不同。我们采用了标准的最小-最大归一化(Min-Max Normalization): \[ \tilde{x} = \frac{x - x_{\min}}{x_{\max} - x_{\min}} \] 其中 \(x_{\min}\) 和 \(x_{\max}\) 是在特定簇 \(j\) 中,所有模型的性能或成本的最小值和最大值。这种方法简单有效,能将数值缩放到 \([0, 1]\) 区间内,便于加权求和。需要注意的是,这种归一化对异常值敏感,但在我们的场景中,顶尖模型的性能和成本分布相对集中,因此该方法是适用的。

A.3 推理阶段的路由策略

在推理时,当一个新查询到来,我们计算其嵌入向量,并找到与之欧氏距离最近的top-p个簇。在我们的实验中,我们设定 \(p=4\)。这个“软分配”策略比仅仅分配给最近的单个簇(top-1)更为鲁棒。因为一个查询的语义可能介于多个主题之间,参考多个相关簇的模型得分,可以做出更平滑、更准确的路由决策。最终,模型 \(i\) 的总得分是其在top-p个簇上的性能-效率得分之和: \[ \text{TotalScore}^i = \sum_{j \in \text{top-p clusters}} \text{Score}_j^i \] 得分最高的模型将被选中。这个过程非常轻量,路由本身的计算开销远小于LLM生成一个token的开销,因此不会成为系统的性能瓶颈。

示意图三:Avengers-Pro 系统架构

从查询输入到模型输出的完整流程图,清晰展示了嵌入、聚类、评分和路由的各个环节。

1. 输入查询 2. 嵌入模型 3. 路由逻辑 (寻找Top-p簇) (计算综合得分) 簇-模型得分库 模型 A 模型 B (选中) 模型 C ... 5. 输出