Gemini 2.5 Pro:智解IMO 2025金牌难题

Yichen Huang & Lin F. Yang (UCLA) 为您讲述

引言:一场人与AI的智力巅峰对话

大家好,我是黄一晨(Yichen Huang),我的合作者是杨临风(Lin F. Yang)。今天,我想和大家分享一段激动人心的探索旅程——我们如何引导Google最新、最强大的大型语言模型(LLM)Gemini 2.5 Pro,去挑战被誉为“数学世界杯”的国际数学奥林匹克(IMO)竞赛。这不仅仅是一次对AI能力的测试,更是一场关于人类智慧与机器智能如何协作、共创未来的深刻对话。

IMO的题目,绝非简单的计算或套用公式。它们是数学思想的迷宫,需要深邃的洞察力、天马行空的创造力以及无懈可击的逻辑推理。长久以来,这片领域被认为是AI难以逾越的天堑。过去的模型,即便在海量数据中“饱读诗书”,面对真正新颖、需要“灵光一闪”的IMO难题时,往往会显得捉襟见肘,甚至产生逻辑谬误,我们称之为“AI幻觉”。

而我们的工作,正是要回答一个核心问题:当拥有了像Gemini 2.5 Pro这样强大的“大脑”后,我们是否能通过巧妙的“引导”和“训练”,让它学会像一位真正的数学家那样思考?我们相信,答案的关键不在于模型本身,而在于我们如何与模型对话。我们设计了一套独特的“解题流水线”,这套方法论最终帮助Gemini 2.5 Pro成功解决了2025年IMO赛事中6道题中的5道,达到了人类金牌选手的水平。这趟旅程充满了挑战与惊喜,现在,请允许我带领大家一探究竟。

核心理念:AI不是自动解题机,而是强大的思想伙伴

我们首先要摆脱一个误区:把LLM看作一个输入问题、输出答案的黑箱。相反,我们视其为一个潜力无限、但需要悉心引导的“学生”或“研究伙伴”。它的知识库浩如烟海,但缺乏将知识串联起来、形成严谨证明的“章法”。我们的任务,就是为它提供这套章法。这套方法的核心,我们称之为“探索-改进-验证”流水线。

第一章:我们的秘密武器——“探索-改进-验证”流水线

想象一下,一位顶尖的数学家是如何解决难题的?他不会一蹴而就。他会先尝试多种思路(探索),然后对有希望的方向进行深化和修正(改进),最后,他会像最严苛的审稿人一样,逐行检查自己的证明,确保万无一失(验证)。我们的流水线,正是对这一人类智慧过程的模拟。

第一步:探索——广撒网,捕捉灵感的火花

在第一步,我们不会强求Gemini立刻给出一个完美答案。相反,我们鼓励它进行“头脑风暴”,生成多个初步的解题思路。这就像一个探险队进入未知森林,派出多路侦察兵。我们知道,大部分尝试可能会失败,但只要有一个侦察兵找到了正确的路径,我们就有了胜利的希望。我们的提示词(Prompt)在这里至关重要,我们强调“严谨性优先”,要求它诚实地报告自己能证明到哪一步,而不是伪造一个看似完整的答案。

第二步:改进——在“思考预算”内精益求精

LLM的思考过程会消耗大量的“计算资源”,我们称之为“思考预算”(Thinking Budget)。一次性解决IMO难题,往往会耗尽这个预算,导致思考半途而废。我们的流水线巧妙地解决了这个问题。在第二步,我们让Gemini“审视”自己在第一步中产出的、最有希望的草稿。这相当于给了它一次全新的、完整的“思考预算”,让它可以在已有的基础上,继续向前推进、填补逻辑漏洞、完善细节。这就像给探险队补充了给养,让他们能走得更远。

动画1:思考预算的“充电站”

生活化类比:想象一下,解决一个超级难题就像跑一场超长马拉松。一次跑完几乎不可能。我们的流水线就像在沿途设置了多个补给站,让AI可以分段冲刺,每次都精力充沛。

状态: 待开始 | 当前步骤: 0 | 预算: 100%

第三步:验证——苛刻的“AI审稿人”

这是我们流程中最具创新性的一环。我们再次利用Gemini 2.5 Pro,但这次,我们让它扮演一个全新的角色——一个极其严苛、吹毛求疵的数学竞赛裁判。我们称之为“验证器”(Verifier)。验证器的唯一任务,就是逐字逐句地检查“改进”步骤生成的解决方案,找出其中所有“致命错误”(Critical Errors,即逻辑上完全错误的步骤)和“论证跳跃”(Justification Gaps,即结论可能正确但缺少严格证明的步骤)。

这个过程会反复迭代。验证器生成一份“bug报告”,然后模型再根据这份报告去修复自己的证明。这个过程就像是学术界的同行评审(Peer Review),通过不断的批判和修正,让最终的证明千锤百炼,坚不可摧。有趣的是,验证器有时也会犯错,但我们的系统设计得足够鲁棒,可以让模型在后续迭代中识别并纠正这些“误判”,这本身也模拟了科学研究中健康的学术辩论过程。

动画2:AI验证器的工作流程

生活化类比:这就像一个顶级的代码审查员在检查一份复杂的程序。他不仅要找出导致程序崩溃的致命bug,还要指出那些虽然能运行但不够健壮、可能存在隐患的代码。我们的AI验证器就是这样一个角色。

状态: 待开始 | 发现问题: 0

第二章:实战演练——破解IMO 2025难题

为了确保评测的公正性,我们特地选用了刚刚发布的IMO 2025题目。这能最大限度地避免“数据污染”——即模型在训练时已经“背”下了答案。这保证了我们看到的是模型真正的推理能力,而非记忆力。

案例分析1:组合几何的智慧 (Problem 1)

第一题是一个关于平面上直线覆盖点的组合问题。它要求我们判断,用n条直线覆盖特定点集时,有多少条“晴天线”(sunny lines,即斜率不为0、无穷或-1的线)是可能的。这类问题充满了各种可能性,很容易让人陷入枚举的泥潭。

我们给模型的初始提示非常简单:“让我们尝试用归纳法。” 这并非泄题,因为数学归纳法是解决这类问题的标准武器。这相当于告诉探险队:“试试沿着河流行进,可能会有发现。” Gemini 2.5 Pro迅速抓住了这个核心思想,通过巧妙的归纳推理,将一个复杂的n维问题,一步步简化(我们称之为“降维”)为一个核心问题,即分析$k=0, 1, 2, 3$等小规模情况。最终,它完美地证明了只有当晴天线的数量$k$为0、1或3时,才存在满足条件的构型。

动画3:晴天线的覆盖游戏

生活化类比:想象你在玩一个连线游戏,棋盘上有很多钉子,你需要用最少的、特定颜色的绳子穿过所有钉子。这个问题就是要找出哪些颜色的绳子组合是可行的。

状态: 待开始 | 已覆盖点: 0 / 6

案例分析2:解析几何的力量 (Problem 2)

第二题是一道复杂的欧几里得几何证明题,涉及到两个相交的圆、外心、垂心等众多几何元素。对于人类选手来说,这通常需要精妙的几何变换或找到某个隐藏的共圆关系。而对于AI,这却是一个绝佳的展示其“计算暴力美学”的舞台。

我们给出的提示是:“尝试用解析几何。” 这相当于把一个需要空间想象的几何问题,翻译成了一门代数语言。我们建立坐标系,将所有点和线都用代数方程表示。接下来的事情,虽然繁琐,但对于Gemini 2.5 Pro来说却是小菜一碟:大量的代数展开、化简、替换。模型像一台不知疲倦的符号计算引擎,一步步推导,最终证明了结论。虽然这个过程缺少了纯粹几何的优雅,但它展示了AI在处理大规模、高复杂度符号运算方面的超凡能力。它用一种完全不同的方式,抵达了同样的真理之巅。

动画4:几何问题的代数“翻译器”

生活化类比:想象一下,你不会说某种外语,但需要理解一篇该语言的文章。你使用了一个强大的翻译软件,将它转换成你熟悉的母语。解析几何就是AI的“翻译软件”,将复杂的几何关系翻译成它擅长的代数语言。

状态: 几何视图

案例分析3:数论函数的边界探索 (Problem 3)

第三题是一个关于“bonza函数”的数论问题,要求我们找到一个常数$c$的上界。这类问题需要对函数的性质进行极其细致的分类讨论和分析。我们的流水线在这里再次显示了威力。在“探索”阶段,Gemini生成了多种对函数性质的猜测。在“改进”和“验证”的循环中,它逐步排除了不正确的分类,最终将所有可能的“bonza函数”归结为三大类。最精彩的部分在于,它不仅找到了上界$c=4$,还构造出了一个具体的函数,证明了这个上界是可以达到的。这充分展示了模型从理解、分类到构造的完整数学思维能力。

动画5:寻找函数的“天花板”

生活化类比:想象你在一个巨大的房间里放飞气球,气球可以自由漂浮。现在,你不断地增加天花板和墙壁(函数的约束条件),气球的活动空间越来越小,最终它们都会被限制在一个特定的高度之下。这个高度就是我们要求的常数c。

状态: 自由函数 | 约束条件: 0

结论:迈向通用人工智能的一大步

我们的研究表明,像Gemini 2.5 Pro这样的前沿模型,已经具备了解决顶尖数学难题的潜力。然而,要将这种潜力转化为实实在在的成果,关键在于设计出能够有效引导其进行深度、严谨、多步推理的交互框架。我们的“探索-改进-验证”流水线,就是这样一种成功的尝试。

这不仅仅是关于数学。IMO问题是测试通用人工智能(AGI)高级推理能力的绝佳试金石。我们在这项任务上取得的成功,预示着在不远的将来,AI将能够在更多需要创造力和严谨逻辑的领域——如科学发现、药物研发、法律分析等——成为人类不可或-缺的强大伙伴。

当然,我们的旅程才刚刚开始。AI依然有其局限性,例如它对抽象概念的深层理解仍有待提升。但我们有理由相信,随着模型能力的不断增强和我们交互策略的日益成熟,人与AI协作的边界将被无限拓宽。我们正站在一个新时代的黎明,一个人类智慧与机器智能携手,共同攀登科学与思想高峰的时代。

附录:技术细节与问题原文

我们的核心提示词设计理念

在与Gemini 2.5 Pro的交互中,我们精心设计了两类核心提示词(Prompts):

  • 解题提示词 (Step 1 & 2): 这类提示词的核心是“严谨至上”“诚实原则”。我们明确指示模型,一个带有瑕疵的“完整答案”是不可接受的。如果无法完成证明,它必须清晰地陈述自己能严格证明的、最重要的部分结论。这有效抑制了模型的“幻觉”现象。
  • 验证提示词 (Step 3): 这类提示词要求模型切换角色,成为一名“IMO阅卷人”。我们指示它“只验证,不修正”,并对错误进行严格分类。这种角色分离的设计,使得验证过程更加客观和聚焦。

IMO 2025 问题原文 (节选)

Problem 1

A line in the plane is called sunny if it is not parallel to any of the $x$-axis, the $y$-axis, and the line $x+y=0$. Let $n \ge 3$ be a given integer. Determine all nonnegative integers $k$ such that there exist $n$ distinct lines in the plane satisfying both the following:

  • For all positive integers $a$ and $b$ with $a+b \le n+1$, the point $(a, b)$ is on at least one of the lines; and
  • Exactly $k$ of the lines are sunny.

Problem 2

Let $\Omega$ and $\Gamma$ be circles with centers $M$ and $N$, respectively, such that the radius of $\Omega$ is less than the radius of $\Gamma$. Suppose circles $\Omega$ and $\Gamma$ intersect at two distinct points $A$ and $B$. Let $MN$ intersect $\Omega$ at $C$ and $\Gamma$ at $D$, such that points $C, M, N,$ and $D$ lie on the line in that order. Let $P$ be the circumcenter of triangle $ACD$. Line $AP$ intersects $\Omega$ again at $E \ne A$. Line $AP$ intersects $\Gamma$ again at $F \ne A$. Let $H$ be the orthocenter of triangle $PMN$. Prove that the line through $H$ parallel to $AP$ is tangent to the circumcircle of triangle $BEF$.

Problem 3

Let $\mathbb{N}$ denote the set of positive integers. A function $f: \mathbb{N} \to \mathbb{N}$ is said to be bonza if $f(a) | b^a - f(b)^{f(a)}$ for all positive integers $a$ and $b$. Determine the smallest real constant $c$ such that $f(n) \le cn$ for all bonza functions $f$ and all positive integers $n$.