摘要 (Abstract)
近年来,开源基础模型大量涌现,在通用领域取得了接近闭源模型的卓越性能。然而,在价值更高、挑战更大的科学专业领域,开源模型的进展明显滞后,难以胜任前沿科研任务,与闭源模型存在显著差距。为了弥合这一鸿沟并向通用人工智能(AGI)迈出坚实一步,我们推出了Intern-S1。它是一个“专才型通才”(specialized generalist),既具备广泛的通用理解与推理能力,又精通多种科学模态数据的深度分析。Intern-S1是一个多模态专家混合(Mixture-of-Experts, MoE)模型,拥有280亿激活参数和2410亿总参数,在高达5万亿(5T)tokens的数据上进行了持续预训练,其中超过2.5万亿来自科学领域。在后训练阶段,我们设计了InternBootCamp环境,通过创新的“奖励混合”(Mixture-of-Rewards, MoR)机制,让Intern-S1在超过1000个任务上同时进行离线与在线强化学习(RL)。得益于算法、数据和训练系统的综合创新,Intern-S1在综合评估基准上展现出与顶级开源模型相当的通用推理能力,并在科学领域显著超越所有开源模型,甚至在分子合成规划、反应条件预测、晶体热力学稳定性预测等专业任务上超过了顶尖的闭源模型。这项工作旨在通过构建一个强大的科学基础模型,加速科学发现的进程,并为通往AGI的道路提供新的探索路径。
引言:在科学的“无人区”点燃AI的火炬
大家好,我们是Intern-S1团队。今天,我想和大家分享的,不仅仅是一个新模型的诞生,更是一段探索之旅——我们如何尝试用AI去触碰现代科学研究的核心,那个被誉为通用人工智能(AGI)“圣杯”的领域。
近几年,AI大模型的世界风起云涌,像GPT-4、Claude等闭源模型的能力令人惊叹,而开源社区也涌现出Llama、Qwen等优秀选手,在通用对话、编程、数学等“热门赛道”上奋起直追。这就像一场精彩的奥运会,我们在百米冲刺、游泳等项目上看到了人类(AI)极限的不断突破。然而,当我们把目光投向那些更小众、但对人类未来至关重要的“冷门”项目——比如材料科学、药物发现、气候模拟——我们发现,这里的赛场上,开源选手们的身影还很稀疏,他们与顶尖选手的差距,远比热门项目要大。
科学研究对AI的要求极为苛刻。它不仅需要模型能“看懂”各种奇特的科学数据——从分子结构式到引力波信号,还需要它具备严谨的、长链条的逻辑推理能力,能像科学家一样提出假设、设计实验、验证结论。这不再是简单的“看图说话”或“解数学题”,而是真正地进行“科学思考”。
我们清醒地认识到,如果AI只能在通用领域“内卷”,而无法赋能科学发现,那么通往AGI的道路将是不完整的。正是基于这样的初心,我们启动了Intern-S1项目。我们的目标很明确:打造一个既懂通用知识,又精通科学语言的“双料专家”,一座连接开源世界与前沿科学的桥梁。
核心思想:三大支柱构建科学智能
要让一个模型成为科学专家,光靠堆数据和参数是不够的。我们认为,必须在模型架构、数据处理和训练方法上进行系统性的创新。Intern-S1的构建,正是基于以下三大支柱。
1. 架构创新:专家混合与动态“方言”解析器
通用大模型就像一个什么都懂一点的“通才”,但面对高度专业的化学或物理问题,它可能会显得力不从心。为了解决这个问题,我们采用了专家混合(Mixture-of-Experts, MoE)架构。
生活化类比: 想象一下,我们正在组建一个顶级的咨询公司(Intern-S1)。我们没有雇佣100个什么都懂一点的通才,而是雇佣了8个顶级专家,分别精通物理、化学、生物、金融、法律等不同领域。当一个客户问题(输入数据)进来时,一个聪明的调度员(路由器)会迅速判断这个问题属于哪个领域,然后把它交给最相关的几位专家去处理。这样一来,不仅解决问题的质量更高,而且每次只需要激活少数专家,整体运营成本(计算量)也大大降低。这就是MoE的核心思想。
动画1:专家混合(MoE)路由机制
这个动画模拟了MoE模型的工作原理。不同颜色的“信息流”(Tokens)代表不同类型的问题,它们被一个“路由器”智能地分配给相应的“专家”模块进行处理,展示了模型的并行性和高效性。
状态: 待开始 | 已处理Tokens: 0
除了宏观架构,我们还遇到了一个棘手的问题:如何让模型高效地理解科学“方言”?比如化学中的SMILES分子式 `C1CCCCC1`,或者蛋白质的FASTA序列。传统的分词器(Tokenizer)会把它们拆得支离破碎,就像一个不懂化学的人去读化学式,效率极低。
为此,我们设计了动态分词器(Dynamic Tokenizer)。它像一个多语言翻译官,能自动识别出文本中的“科学方言”,并调用专门为该“方言”训练的分词和编码策略。这使得Intern-S1在处理科学数据时的效率(压缩率)比其他模型高出70%以上,极大地节省了计算资源。
动画2:动态分词器 vs. 传统分词器
左侧展示了传统分词器处理SMILES化学式的低效方式,将其拆成大量零散字符。右侧展示了我们的动态分词器,它能识别整个化学结构,并用更少的、更具语义的单元来表示,大大提高了处理效率。
传统分词器Tokens: 0 | 动态分词器Tokens: 0
2. 数据引擎:从海量信息中“炼金”
模型的能力上限,很大程度上取决于它“吃”进去的数据质量。科学数据在广阔的互联网上就像金沙,稀疏且混杂在大量“矿渣”中。我们面临的挑战是,如何低成本、大规模地淘出真金?
我们构建了两大自动化数据流水线:
- 网页数据“淘金”流水线: 我们利用AI Agent,像一支智能勘探队,在海量网页中精准地“嗅探”和召回与科学主题相关的内容。通过这个流程,我们将目标领域数据的纯度从原始网页数据中约2%提升到了50%以上。
- PDF文献“精炼”流水线: 科学知识的宝库——PDF论文,充满了复杂的公式、图表和符号。单一的解析工具非贵即差。我们独创了“分级诊疗”策略:用一个廉价快速的解析器进行初筛,一旦检测到公式、符号等“疑难杂症”,就立刻“转诊”给更强大但昂贵的VLM(视觉语言模型)进行精细化解析。这套组合拳让我们在成本可控的前提下,获得了海量高质量的文献数据。
最终,我们为Intern-S1准备了超过2.5万亿tokens的科学数据盛宴,这是它专业能力的基石。
示意图1:PDF分级解析流水线
此图展示了我们如何高效处理海量PDF文献。大部分页面由快速解析器处理,而包含复杂元素(如公式)的页面则被智能路由到更强大的VLM进行深度解析,实现了成本与质量的最佳平衡。
3. 训练心法:在虚拟“训练营”中百炼成钢
有了强大的身体(架构)和丰富的营养(数据),还需要科学的训练方法,才能让模型真正“开悟”。我们引入了强化学习(RL),但这并非普通的RL。我们搭建了一个名为InternBootCamp的超大规模交互环境,里面包含了超过1000种不同类型的任务,从解物理方程到设计化学实验,应有尽有。
在如此多样的任务中,如何统一评估模型的表现呢?一个任务的奖励可能是“答案正确/错误”的0/1分,另一个任务可能是“生成文本流畅度”的连续分。为此,我们提出了奖励混合(Mixture-of-Rewards, MoR)框架。它像一个全能裁判,能将所有不同形式、不同来源的反馈信号(来自规则、其他模型、环境的判断),都和谐地转换成一个统一的奖励分值,指导模型进行优化。对于那些难以客观评判的任务(如创意写作),我们还引入了先进的POLAR算法来提供高质量的奖励信号。
通过MoR,Intern-S1可以在一个统一的框架下,同时学习上千种技能,实现“德智体美劳”全面发展,最终在极具挑战性的科学任务上,达到了SOTA(State-of-the-Art)水准。
动画3:奖励混合(MoR)框架
此动画展示了MoR如何整合来自不同任务和评估器(规则、LLM裁判、奖励模型)的反馈。各种奖励信号被标准化并汇集成一个统一的标量,用于指导策略模型的优化,实现了对上千种任务的高效协同学习。
状态: 待开始 | 最终奖励: 0.00
深入探索:模型内部的动态世界
为了更直观地感受模型内部的复杂动态,我们还准备了两个更具艺术性和抽象性的高级动画。它们利用算法生成,模拟了模型在处理信息时可能出现的复杂流场和量子现象。
动画4:信息处理的粒子流场
生活化类比:想象一下模型在“思考”时,无数的信息粒子(tokens)在其巨大的神经网络中流动。这个动画使用柏林噪声算法,模拟了这种有序而又无穷变化的动态过程,形成了优雅的涡流和线条,象征着“思路”的形成。
动画5:探索与创新的量子隧穿
生活化类比:在解决一个难题时,常规思路就像一个球要翻过一座高山(能量壁垒)。但在创造性思考中,我们有时会灵光一闪,直接“穿山而过”,找到意想不到的捷径。这与量子世界的“隧穿效应”惊人地相似。这个动画展示了粒子有一定概率直接穿过障碍,象征着模型在强化学习探索中,可能发现的非直觉、高回报的解决方案。
状态: 待开始 | 隧穿粒子数: 0
成果斐然:在科学赛道上领跑
经过这一系列艰苦卓绝的努力,Intern-S1的表现没有让我们失望。在涵盖数学、物理、化学、生命科学等多个领域的综合基准测试中,它的表现令人振奋:
- 通用能力顶尖: 在MMLU-Pro、GPQA等通用推理任务上,Intern-S1与最强的开源模型并驾齐驱。
- 科学能力卓越: 在SmolInstruct(化学)、ChemBench(化学)、MatBench(材料科学)等专业文本基准上,Intern-S1不仅远超其他所有开源模型,甚至击败了包括Gemini-2.5 Pro和Grok-4在内的顶级闭源模型。
- 多模态科学理解新高度: 在SFE(多学科科学认知)、MicroVQA(显微镜图像)、MSEarthMCQ(地球科学)等图文结合的科学任务上,Intern-S1同样取得了最佳成绩。
这些结果证明,我们打造一个“专才型通才”的路线是成功的。Intern-S1不仅没有因为专攻科学而牺牲通用能力,反而通过深度的科学训练,获得了更强大的综合推理能力。
示意图2:Intern-S1的四个训练阶段
模型的能力是分阶段精心培养的。从纯文本的持续预训练,到图文并茂的多模态预训练,再到指令微调和最终的强化学习,每一步都为模型注入了新的能力。
技术附录:深入引擎室
对于希望了解更多技术细节的同行,我们在此简要介绍一些关键的系统和算法优化。
训练基础设施
为了支撑Intern-S1这样规模的MoE模型的训练,我们构建了高效且稳定的训练框架,核心技术包括:
- 并行策略: 我们采用完全分片数据并行(FSDP)结合专家并行(EP)的混合策略。在RL阶段,我们特别设计了1路专家并行,避免了专家间的通信开销,解决了长序列训练中内存爆炸的问题。
- FP8训练与推理: 我们在预训练和强化学习的全流程中,都采用了FP8低精度计算。这不仅大幅提升了矩阵运算(GEMM)的吞吐量,也显著降低了内存带宽压力,使得RL阶段的数据生成(Rollout)速度得到极大提升。
- 变长序列均衡策略(VLBS): 在FSDP下训练变长序列数据时,各个GPU的计算负载很容易不均衡,导致“木桶效应”。我们设计了一套VLBS策略,通过对数据进行智能的分桶、分组和排序,确保了所有计算单元的负载高度均衡,训练速度平均提升了2倍。
强化学习算法优化
直接将标准的策略梯度算法(如GRPO)应用于大规模MoE模型,会遭遇严重的训练不稳定问题。根源在于,MoE模型的动态路由机制和FP8量化,会放大推理和训练引擎之间微小的数值差异,导致策略在两个阶段的行为不一致(off-policy程度过高)。
我们采用了改进版的OREAL算法。它通过对正样本进行监督微调(行为克隆)、对负样本进行策略梯度更新的方式,天然地避免了依赖不可靠的log概率比值,从而解决了MoE训练崩溃的问题。然而,原始OREAL需要一个在线的词级别奖励模型,计算开销巨大。我们移除了这个模块,但又面临熵(探索性)快速下降的问题。最终,我们引入了KL-Cov策略,通过增加一个KL散度约束项来控制策略漂移,有效维持了模型的探索能力。
最终的损失函数可以表示为: \[ \mathcal{L}(\theta) = \lambda_{sft}\mathbb{E}_{\mathcal{D}^{+}}[L_{sft}(x,y;\theta)] + \lambda_{pg}\mathbb{E}_{\mathcal{D}^{-}}[L_{pg}(x,y;\theta)] + \mathcal{L}_{KL-Cov}(\theta) \] 其中,\(L_{sft}\)是正样本上的监督微调损失,\(L_{pg}\)是负样本上的策略梯度损失,而\(\mathcal{L}_{KL-Cov}(\theta)\)是熵控制项。这个精心设计的优化目标,是我们能够在MoE架构上成功实施大规模强化学习的关键。
示意图3:Intern-S1 整体架构
此图概括了Intern-S1的多模态输入处理流程。视觉、时间序列和科学文本等不同模态的数据,经过各自专门的编码器或动态分词器处理后,被投影到统一的表示空间,最终输入到核心的MoE大语言模型中进行融合与推理。
结语与展望:迈向科学AGI的新起点
Intern-S1的发布,对我们而言,不是终点,而是一个全新的起点。我们成功地证明了,通过专门的设计和训练,开源模型完全有能力在最前沿的科学领域扮演关键角色,甚至超越强大的闭源对手。
我们深知,真正的科学发现,道阻且长。未来的路,我们将继续探索更高效的模型架构、更智能的数据策略,以及能让模型涌现出更深刻洞察力的训练范式。我们希望Intern-S1能成为全球科研人员的得力助手,一个能与人类科学家并肩作战、共同探索未知宇宙的AI伙伴。
我们已经将模型开源,期待与社区一起,在这条充满挑战与希望的道路上,继续前行。因为我们相信,当AI的光芒照亮科学的殿堂,它所带来的,将是整个人类文明的加速进步。