检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术人工智能

NeurIPS 2025:人工智能研究从规模转向理解

供稿人:卫少梅供稿时间:2026-01-20 14:01:33关键词:NeurIPS,人工智能,研究,变革

神经信息处理系统大会(NeurIPS)是人工智能领域的旗舰学术会议之一,其最佳论文奖旨在表彰在机器学习、人工智能及相关领域中具有卓越创新性、重大影响力并能推动学术前沿发展的研究工作。三十余年来,NeurIPS始终在塑造人工智能研究领域中发挥着关键作用。会议呈现的研究成果往往决定着实验室的研发方向、企业的技术应用以及政策制定者最终面临的挑战。由此可见,该会议不仅是学术交流的盛会,更是人工智能发展方向的风向标。

39届神经信息处理系统大会(NeurIPS)于20251130日至127日在墨西哥城和美国圣地亚哥两地同时举行。NeurIPS 2025的奖项凸显了人工智能研究的转向:研究重点不再局限于构建更庞大的模型,而是更多地聚焦于理解系统如何学习、泛化以及负责任地运作。在经历了多年快速扩展、大数据集和前所未有的计算能力主导的时期后,研究人员日益关注这种增长带来的后果。今年最受瞩目的论文不再专注于微幅提升基准测试成绩,而是深入探究当今人工智能系统是否真正具备理解能力、泛化能力,以及能否与人类期望保持一致。

(一)NeurIPS 2025最佳论文奖

尽管NeurIPS 2025大会主要聚焦于实践性进展,但会议同样强调了理论研究的持续重要性。NeurIPS最佳论文奖评审委员会的任务是从会议的主论文赛道和数据集与基准测试赛道中遴选出若干篇具有重大影响力的论文。

NeurIPS 2025最佳论文奖(The Best Paper Award)与最佳论文亚军奖(Best Paper Runner-Up Award)共授予七篇开创性论文,其中包括4篇最佳论文(其中1篇来自数据集与基准测试赛道)和3篇亚军论文。7篇论文分别聚焦于扩散模型理论、自监督强化学习、大型语言模型的注意力机制、大型语言模型的推理能力、在线学习理论、神经网络缩放定律以及语言模型多样性基准测试方法等领域的突破性进展

NeurIPS 2025最佳论文概况

类型

论文名称

遴选理由(简要版)

论文核心

最佳论文奖

《人工蜂群思维:语言模型的开放式同质性(及其延伸)》

该文为理解现代语言模型中的多样性、多元主义及社会影响提供了重要且及时的贡献

揭示语言模型输出中隐藏的多样性缺失

《门控注意力机制在大型语言模型中的应用:非线性、稀疏性与无注意力汇聚特性》

该研究需依托工业级计算资源方能完成,作者无私分享研究成果的举动尤为可贵——这将推动学术界对大型语言模型注意力机制的理解

通过重新设计注意力机制提升大型语言模型的稳定性

《千层网络在自监督强化学习中的应用:深度扩展可赋予全新目标达成能力》

该研究提出了一种新型且易于实现的RL范式,通过结合自监督学习与对比式RL,实现了对超深神经网络的有效训练

挑战强化学习中根深蒂固的假设

《扩散模型为何不记忆:隐式动态正则化在训练中的作用》

该文为现代生成式人工智能的机制提供了基础性且可操作的洞见,为泛化研究的分析深度树立了新标杆

理解模型为何无法记忆其数据

最佳论文亚军奖

《强化学习是否真能激励大型语言模型超越基础模型,从而提升其推理能力?》

这一重要发现有望激励开发全新RL范式,以驾驭广阔的动作空间并真正拓展LLM的推理能力

质疑强化学习在语言模型中的局限性

《传递式在线学习的最优误差界》

该文在学习理论领域取得突破性进展,凭借其优雅、全面且彻底地解决了困扰学界三十年的未解难题

实时定义学习的真正边界

《叠加效应产生稳健的神经可扩展性》

这些核心发现经由精心设计的系列实验验证,为该重要研究领域提供了全新视角

表征叠加如何解释更大模型为何表现更优

信息来源:NeurIPS官网

上海科学技术情报研究所翻译整理

Ø 《人工蜂群思维:语言模型的开放式同质性(及其延伸)》:揭示语言模型输出中隐藏的多样性缺失

大型语言模型常因其显而易见的创造力和灵活性而备受推崇。从论文写作到建议提供乃至故事创作,它们似乎能够生成几乎无限的响应内容。然而深入观察会发现一个更令人不安的模式:尽管在架构、规模和训练数据上存在差异,许多领先模型对开放式提示的响应方式却惊人地相似。这引发了人们的担忧:长期接触同质化输出可能导致人类思维趋于单一。然而,评估LMs输出多样性的可扩展方法仍显不足,尤其在随机数生成、名称生成等窄任务之外,或单一模型重复采样之外的场景中。

为弥补这一缺口,研究人员推出Infinity-Chat——一个包含2.6万条多样化真实开放式用户查询的大规模数据集,这些查询允许多种合理答案,且不存在单一标准答案。首次提出全面的开放式提示分类体系,涵盖向语言模型提出的各类开放式提示,包含6个顶级类别(如创意内容生成、头脑风暴与构思)并细分为17个子类别。基于Infinity-Chat,开展了大规模语言模型模式坍缩研究,揭示出其开放式生成中显著的人工蜂群效应:其特征表现为(1)模型内部重复——单一模型持续生成相似响应;更显著的是(2)模型间同质性——不同模型产出惊人相似的输出结果。

该研究的核心贡献在于对现有评估方法的检验。为理解现代语言模型中的多样性、多元主义及社会影响提供了重要且及时的贡献。常用于比较语言模型的自动化指标往往无法识别这种趋同现象——即便人类评估者始终更青睐那些展现更高原创性、语境感知力或多元视角的响应。结果导致模型在标准基准测试中看似不断进步,实际却日益趋于同质化。其影响远不止于技术评估层面:当语言模型在教育、媒体制作或公共信息服务领域大规模部署时,其输出内容的同质性可能导致呈现给用户的观点和思想范围被压缩。这类系统非但未能激发人类创造力,反而可能悄然强化主流叙事,压制多元视角的表达。研究发现揭示了当前奖励模型、自动化评判系统与多元人类偏好间的重大失调,凸显了协调性与多样性间的矛盾,为未来维护人工智能系统异质性的研究奠定基础。总体而言,这项工作为数据集和基准测试树立了新标准——其价值在于推动科学认知、应对紧迫的社会挑战,而非仅追求技术性能的提升。

Ø 《门控注意力机制在大型语言模型中的应用:非线性、稀疏性与无注意力汇聚特性》:通过重新设计注意力机制提升大型语言模型的稳定性

随着大型语言模型的规模和目标不断扩大,其信息处理机制已成为核心关注点。注意力机制作为模型权衡输入不同部分的关键组件,构成了现代语言系统的核心。门控机制已被广泛应用,从早期模型如LSTM和高速公路网络,到近期的状态空间模型、线性注意力以及软最大化注意力。然而现有文献鲜少探讨门控的具体效应。然而,正是这种机制在实现卓越性能的同时,也可能引入不稳定性、低效性及意外故障模式——尤其当模型在长序列数据上进行训练时。

为解决这一问题,研究人员提出了一种门控式注意力机制,使每个注意力头都能动态调节自身贡献。通过引入非线性特性并促进稀疏性,该方法有效抑制了病态标记词的过度影响,从而在训练和推理过程中实现更均衡的信息流动。研究通过全面实验系统性地考察了门控增强的软最大化注意力变体。具体而言,基于3.5万亿词汇量数据集,对150亿参数的专家混合模型(MoE)及其30种变体,以及17亿参数的稠密模型进行了全面对比。

研究结果表明,更高的可靠性并不一定需要更多数据或更大规模的模型。相反,通过精心设计的架构选择,能够显著提升模型的稳定性、效率和性能。随着语言模型越来越多地部署在需要长上下文理解和一致行为的场景中,这些改进显得尤为重要,预计该方案将被广泛采用。本研究需依托工业级计算资源方能完成,研究人员无私分享研究成果的举动尤为可贵,这将推动学术界对大型语言模型注意力机制的理解,尤其在当前LLM领域科学成果开放共享日趋减少的背景下。

Ø 《千层网络在自监督强化学习中的应用:深度扩展可赋予全新目标达成能力》:挑战强化学习中根深蒂固的假设

自监督学习的规模化应用已在语言和视觉领域取得突破性进展,但在强化学习(RL)领域却迟迟未能实现同等突破。强化学习常被视为实现真正自主人工智能的途径,但实际应用中却常因训练过程脆弱且需要精心设计的奖励机制而受阻。

该文研究了自监督强化学习的基础构建模块,这些模块显著提升了可扩展性,其中网络深度是关键因素。研究人员发现仅通过增加神经网络深度,便能在自监督学习环境中解锁全新能力。通过构建数百层深的网络,智能体无需明确指令或奖励便能更高效地实现目标。该研究表明,深度本身可替代人工设计的激励机制,使系统能够以浅层架构无法企及的方式探索并优化行为。

该发现挑战了人们对强化学习局限性的长期认知——即强化学习(RL)提供的信息不足以有效引导深度神经网络的众多参数,因此建议大型人工智能系统主要通过自监督学习进行训练,而将RL仅用于微调。该研究提出了一种新型且易于实现的RL范式,通过结合自监督学习与对比式RL,实现了对超深神经网络的有效训练。其潜在应用涵盖机器人学、自主导航及模拟环境等领域——在这些场景中,预先设定所有目标往往难以实现。该论文为人工智能领域揭示了一个更广泛的启示:结构上的复杂性有时能实现监督机制复杂性无法企及的效果。对于必须在动态环境中适应和学习的系统而言,架构深度可能比人们此前认识到的更为强大。

Ø 《扩散模型为何不记忆:隐式动态正则化在训练中的作用》:理解模型为何无法记忆其数据

生成式人工智能正以惊人的速度发展,扩散模型如今已能驱动图像生成、音频合成及早期视频创作工具。一个持续存在的问题是,这些系统可能只是简单地记忆训练数据,从而复现受版权保护或敏感内容,而非真正创造出新颖的内容。

研究通过训练动力学探索泛化向记忆化的过渡过程。经大量实验与理论分析,识别出两个不同时间尺度:早期阶段模型开始生成高质量样本,后期阶段则出现记忆化现象。该研究详细考察了扩散模型的训练动态,揭示出模型在训练过程中存在一个持续阶段,在此阶段模型能生成高质量输出,其泛化能力超越训练样本范围。记忆化现象发生在后期,且其出现时机随数据集规模增长而呈现可预测性。换言之,生成新颖且富有创造性的输出并非偶然副产品,而是学习过程中的自然阶段。

理解这些动态机制对开发者和监管者都具有实践意义。它表明记忆并非强大生成式系统的必然特征,可通过精心设计数据集和训练流程加以管控。随着生成式人工智能进一步融入主流应用,掌握模型何时及如何进行记忆,对确保信任、安全与伦理合规至关重要。该研究成果为在快速演变的领域中指导政策制定与部署决策提供了罕见的理论基础。通过阐明扩散模型中学习的内在机制,本文指明了生成式人工智能未来既能高度创新又能受到负责任管控的发展方向。

Ø 《强化学习是否真能激励大型语言模型超越基础模型,从而提升其推理能力?》:质疑强化学习在语言模型中的局限性

强化学习已被广泛应用于大型语言模型,人们期望它能提升模型的推理与决策能力。通过奖励理想输出结果,开发者希望推动模型超越基础能力,从而开启全新的推理形式。

对大型语言模型(LLM)研究中一项被广泛接受的基础性假设——可验证奖励强化学习(RLVR)能激发真正全新的推理能力——给出了精妙执行且至关重要的否定性结论。研究表明,在不同模型家族、任务和算法中,RLVR训练虽能提升采样效率,却未能拓展基础模型固有的推理能力。强化学习虽缩小了探索范围,强化了奖励轨迹,但更广阔的解决方案空间反而收缩,揭示出RLVR仅在基础分布范围内进行优化而非突破。相反,其进步主要体现在对基础模型已具备行为能力的优化完善上。

这些发现对先进语言模型的设计与部署具有重要启示。它们表明,当前的强化学习技术可能不足以开发出具备独立或真正创新推理能力的模型。随着人工智能系统承担越来越复杂的决策任务,理解强化学习的真实局限性变得至关重要,这有助于避免对其能力产生过度估计。该研究倡导采取更谨慎且基于证据的方法,强调若要使强化学习实现突破性进展而非渐进式改进,就必须制定新策略。

Ø 《传递式在线学习的最优误差界》:实时定义学习的真正边界

这项备受瞩目的研究探讨了在线学习理论领域中的基础性问题——该领域致力于研究系统如何进行序列预测,并在接收反馈的过程中实现持续改进。该研究通过精确量化转导式在线学习与标准在线学习之间的差距,解决了关于无标签数据在在线学习中作用的30年未解难题。

该文聚焦于一种名为传导学习的方法,学习者无需知晓标签即可考虑所有即将出现的问题,从而实现更精准的预测。通过精确的数学分析,作者推导出在此情境下学习者可犯错误数量的严格上限。通过采用利特尔斯通维度衡量问题难度,他们精确展示了相较于传统的逐步在线学习,转换式学习如何有效减少错误,从而解决了长期存在的理论难题。

尽管这项贡献属于理论范畴,但其影响远非抽象。许多现实系统运行于数据持续涌入、标签却稀缺或延迟的环境中。推荐系统、欺诈检测管道和自适应安全工具都依赖于不确定性下的学习,因此理解其基本性能极限至关重要。该论文在NeurIPS 2025会议上获得认可,彰显其解决了长期存在的开放性难题,并对机器学习基础理论具有深远意义。当人工智能系统日益应用于高风险场景之际,清晰的理论保障仍是防范代价高昂且不可逆错误的关键屏障。

Ø 《叠加效应产生稳健的神经可扩展性》:表征叠加如何解释更大模型为何表现更优

当今大型语言模型(LLMs)的成功,源于“模型规模越大性能越优”的观察规律。然而,这种神经网络缩放定律——即损失随模型规模呈幂律递减——的起源仍不明晰。

研究人员通过探究表示叠加现象的作用来探索这一问题——该现象指模型编码的特征数量超出了其名义维度所允许的范围。通过构建基于真实数据特征的简化模型,证明当叠加效应强烈时,随着模型规模的扩大,损失会以可预测的方式减少。在强叠加条件下,重叠表征产生的损失在广泛的数据分布范围内与模型维度成反比。

这项研究的核心洞见在于:表征之间的重叠能使大型模型更高效地学习。模型无需让每个特征占据独特空间,而是能密集地打包信息,从而在规模增长时获得更强的泛化能力。这种解释有助于说明为何单纯增加模型规模往往能持续提升性能。理解神经网络缩放定律背后的机制对于指导未来的设计选择至关重要。它为构建更高效的模型奠定了基础,并阐明了在何种情况下以及为何在更高容量下缩放可能不再带来收益。

(二)一篇论文如何在十年间彻底改变计算机视觉领域

NeurIPS会议的“经得起时间考验论文奖”旨在表彰十年前发表的论文,评选出那些自发表以来持续深刻影响研究领域、经受住时间考验的杰出成果。NeurIPS 2025大会的亮点之一,是表彰了一篇十年前发表的论文《Faster R-CNN:基于区域提案网络的实时目标检测》。该论文提出了一种全新的图像物体检测方法,至今仍是该领域的基础核心技术。

截至20251116日,《Faster R-CNN》论文已被引用超过56,700次。该研究对计算机视觉领域产生了深远影响,成为众多后续工作的基石。该论文同时实现了极高的检测精度与接近实时的5个误报率(FPs)检测能力,使神经网络模型得以在物体检测的实际应用中落地。这是首个用包含区域提案网络(RPN)和检测网络的完全可学习两阶段管道,取代选择性搜索和人工设计提案的方法。

在此研究之前,最先进的物体检测系统依赖独立的区域提案算法来推测可能的物体位置,这一步骤既耗时又脆弱。作者通过将区域提案网络直接嵌入检测管道,改变了这一范式。通过在提案阶段与检测阶段之间共享全图卷积特征,该系统将生成提案的成本降至近乎为零,同时保持了高精度。

该设计在基准数据集上表现出极高的有效性,并能在当代GPU上实现近乎实时的运行,从而在实际场景中实现快速可靠的物体检测。其应用为新一代两阶段检测器铺平了道路,并引发了一波后续研究浪潮,深刻影响了从自动驾驶到机器人技术的学术研究与实际应用。该文发表十余年后仍获认可,彰显了持久的工程洞察为人工智能的长期发展奠定基础。

(三)结论

综合来看,NeurIPS 2025大会上的获奖论文研究勾勒出这样一幅图景:人工智能领域正步入更具反思性的阶段。人工智能的发展不再仅由模型规模定义,研究焦点正转向理解学习动态、完善评估框架,以及确保大规模应用中的稳定性和可靠性。2025年并非单纯嘉奖技术创新,它更彰显了那些质疑既有假设、揭露隐性局限、并为未来系统奠定更具原则性基础的研究成果。随着人工智能日益成为社会中的重要力量,这种转变或许将成为该领域发展历程中最关键的变革之一。 

参考文献

[1]Inside NeurIPS 2025: How AI research is shifting focus from scale to understanding[EB/OL].(2026-01-14)[2026-01-19].https://dig.watch/updates/inside-neurips-2025-how-ai-research-is-shifting-focus-from-scale-to-understanding

[2]Key 8 Takeaways from NeurIPS 2025[EB/OL].(2026-01-12)[2026-01-19].https://litslink.com/blog/ai-news-key-takeaways-from-neurips-2025

[3]NeurIPS 2025: Biology’s Transformer Moment[EB/OL].(2025-12-09)[2026-01-19].https://www.genengnews.com/topics/artificial-intelligence/neurips-2025-biologys-transformer-moment/

[4]NeurIPS 2025 Recap[EB/OL].(2025-12-15)[2026-01-19].https://www.amplifypartners.com/blog-posts/neurips-2025-recap

[5]NeurIPS 2025 Invited Speaker Topics[EB/OL].(2025-11-20)[2026-01-19].https://blog.neurips.cc/2025/11/20/neurips-2025-invited-speaker-topics/

[6]Announcing the NeurIPS 2025 Best Paper Awards[EB/OL].(2025-11-26)[2026-01-19].https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/

[7]Announcing the Test of Time Paper Award for NeurIPS 2025[EB/OL].(2025-11-26)[2026-01-19].https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/