关闭广告

NeurIPS 2025放榜:阿里Qwen门控注意力获最佳论文

量子位2380人阅读

嘻疯 发自 凹非寺
量子位 | 公众号 QbitAI

刚刚,NeurIPS 2025最佳论文奖、时间检验奖出炉!

今年Best Paper共有4篇,3篇为华人一作,阿里Qwen门控注意力获奖

Best Paper Runner-up也有三篇

这七篇论文聚焦于扩散模型理论、自监督强化学习、大语言模型注意力机制、大语言模型推理能力、在线学习理论、神经缩放定律以及语言模型多样性基准测试方法等领域的突破性进展。



另外,任少卿、何恺明、Ross Girshick、孙剑团队2015年提出的深度学习模型Faster R-CNN拿下时间检验奖

Faster R-CNN用于解决目标检测问题,目标检测的任务不仅要知道一张图片里有什么物体(分类),还要知道这些物体在图片的什么位置(定位)。

它的名字“Faster”已经点明了其最大贡献:极大地提升了目标检测的速度,真正实现了端到端的、接近实时的检测。



4篇Best Paper,3篇华人一作

1、《Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)》



论文一作为来自华盛顿大学的Liwei Jiang。

这篇工作聚焦大语言模型在开放式生成任务中的多样性问题,提出“人工蜂群思维(Artificial Hivemind)”概念。

核心发现是当前大模型存在显著的模型内重复和模型间同质性:

单一模型对同一开放式查询会生成相似响应,不同模型(无论开源还是闭源、不同规模)也会收敛到相似输出,即便采用min-p等增强多样性的解码策略,仍有超60%的响应相似度超过0.8。



例如,对查询“写一个关于时间的隐喻”的响应通过主成分分析(PCA)将句子嵌入降至二维后进行聚类。25个不同家族、规模的模型以top-p=0.9、temperature=1.0生成50条响应,所有响应仅形成两个主要聚类:“时间是一条河流”“时间是一位织工”。



为支撑研究,作者构建了含26K真实世界开放式查询的INFINITY-CHAT数据集,涵盖创意内容生成、头脑风暴、哲学问题等6大类17个子类,并收集了31250条人类标注,形成首个系统评估开放式查询的资源。



同时,研究还发现,现有大模型、奖励模型和大模型评判器在评估人类偏好分歧大或质量相近的开放式响应时,与人类评分的校准度较低,难以捕捉人类多元偏好。



论文通过大量实验(涉及70+模型)验证了“人工蜂群思维”的普遍性,讨论了其对人类思维同质化的潜在风险,并为未来开发更具多样性、更贴合人类多元需求的AI系统提供了基准和方向,也指出了数据集语言局限性、创意表达维度简化等研究不足。

2、《Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free》



论文共同一作Zihan Qiu、Zekun Wang、Bo Zheng均来自阿里Qwen团队,Zeyu Huang来自爱丁堡大学。

该论文聚焦大语言模型中的门控注意力机制,通过对15B混合专家(MoE)模型和1.7B稠密模型在3.5万亿token数据集上的30种变体进行全面实验,系统探究了门控增强型softmax注意力的效果。

研究核心发现,在缩放点积注意力(SDPA)后应用特定于注意力头的sigmoid门控能持续提升模型性能,同时增强训练稳定性、容忍更大学习率并改善缩放特性。



该门控机制的有效性源于两大关键因素:一是在softmax注意力的低秩映射中引入非线性,二是通过查询依赖的稀疏门控分数调节SDPA输出。

这种稀疏门控不仅缓解了大规模激活和注意力沉陷问题,将基线模型中平均46.7%指向首个token的注意力占比降至4.8%,还提升了长上下文外推性能,在RULER基准上实现超10分的增益。



实验还对比了不同门控位置、粒度、共享方式、作用形式及激活函数的效果,证实SDPA输出的元素级门控最优,且头特定门控比头共享门控更有效,乘法门控优于加法门控,sigmoid激活函数表现最佳。



此外,该门控机制在MoE模型和稠密模型中均有效,能支持更大学习率和批次大小的稳定训练,且在上下文长度扩展至128k时仍保持优越性能,相关代码和模型已公开,其核心设计也被应用于Qwen3-Next模型中。

3、《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》



论文一作Kevin Wang,来自普林斯顿大学,同时是OpenAI研究员。

这篇论文聚焦于解决强化学习中模型规模扩展的难题,探索了网络深度作为关键因素对自监督强化学习性能的影响。

与近年来RL领域普遍采用2-5层的浅层架构不同,研究团队将网络深度提升至1024层,结合自监督RL算法(对比性RL,CRL)、GPU加速框架以及残差连接、层归一化、Swish激活等架构技术,在无演示、无奖励的无监督目标条件设置下开展实验。



实验覆盖移动、导航和机器人操作等多种任务。

结果显示,加深网络深度使CRL算法性能提升2-50倍,在半数环境中实现超20倍的性能飞跃,且在10个任务中的8个超越SAC、TD3+HER等主流目标条件基线算法。



深度增加不仅提高任务成功率,还会触发质的行为变化,当达到特定临界深度(如Ant Big Maze的8层、Humanoid U-Maze的64层)时,智能体将习得全新技能(如类人机器人的翻墙、坐姿移动等)。



研究还揭示,深度扩展比宽度扩展更具计算效率(参数与计算量增长更平缓),且能与批量大小扩展协同作用。



同时,actor和critic网络的联合深度扩展可互补提升性能;深层网络通过增强对比表征能力、优化探索与表征效率的协同作用、合理分配关键状态区域的表征容量等机制实现性能提升,还在组合泛化任务中表现更优。



此外,研究发现深度扩展的优势主要体现在在线RL场景,离线设置下效果有限,且仅CRL等自监督算法能有效利用深度扩展,传统TD类算法难以从中获益。

论文通过详尽的实验验证、架构消融和机制分析,为RL的规模扩展提供了新范式,同时也指出了计算成本较高等局限性。

4、《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》



论文共同一作Tony Bonnaire、Raphaël Urfin,来自巴黎高等科学与研究学院。

论文深入探究了扩散模型避免训练数据记忆化、实现泛化的核心机制,聚焦训练动态中的隐式动力学正则化作用。

论文首先指出,扩散模型在图像、音频、视频等生成任务中表现出色,但理解其防止记忆化、保障泛化能力的机制是关键挑战。通过大量数值实验与理论分析,研究识别出两个关键训练时间尺度:

一是泛化时间,即模型开始生成高质量样本所需的最短训练时间,该时间与训练集大小无关;二是记忆化时间,超过此时间模型会开始记忆训练数据,且该时间随训练集大小呈线性增长。

这两个时间尺度形成的泛化窗口会随训练集规模扩大而拓宽,只要训练在泛化窗口内停止,模型就能高效泛化,只有当训练集大小超过模型相关阈值时,无限训练时间下的过拟合才会消失,这一发现揭示了隐式动力学正则化能让扩散模型即便在高度过参数化场景下也可避免记忆化。



在实验验证方面,研究以CelebA人脸数据集为对象,将图像转为灰度下采样图像,采用U-Net架构构建分数模型,通过改变训练集大小和模型参数数量(调整U-Net基础宽度)展开实验。



结果显示,不同训练集大小下,泛化时间基本稳定,记忆化时间随训练集增大而线性延长,且模型容量会影响两个时间尺度(参数越多,泛化和记忆化出现越早),同时排除了数据重复导致记忆化的可能性,证明记忆化由损失景观的本质变化驱动。



理论分析层面,研究采用随机特征神经网络模型,在高维极限下结合随机矩阵理论等工具,分析训练动态。

结果表明,训练动态的时间尺度与随机特征相关矩阵的特征值倒数相关,过参数化场景下会出现两个分离的特征值区间,分别对应泛化和记忆化时间尺度,泛化阶段依赖数据总体协方差,与具体数据集无关,记忆化阶段则与数据集相关的高频特征有关,进一步印证了实验观察到的规律。



此外,论文还探讨了优化器影响、条件生成场景等扩展情况,同时指出研究局限,如未充分探索更宽范围的模型参数、未深入分析条件生成对时间尺度的具体影响等。

Faster R-CNN获时间检验奖



Faster R-CNN目标检测框架,核心创新是引入区域提议网络(RPN),通过与检测网络共享全图像卷积特征,解决了传统目标检测中区域提议计算耗时的瓶颈问题,实现了高效且高精度的目标检测。

RPN作为全卷积网络,能在特征图的每个位置同时预测目标边界框和目标性得分,其设计的“锚点”机制通过3种尺度和3种长宽比的参考框,无需图像金字塔或滤波器金字塔即可覆盖多种尺度和形状的目标,兼具平移不变性且参数规模远小于MultiBox等方法,有效降低过拟合风险。

论文设计了多任务损失函数,结合分类损失(log损失)和回归损失(smooth L1损失),通过4步交替训练策略将 RPN与Fast R-CNN融合为统一网络,实现卷积特征的共享——

RPN扮演注意力角色指示检测网络关注区域,Fast R-CNN负责对提议区域进行精确分类和边界框修正。



在实验验证方面,该框架在PASCAL VOC 2007、2012和MS COCO等数据集上均取得当时最先进的检测精度,使用VGG-16模型时在GPU上达到5fps的帧率(含所有步骤),仅需300个提议区域即可优于传统Selective Search(2000个提议)的性能,且提议计算仅耗时10ms。



在ILSVRC和COCO 2015竞赛中,Faster R-CNN和RPN成为多个赛道冠军方案的基础。

此外,论文还通过消融实验验证了锚点设置、损失函数平衡参数等超参数的鲁棒性,对比了单阶段与两阶段检测框架的优劣,证明两阶段架构更具精度优势,同时探索了MS COCO大规模数据集对PASCAL VOC任务的迁移提升作用,通过跨数据集预训练实现了检测精度的显著提高。

该框架不仅为实时目标检测提供了实用解决方案,其共享特征和锚点机制也深刻影响了后续3D目标检测、实例分割等多个计算机视觉领域的发展,相关代码已公开供学术界和工业界使用。


[1]https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/
[2]https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

罗马诺:加拉塔萨雷正和贝蒂斯就引进阿尔蒂米拉展开谈判

懂球帝 浏览 1848

黄一鸣“砸饭碗”起诉王思聪,硬气强调不图钱

探源历史 浏览 809

韩6旬福利院院长涉嫌性侵4名残障女性 受害者喊其爸爸

大风新闻 浏览 6426

专家:演习5个区域形成"三面围岛"之势 传递明确信号

环球时报 浏览 7613

穿了十年仍然心动的外套,它算一件

黎贝卡的异想世界 浏览 2043

短剧抄袭风波升级!评论区沦陷、预告下架,网友直言早该管理了

萌神木木 浏览 2341

字母哥首秀但他还走吗? 胜公牛并未让雄鹿宽心

仰卧撑FTUer 浏览 2793

宗馥莉辞职内幕曝光,大女主的复仇之路,如何伤了娃哈哈?

北向财经 浏览 2926

9系大六座旗舰SUV又添一员 智己LS9预售33.69万起

网易汽车 浏览 2503

一汽夏利、华晨自主、众泰等8家老牌车企被工信部移出车企名录

IT之家 浏览 13

你适合“剪刘海”还是“露额头”?关键看这点!

Yuki女人故事 浏览 2320

假期4大变量共振 哪些是A股正向催化剂?

财联社 浏览 1668

小伙去理发被店家弄到VIP房间后脸白了 联系父母要钱

1818黄金眼 浏览 2236

从冰箱彩电大沙发到“1室1厅1厨” 场景化创新驱动中国汽车细分市场竞争升级

封面新闻 浏览 2225

摩托罗拉Edge 70 Ultra现身Geekbench,处理器或有新情况

IT之家 浏览 2437

76岁许绍雄去世:叔公参与创立黄埔军校 姑婆是许广平

红星新闻 浏览 10662

搭上芯片“黑马”新凯来的光伏龙头,高管集体减持,股价大跌超7%

红星资本局 浏览 2721

贝巴:每个人都能轻易批评球员,但我们需要的是建设性的批评

懂球帝 浏览 2597

切尔西近10年共经历10任教练,图赫尔冠军最多,孔蒂任期最长

懂球帝 浏览 2103

让AI给人类发工资 28岁小伙用AI创业拿下3000万元投资协议

封面新闻 浏览 1057

果园8.8元"偷橘子":一晚卖几百斤 抓人的狗都累瘫了

红星新闻 浏览 8963
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1