DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

5个月前 (05-01)热点话题116

  DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

  论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

  DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

  Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

“DeepSeek新数学模型刷爆记录 刷新多项高难基准测试” 的相关文章

长沙兴联路大桥正式通车 过江时间大幅缩短

  4月28日11时18分,桥面隔离设施缓缓移除后,首批车辆平稳驶入,兴联路大桥正式通车。这座大桥的开通使长沙过江通道总数增至15条,开福区与望城区之间的通行时间从30分钟缩短至10分钟以...

一汽和江淮下场eVTOL赛道 飞行汽车年内集体“起飞”

  一汽和江淮下场eVTOL赛道 飞行汽车年内集体“起飞”。飞行汽车正逐渐成为自主品牌汽车的标配,并有望在今年集体实现首飞。中国一汽集团董事长邱现东透露,红旗“天辇1号”飞行汽车计划年内首...

奇怪情侣买39万黄金不问价也不挑款 警惕新型诈骗手法

  奇怪情侣买39万黄金不问价也不挑款 警惕新型诈骗手法。近日,福建厦门一家售卖黄金饰品的店铺迎来了一对奇怪的情侣。二人进店后不挑款式、不问价格,直接表示要购买价值39万元的黄金。店员注意...

广州越秀今年小学一年级减少44个班 招生计划调整

  4月28日,广州市越秀区教育局发布2025年义务教育学校招生计划。2025年,越秀区计划开设小学一年级313个教学班...

德波尔称亚马尔比梅西更出色 年轻天才引发热议

德波尔称亚马尔比梅西更出色 年轻天才引发热议

  荷兰名宿罗纳德-德波尔在接受talkSPORT采访时,对比了亚马尔和同年龄的梅西。德波尔提到亚马尔在高水平比赛中表现出色,已经出场100次。在欧洲杯上,亚马尔是西班牙队的明星之一,与尼...

库克:苹果今年将在美采购1900万芯片,扩大多地设施与团队

  苹果公司CEO库克宣布,今年将在美国采购190亿枚芯片,并计划扩大在密歇根州、德克萨斯州和加利福尼亚州等地的团队和设施。此外,苹果还将在德克萨斯州建立一家先进的服务器制造工厂。...