DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

6个月前 (05-01)热点话题125

  DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

  论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

  DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

  Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

“DeepSeek新数学模型刷爆记录 刷新多项高难基准测试” 的相关文章

气场全开!梅婷秦海璐 优雅大女主走红毯 举手投足间尽显成熟女性的从容与魅力!

   梅婷秦海璐 优雅大女主走红毯   【梅婷秦海璐 优雅大女主走红毯】4月27日,第X届华表奖颁奖典礼在京举行,4...

亚马逊一季度净销售1557亿美元 营收利润双增长

  当地时间5月1日,亚马逊公布了第一季度财报。财报显示,公司营收达到1557亿美元,相比去年同期的1433.1亿美元有所增长。经营利润为184亿美元,运营利润率为11.8%。北美地区的净...

吴艳妮创造个人赛季最好成绩 刷新纪录展现实力

  5月3日晚8时55分许,在2025长三角国际田径钻石赛(上海/绍兴柯桥)女子100米栏项目中,中国运动员吴艳妮以12秒96的成绩获得第8名,刷新个人赛季最好成绩。她在前一天的新闻发布会...

日本4月综合PMI终值为51.2 服务业PMI小幅上调

  每经AI快讯,日本4月服务业PMI终值52.4,初值52.2;4月综合PMI终值51.2,初值51.1。...

时隔一周美航母舰载机再出事故 拦阻系统故障致坠海

时隔一周美航母舰载机再出事故 拦阻系统故障致坠海

  当地时间5月6日,据4位知情人士透露,美国“哈里·杜鲁门”号航空母舰上的一架F/A-18战机在红海坠落。这是该航母在一周多时间内损失的第二架战机。目前事故原因尚未完全查明,调查仍在进行...

复工前三天,卡住你上班的原因,可能是你在经历「职业倦怠」 工作效率降低与无助感加

复工前三天,卡住你上班的原因,可能是你在经历「职业倦怠」 工作效率降低与无助感加

  复工前三天,卡住你上班的原因,可能是你在经历「职业倦怠」 工作效率降低与无助感加强!在工作中无法获得成就感,工作效率降低,无助感增强。如果连续几天感到疲惫且心情不佳,看谁都不顺眼,包括...