程序员安心了?AI能写代码 但不能维护代码!首次评测出炉:大多数AI会“越改越糟

1个月前 (03-17)财经热点2

  近年来,AI大模型的编程能力突飞猛进,各大AI厂商在编程基准测试上你追我赶,不断刷新纪录。这让不少程序员开始担忧:AI是不是很快就要抢走我们的饭碗了?

  测试包含100项任务,总Token消耗超100亿。结果显示,Claude Opus系列综合表现领跑。

  在控制性能退化方面,千问、DeepSeek、MiniMax、Kimi和豆包等大多数AI大模型的表现明显不佳。也就是说,AI在长期代码维护过程中,可能将代码“越改越糟”。

  长期以来,AI编程能力的主流评测基准的共同特点是快照式评测,以“单次接收需求、一次性输出解决方案”为核心。

  然而,这种评估方式仅检验大模型是否能写出功能正确的代码,无法反映真实软件开发中持续迭代、长期维护的核心需求。

  在现实中,成熟的软件很少是一蹴而就的,而是长期维护的结果。雷曼定律表明,软件质量会随着维护的进行而自然下降。而维护工作占软件生命周期总成本的60%到80%。

  为评估AI在长期代码维护中的表现,中山大学与团队联合推出了SWECI评测基准。这是全球首个专门评估AI智能体在长期代码维护表现的评测系统,它不再满足于考察AI编程的“一次性正确”,而是评估AI是否像真正的软件工程师一样,在数月甚至数年的开发过程中持续保持代码质量。

  研究团队先从GitHub全网的Pytho代码库中筛选出维护三年以上、星标超500、包含依赖文件和完整单元测试套件,以及采用MIT/Apache2.0等宽松协议的4923个代码库;再提取依赖稳定、代码修改量超1000行的提交对,得到8311个候选样本;通过自动构建Docker环境与自修复依赖机制,保留1458组可运行候选对;最后经测试启动校验、通过率差异筛选、时间跨度与提交量排序,确定100项最终任务。

  研究团队精心构建的100项任务中,每项任务都对应着真实世界中一个软件项目的完整进化历程。这些项目平均跨越233天的开发时间,包含71次连续的代码提交记录。团队还设计了一个精巧的“架构师-程序员”双智能体协作机制。设计的灵感来自真实软件团队中常见的分工模式:架构师负责分析需求和制定技术方案,程序员负责具体的代码开发。

  为适配长期迭代评测,SWECI提出了“归一化变化”与“EvoScore(进化得分)”两大核心指标。

  “归一化变化”以测试用例通过数为基础,将代码状态映射到[-1,1]区间,正向表示功能提升,负向表示出现功能退化。

  研究团队对8家公司——月之暗面、Anthropic、智谱、千问、MiniMax、DeepSeek、OpenAI和豆包——的18个主流AI大模型进行了系统性测试,累计消耗了超过100亿Token的测试数据。这一实验规模在AI编程评估领域堪称史无前例。

  从下图可以发现,同一厂商的大模型新版本普遍稳定高于前一代,且2026年后的跃升幅度显著扩大,EvoScore更高。这表明,当前大模型的代码能力正从静态缺陷修复,快速向持续、长期的代码维护演进。

  中国的AI大模型中,GLM系列进步显著,成为第二梯队中最具竞争力的选手。紧随其后的是Qwen和MiniMax,整体趋势向好。而Kimi和豆包虽有提升,但缺乏突破。

  具体而言,MiniMax、DeepSeek以及OpenAI的GPT系列大模型更偏好长期效益,显示出其在长期代码维护任务中的优势。这意味着,这类大模型在生成代码时,更倾向于采用有利于长期演进与稳定性的策略,而非追求短期修复的最优解。

  而千问、豆包以及Claude系列大模型则呈现出另一种特征:其训练策略在短期效果与长期维护之间取得了一定平衡。

  随着权重参数γ的变化,各个大模型的排名也随之发生显著调整。当γ1时,大模型排名越高,其代码库维护能力越强。图片来源:论文截图

  另外,研究还有一项关键发现:在长期代码维护中,所有大模型在有效控制性能退化(Regression)方面都表现不佳。

  性能退化是衡量软件质量稳定性的核心指标。如果某个单元测试在代码更新前已经通过,而更新后失败了,则判定该变更触发了性能退化。一旦出现性能退化,不仅会直接影响用户体验,在长期维护过程中,随着修改次数累积,还可能导致系统质量系统性退化。

  研究团队测量了“零退化率”——即在整个维护过程中完全没有破坏原有功能的任务比例。零退化率越高,维护的系统越稳定。

  研究结果表明,在所有参与测试的18个大模型中,只有Anthropic的Claude Opus大模型保持了50%以上的零退化率,大多数大模型的零退化率都低于25%。

  具体而言,Claude-opus-4.6以76%的零退化率遥遥领先。这意味着在绝大多数测试场景中,其性能能够保持稳定。Claude-opus-4.5以51%位列第二。相比之下,Kimi-K2.5(37%)与GLM-5(36%)表现接近,构成第二梯队,虽具备一定稳定性,但与头部大模型仍存在显著差距。

  包括GPT-5.2、Qwen3.5-plus、MiniMax-M2.5和DeepSeek-V3.2在内的其余14个AI大模型的零退化率都在25%以下,这意味着在长期代码维护过程中,大模型在超过75%的任务中会破坏原本正常的代码功能,引发性能退化问题。

  但从版本迭代的角度看,头部厂商的AI大模型正快速进步。例如,Claude-opus系列的“零退化率”从4.5版本的51%提升至4.6版本的76%,智谱GLM系列从GLM-4.6和GLM-4.7的14%跃升至GLM-5的36%。

  但即便如此,绝大多数大模型仍难以在长期代码维护中杜绝性能退化问题,距离可靠的自动化长期开发仍有明显差距。

  SWECI基准测试结果的发布,让行业意识到,“写代码”和“维护代码”是两种截然不同的能力。对于大模型厂商而言,持续优化可维护性、性能退化控制、架构设计能力,或许将是赢得下半场竞争的关键。程序员安心了?AI能写代码 但不能维护代码!首次评测出炉:大多数AI会“越改越糟”

“程序员安心了?AI能写代码 但不能维护代码!首次评测出炉:大多数AI会“越改越糟” 的相关文章

王腾新公司“今日宜休”完成数千万种子轮融资 高瓴创投、智元机器人等共同投资

  1月8日,原小米中国区市场部总经理王腾发文宣布成立新公司“今日宜休”。 天眼查App显示,王腾名下关联北京今日宜休等5家公司,均为存续状态,王腾在上述企业担任法定代表人、董事等职务。...

三维通信(002115)龙虎榜数据(01-20)

  不对因该资料全部或部分内容而引致的盈亏承担任何责任。用户个人对服务的使用承担风险,东方财富对此不作任何类型的担保财经热点。三维通信(002115)龙虎榜数据(01-20)...

中望软件:公司向多个欧盟成员国销售公司旗下产品

  在互动平台回答投资者提问时表示,公司向包括德国、法国、意大利、西班牙等国在内的多个欧盟成员国销售公司旗下产品,公司在海外市场的产品销售主要通过渠道网络进行,同时公司还在部分国家设立有子...

志高机械:融资净偿还6.69万元,融资余额1107.76万元

  不对因该资料全部或部分内容而引致的盈亏承担任何责任。用户个人对服务的使用承担风险,东方财富对此不作任何类型的担保财经热点。志高机械:融资净偿还6.69万元,融资余额1107.76万元...

贝隆精密1月21日快速上涨

  盘中快速上涨,5分钟内涨幅超过2%,截至13点46分,报58.4元,成交3.28亿元,换手率27.69%。贝隆精密1月21日快速上涨...

机构:2026年1月电视面板价全面上涨

  根据TrendForce集邦咨询最新调研数据,2026年1月,电视面板价全面上涨,显示器面板价格与前月相比持平,笔电面板价格整体下调财经热点。机构:2026年1月电视面板价全面上涨...