智谱发布GLM-5技术报告 技术细节全公开
构建了一套新型异步强化学习(RL)基础设施,通过将生成过程与训练过程解耦,从而大幅提升了后训练的迭代效率财经热点。此外,智谱还提出了全新的异步 Agent 强化学习算法,进一步提升强化学习的效果,使模型能够更有效地从复杂、长程交互中学习。
智谱称,基于上述创新,GLM-5 在主流的开放基准测试中实现了 SOTA 性能。最关键的是,GLM-5 在真实世界编程任务中展现出前所未有的能力,在处理端到端软件工程挑战方面超越了此前所有开源基线。智谱发布GLM-5技术报告 技术细节全公开