6月20日,昆仑万维发布软件工程(Software Engineering, SWE)自主代码智能体基座模型Skywork-SWE,在开源32B模型规模下实现了业界最强的仓库级代码修复能力。昆仑万维团队通过构建超过1万个可验证的GitHub仓库任务实例,打造出目前最大规模的可验证GitHub仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。
Skywork-SWE-32B模型在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32B以下的开源模型,也显著效缩小了与闭源模型之间的性能差距。
过去半年多时间,昆仑万维在奖励模型、多模态、推理、视频生成等方向开源了一系列SOTA级别模型,如今又在Agent(SWE任务)方向再下一城。继5月天工超级智能体(Skywork Super Agents)面向全球发布后,今天昆仑万维又发布并开源了自主代码智能体模型Skywork-SWE-32B模型,这不仅是公司坚定开源策略的重要实践,更代表了昆仑万维对Agent在办公任务、SWE任务场景中的重要探索。
通过Skywork-SWE数据集的构建,以及自主代码智能体模型Skywork-SWE-32B模型的发布,昆仑万维研究表明高质量且可执行验证的数据是提升代码智能体模型性能的关键瓶颈,系统化的数据扩展策略将在推动开源模型性能突破中发挥关键作用。
“基于此,我们期望Skywork-SWE-32B的开源,能够助力社区在大语言模型驱动的软件工程研究中持续演进。”昆仑万维表示,未来,Skywork-SWE-32B模型将进一步拓展多编程语言支持以覆盖更广泛的开发场景,并探索融合运行时测试反馈的强化学习机制,为构建真正具备智能软件开发能力的大语言模型奠定坚实基础。同时,昆仑万维也将积极探索更多Agent任务场景。(燕云)