Terminus 2和 SWE-bench Verified 的严格程度取决于所评估的维度,SWE-bench侧重于深度和精确性,而 Terminus 2 则优先考虑软件开发生命周期的广度和全面覆盖。SWE-bench Verified 的严苛之处在于,它要求模型修复真实的 GitHub bug,并在真实的项目环境中通过所有严格的单元测试,最终获得明确的通过/失败结果。相比之下,Terminus 2 评估的是更广泛的能力,包括规划和执行,并且要求模型在除 Python 之外的多种编程语言上都表现出色。因此
www.bilibili.com