Cognition AI程序员Devin的技术报告
Cognition发布了他们的AI程序员Devin的技术报告,他们自己设计了一个很复杂的代码能力测试SWE-bench。
同时然后用这个测试集对Devin进行测试,Devin在没有辅助的情况下成功解决了13.86%的问题,之前最好的模型也只解决了4.80%的问题。
Claude 2都这么强吗?GPT-4这个成绩有点拉的。
SWE-bench的自动化基准测试方案:
该测试包含从GitHub上流行的开源Python仓库中抓取的2,294个问题和拉取请求。
SWE-bench的目标是测试系统编写实际代码的能力,每个实例包括一个GitHub问题和解决它的拉取请求,拉取请求必须包括一个在代码更改前失败、更改后通过的单元测试。
Devin测试结果:
Devin在没有辅助的情况下成功解决了13.86%的问题,远超过之前未辅助基线的最高记录1.96%。
即使在提供确切需要编辑的文件的“辅助”情况下,之前最好的模型也只解决了4.80%的问题。
Devin的成功归因于其能够执行多步骤计划并从环境中获得反馈,72%的通过测试需要超过10分钟完成,表明迭代能力对于成功至关重要。
详细报告:https://cognition-labs.com/post/swe-bench-technical-report
@Cognition @AI @Devin