Cognition AI程序员Devin的技术报告

Cognition发布了他们的AI程序员Devin的技术报告，他们自己设计了一个很复杂的代码能力测试SWE-bench。

同时然后用这个测试集对Devin进行测试，Devin在没有辅助的情况下成功解决了13.86%的问题，之前最好的模型也只解决了4.80%的问题。

Claude 2都这么强吗？GPT-4这个成绩有点拉的。

该测试包含从GitHub上流行的开源Python仓库中抓取的2,294个问题和拉取请求。

SWE-bench的目标是测试系统编写实际代码的能力，每个实例包括一个GitHub问题和解决它的拉取请求，拉取请求必须包括一个在代码更改前失败、更改后通过的单元测试。

Devin测试结果：

Devin在没有辅助的情况下成功解决了13.86%的问题，远超过之前未辅助基线的最高记录1.96%。

即使在提供确切需要编辑的文件的“辅助”情况下，之前最好的模型也只解决了4.80%的问题。

Devin的成功归因于其能够执行多步骤计划并从环境中获得反馈，72%的通过测试需要超过10分钟完成，表明迭代能力对于成功至关重要。

@Cognition @AI @Devin