Cognition AI程序员Devin的技术报告

AI观察员 2024-03-29 14:00:20 浏览数 (375)
反馈

Cognition AI程序员Devin的技术报告

Image

Cognition发布了他们的AI程序员Devin的技术报告,他们自己设计了一个很复杂的代码能力测试SWE-bench。

同时然后用这个测试集对Devin进行测试,Devin在没有辅助的情况下成功解决了13.86%的问题,之前最好的模型也只解决了4.80%的问题。

Claude 2都这么强吗?GPT-4这个成绩有点拉的。

SWE-bench的自动化基准测试方案:

该测试包含从GitHub上流行的开源Python仓库中抓取的2,294个问题和拉取请求。

SWE-bench的目标是测试系统编写实际代码的能力,每个实例包括一个GitHub问题和解决它的拉取请求,拉取请求必须包括一个在代码更改前失败、更改后通过的单元测试。

Devin测试结果:

Devin在没有辅助的情况下成功解决了13.86%的问题,远超过之前未辅助基线的最高记录1.96%

即使在提供确切需要编辑的文件的“辅助”情况下,之前最好的模型也只解决了4.80%的问题。

Devin的成功归因于其能够执行多步骤计划并从环境中获得反馈,72%的通过测试需要超过10分钟完成,表明迭代能力对于成功至关重要。

详细报告:https://cognition-labs.com/post/swe-bench-technical-report

@Cognition @AI @Devin

0 人点赞