OpenHands CodeAct 2.1 取得了最先进的成果:
SWE-Bench 验证的解决率为 53%
SWE-Bench Lite 的解决率为 41.7%
通过函数调用、使用 Anthropic 的 Claude 3.5 模型以及优化目录遍历实现了改进。
OpenHands CodeAct 2.1 取得了最先进的成果:
SWE-Bench 验证的解决率为 53%
SWE-Bench Lite 的解决率为 41.7%
通过函数调用、使用 Anthropic 的 Claude 3.5 模型以及优化目录遍历实现了改进。