【[509星]SWELancer-Benchmark:前沿LLM能否在真实世界的

爱生活爱珂珂 2025-02-20 14:20:49

【[509星]SWELancer-Benchmark:前沿LLM能否在真实世界的自由职业软件工程中赚取百万美元?亮点:1. 提供真实世界的软件工程任务数据集,挑战性强;2. 专为评估LLMs在复杂编程任务中的表现设计;3. 提供完整的代码和工具支持,助力研究与开发】

'SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?'

GitHub: github.com/openai/SWELancer-Benchmark

0 阅读:3
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注