【[509星]SWELancer-Benchmark:前沿LLM能否在真实世界的自由职业软件工程中赚取百万美元?亮点:1. 提供真实世界的软件工程任务数据集,挑战性强;2. 专为评估LLMs在复杂编程任务中的表现设计;3. 提供完整的代码和工具支持,助力研究与开发】
'SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?'
GitHub: github.com/openai/SWELancer-Benchmark