【[87星]qwen-scheduler-grpo:用AI训练语言模型来智能生成

爱生活爱珂珂 2025-05-05 11:56:04

【[87星]qwen-scheduler-grpo:用AI训练语言模型来智能生成日程安排,让复杂的事件调度变得轻松。亮点:1. 采用GRPO(Group Relative Policy Optimization)技术,无需目标示例即可学习;2. 模型在测试集上显著优于基础模型,甚至超越14B模型;3. 自定义奖励函数,优化事件权重和优先级】

'qwen-scheduler-grpo: Train a Language Model with GRPO to create a schedule from a list of events and priorities'

GitHub: github.com/anakin87/qwen-scheduler-grpo

智能调度 强化学习 语言模型 AI创造营

0 阅读:2
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注