【[87星]qwen-scheduler-grpo:用AI训练语言模型来智能生成日程安排,让复杂的事件调度变得轻松。亮点:1. 采用GRPO(Group Relative Policy Optimization)技术,无需目标示例即可学习;2. 模型在测试集上显著优于基础模型,甚至超越14B模型;3. 自定义奖励函数,优化事件权重和优先级】
'qwen-scheduler-grpo: Train a Language Model with GRPO to create a schedule from a list of events and priorities'
GitHub: github.com/anakin87/qwen-scheduler-grpo
智能调度 强化学习 语言模型 AI创造营