AI画图前能先思考了港中文让AI文生图也能推理
AI绘画,也开始“动脑子”了!
香港中文大学MMLab团队推出了T2I-R1,这是首个基于强化学习、具备推理能力的文生图模型。
T2I-R1的核心创新是“双层推理框架”:
- 语义层推理在生成图像前规划整体结构,比如物体外观和位置;
- Token级推理则处理图像生成过程中的细节和连贯性。
配合这个双层框架,T2I-R1引入了BiCoT-GRPO策略,一种新型强化学习方法,能在一次训练中同步优化两层推理过程,提高效率、降低成本。
另一个难点是图像生成的质量评估。T2I-R1用多个视觉专家模型组成奖励机制,从多个维度评估图像质量,既确保稳定性,也防止模型过拟合。
实验证明,T2I-R1在多个文生图评测中全面超越已有模型,甚至在一些任务上打败了最强基线FLUX.1。更重要的是,它生成的图像更贴近人类预期,对复杂场景也更鲁棒。详情请看文章: