Easy同学正在独立开发尝试让多模模型来帮我优化演讲稿排版,感觉这种基于位置的

艺思同学 2025-07-05 17:44:40

Easy同学正在独立开发 尝试让多模模型来帮我优化演讲稿排版,感觉这种基于位置的调整都不太行。只有 Gemini-2.5-pro 看起来比较正常,之前我记得Qwen2.5-VL-72B对位置感知挺强的,这次也翻车了。Qwen2.5-VL-32B其实还行,就别出心裁的把文字放到了图上。

原图是图一,提示词如下:

附件图片是一张1920*1080 的 keynote 的截图,请从排版角度指出应该如何进行优化,其中标题、文字和图片应该移动到什么坐标。

其他是调整结果;左下角有模型名称。

0 阅读:2
艺思同学

艺思同学

感谢大家的关注