Easy同学正在独立开发尝试让多模模型来帮我优化演讲稿排版，感觉这种基于位置的

2025-07-05 17:44:40 艺思同学科技

Easy同学正在独立开发尝试让多模模型来帮我优化演讲稿排版，感觉这种基于位置的调整都不太行。只有 Gemini-2.5-pro 看起来比较正常，之前我记得Qwen2.5-VL-72B对位置感知挺强的，这次也翻车了。Qwen2.5-VL-32B其实还行，就别出心裁的把文字放到了图上。

原图是图一，提示词如下：