Easy同学正在独立开发 尝试让多模模型来帮我优化演讲稿排版,感觉这种基于位置的调整都不太行。只有 Gemini-2.5-pro 看起来比较正常,之前我记得Qwen2.5-VL-72B对位置感知挺强的,这次也翻车了。Qwen2.5-VL-32B其实还行,就别出心裁的把文字放到了图上。
原图是图一,提示词如下:
附件图片是一张1920*1080 的 keynote 的截图,请从排版角度指出应该如何进行优化,其中标题、文字和图片应该移动到什么坐标。
其他是调整结果;左下角有模型名称。
Easy同学正在独立开发 尝试让多模模型来帮我优化演讲稿排版,感觉这种基于位置的调整都不太行。只有 Gemini-2.5-pro 看起来比较正常,之前我记得Qwen2.5-VL-72B对位置感知挺强的,这次也翻车了。Qwen2.5-VL-32B其实还行,就别出心裁的把文字放到了图上。
原图是图一,提示词如下:
附件图片是一张1920*1080 的 keynote 的截图,请从排版角度指出应该如何进行优化,其中标题、文字和图片应该移动到什么坐标。
其他是调整结果;左下角有模型名称。
作者最新文章
热门分类
科技TOP
科技最新文章