【最新AI研究动态】arXiv于5月14日同时发表两篇聚焦视觉推理与生成的重磅论

【最新AI研究动态】arXiv于5月14日同时发表两篇聚焦视觉推理与生成的重磅论文，均针对智能体推理与一致性这一核心挑战提出创新解决方案。

第一篇《EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation》由Ruozhen He等人提交。该论文针对多镜头视频生成中角色、物体和位置一致性难以长期维持的问题，提出了EntityBench基准测试。该基准包含140个片段（2491个镜头），覆盖最多50个镜头的三种难度等级（简单/中等/困难），同时跟踪13个跨镜头角色、8个跨镜头位置和22个跨镜头物体，重复间隔长达48个镜头。论文提出EntityMem记忆增强生成系统，在持久记忆库中存储已验证的实体视觉参考。实验显示跨镜头实体一致性随着重复距离增加而急剧下降，而显式实体记忆在评估方法中获得了最高角色保真度（Cohen's d = +2.33）。该基准配套三支柱评估套件，解耦镜头内质量、提示跟随对齐和跨镜头一致性。

第二篇《ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both》由Ziyu Guo等人提交。该论文指出，视觉推理中智能体推理（通过代码或工具调用）存在上下文切换延迟，而潜在推理缺乏任务泛化性且难以通过自回归并行化训练。ATLAS框架使用单个离散"词"（功能令牌）同时作为智能体操作和潜在视觉推理单元。每个功能令牌关联内部化视觉操作，无需视觉监督且保持为分词器词汇表中的标准令牌，可通过下一令牌预测生成。为避免RL训练中功能令牌的稀疏性，论文引入潜在锚定GRPO（LA-GRPO），通过静态加权辅助目标锚定功能令牌来稳定训练。在多个挑战性基准上，ATLAS实现优越性能同时保持清晰可解释性。代码已开源。

两项研究均代表了AI生成与推理领域的重要进展。
AI资讯人工智能

DC娱乐网

【最新AI研究动态】arXiv于5月14日同时发表两篇聚焦视觉推理与生成的重磅论

热门分类