DC娱乐网

【最新AI研究动态】arXiv于5月14日同时发表两篇聚焦视觉推理与生成的重磅论

【最新AI研究动态】arXiv于5月14日同时发表两篇聚焦视觉推理与生成的重磅论文,均针对智能体推理与一致性这一核心挑战提出创新解决方案。

第一篇《EntityBench: Towards Entity-Consistent Long-Range Multi-Shot Video Generation》由Ruozhen He等人提交。该论文针对多镜头视频生成中角色、物体和位置一致性难以长期维持的问题,提出了EntityBench基准测试。该基准包含140个片段(2491个镜头),覆盖最多50个镜头的三种难度等级(简单/中等/困难),同时跟踪13个跨镜头角色、8个跨镜头位置和22个跨镜头物体,重复间隔长达48个镜头。论文提出EntityMem记忆增强生成系统,在持久记忆库中存储已验证的实体视觉参考。实验显示跨镜头实体一致性随着重复距离增加而急剧下降,而显式实体记忆在评估方法中获得了最高角色保真度(Cohen's d = +2.33)。该基准配套三支柱评估套件,解耦镜头内质量、提示跟随对齐和跨镜头一致性。

第二篇《ATLAS: Agentic or Latent Visual Reasoning? One Word is Enough for Both》由Ziyu Guo等人提交。该论文指出,视觉推理中智能体推理(通过代码或工具调用)存在上下文切换延迟,而潜在推理缺乏任务泛化性且难以通过自回归并行化训练。ATLAS框架使用单个离散"词"(功能令牌)同时作为智能体操作和潜在视觉推理单元。每个功能令牌关联内部化视觉操作,无需视觉监督且保持为分词器词汇表中的标准令牌,可通过下一令牌预测生成。为避免RL训练中功能令牌的稀疏性,论文引入潜在锚定GRPO(LA-GRPO),通过静态加权辅助目标锚定功能令牌来稳定训练。在多个挑战性基准上,ATLAS实现优越性能同时保持清晰可解释性。代码已开源。

两项研究均代表了AI生成与推理领域的重要进展。
AI资讯 人工智能