近期,聚焦 AI 实际操作能力的全球基准测试 ScreenSpot-Pro 引发行业关注。在最新榜单中,金智维
KV-Ground 系列模型实现全面领先:8B 模型位列全榜第一,4B
模型在同规模中排名第一。一个更值得关注的信号是——AI能力的竞争,正在从“理解能力”转向“执行能力”。
ScreenSpot-Pro这项测试,为什么企业开始关注?
过去几年,多模态能力一直是评价 AI 水平的重要指标,例如图像识别、页面理解等。但在企业真实环境中,仅仅“看懂”远远不够,关键在于能否完成操作。
ScreenSpot-Pro屏幕理解能力,从界面理解走向界面操作。它的核心测试逻辑,正是围绕这一点展开:给定一条自然语言指令,例如“导出报表”或“打开高级筛选”,要求模型在复杂软件界面中精准定位对应按钮或控件。这一能力在技术上被称为 GUI Grounding,本质是让 AI 具备“操作电脑”的基础执行力。
与以往基于简单网页截图的测试不同,ScreenSpot-Pro采用的是完整软件界面,覆盖办公、开发、设计等 20+专业应用场景,任务由人工精标,复杂度更接近企业真实业务。因此,它正在成为衡量智能体是否具备落地能力的重要标尺。
在复杂场景里,这个成绩意味着什么?
在这一高门槛测试中,金智维 KV-Ground 的表现具有明显标志性意义——高难度场景下的稳定领先。8B 模型取得 80.5 分,位列全榜第一;4B 模型取得 67.0 分,在同规模模型中领先,同时在全榜中也具备竞争力。

更关键的是,这一成绩并非依赖参数规模的简单堆叠。从基础模型到 KV-Ground 的对比结果来看,其在界面定位精度上实现了持续、稳定的提升,说明其优化路径具备可复用性,而不是针对单一榜单的“特调结果”。
这意味着,AI在复杂 GUI 场景中的执行能力,已经开始接近可工程化、可规模化落地的阶段。
为什么说“小模型”这次更有现实意义呢?
在企业实际部署中,模型效果只是一个维度,算力成本、响应速度、系统适配能力同样关键。
KV-Ground-4B 在复杂界面中仍保持较高精度,带来的直接意义是:企业无需依赖高算力环境,也可以获得接近高性能模型的能力。这种能力转移,实质上降低了 AI 落地门槛。
例如在金融报表处理、制造业 CAD 操作、研发仿真工具等场景中,企业往往更关注稳定性与成本结构,而不是单纯的模型参数规模。小模型在这些场景中具备更强的现实适配性。
从成本结构来看,原本需要高性能服务器支撑的能力,现在可以在更轻量的硬件环境中运行,这直接改变了企业部署智能体的ROI模型。
AI 终于补上“能干活”这一环
从“理解”到“执行”:智能体闭环被打通。长期以来,企业智能体存在明显断层:大模型擅长理解与推理,但缺乏执行能力;传统RPA具备执行能力,但灵活性不足。
GUI Grounding 的突破,本质上补上了这一环节。
当 AI 可以在复杂系统中自主定位并操作界面时,就不再依赖系统改造或接口开放,而是可以直接“使用现有系统”。这对企业而言意义重大——意味着智能体可以以更低成本嵌入现有业务流程,实现从“辅助决策”到“直接执行”的跨越。
这件事,对整个行业意味着什么?

金智维此次在 ScreenSpot-Pro 上的领先表现,释放出一个清晰信号:AI的发展正在从“参数规模竞争”,转向“能力结构优化”。
在企业场景中,真正决定价值的,不是模型有多大,而是能否解决具体问题。尤其是在跨系统操作、复杂流程执行等场景中,效率与稳定性正在成为新的核心指标。
小模型在高难度任务中的突破,也为行业提供了新的技术路径——通过针对性优化,在关键能力点上实现“以小博大”。
未来趋势:企业级智能体进入实用期
随着 GUI Grounding 等底层能力的成熟,企业级智能体正在加速从概念走向规模化应用。未来一段时间,可以预见几个趋势:
一是,AI将更深度嵌入业务流程,从“工具”转变为“执行单元”;二是,小模型与专用模型的价值进一步提升,成为企业落地的主流选择;三是,AI与RPA的融合加速,形成“理解+执行”的完整闭环能力。
本质上,AI正在完成一次角色转变——从“会回答问题”,走向“能够完成任务”。
而这一步,正是企业真正需要的生产力。