Mobile-Agent-v2问世:AI手机助手全面升级

科技研习看今朝 2024-06-20 07:17:24

前言

移动设备操作任务正日益成为流行的多模态AI应用场景。然而当前的多模态大型语言模型 (MLLM) 受制于其训练数据,缺乏有效发挥操作助手功能的能力。对此,今年年初由北交大和阿里联合推出的Mobile-Agent通过视觉感知工具和操作工具完成智能体在手机上的操作,实现了即插即用,无需进行额外的训练和探索,凭借其强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。而就在近日,团队推出了新版本Mobile-Agent-v2,并列举了几大改进亮点:继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。

实际的操作与案例

目前,Mobile-Agent-v2的论文和代码均已发布

https://github.com/X-PLUG/MobileAgent(代码链接)https://arxiv.org/abs/2406.01014(论文链接)

除此之外,Mobile-Agent-v2也已经接入到魔搭的ModelScope-Agent中(链接:https://github.com/modelscope/modelscope-agent),根据魔搭团队发布的演示视频,ModelScope-Agent拥有了使用Mobile-Agent-v2完成自动化打车的能力。用户只需输入目的地,ModelScope-Agent即能通过规划、决策和优化等过程,为用户完成叫车服务。

下面是官方给出的在手机上进行的实际案例,其中包括了:

根据指令要求打开了WhatApps并查看了来自「Ao Li」的消息,消息中要求在TikTok中找一个宠物相关的视频并分享给他。Mobile-Agent-v2随后退出当前应用并进入TikTok中刷视频,在找到一个宠物猫的视频后通过点击分享按钮将视频链接成功发送给「Ao Li」。 X(推特)中搜索名人「马斯克」,关注他并评论一条他发布的帖子。尽管社交媒体应用往往文字较多,UI布局复杂,但是Mobile-Agent-v2仍旧准确地完成了每一步的操作,尤其是点击关注之后出现的推荐用户挡住了原本的推文,而Mobile-Agent-v2也执行了上划操作并完成评论。 随后是在同样复杂的长视频平台YouTube操作的例子。从该演示视频中自然地对篮球运动员进行吹捧的表现来看,Mobile-Agent-v2对于社交媒体和视频平台的操作能力十分惊艳,有成为新一代控评机器人的潜力。 另外,在初代Mobile-Agent中评测的那些相对基础的任务,例如安装应用、导航去某个地点等,Mobile-Agent-v2也能完成。 最后则是在中文应用小红书和微信的例子,包括在小红书中搜索攻略并评论,以及帮助用户回微信。Mobile-Agent-v2可以根据帖子的内容发布相关的评论,也能根据微信消息的内容生成相关的回复。

如何实现/工作原理

在手机操作任务中,智能体通常需要通过多步操作才能完成任务要求。每次操作时,智能体都需跟踪当前任务进度,即了解之前的操作完成了哪些需求,从而根据用户指令推断下一步的操作意图。尽管操作历史中保存了每一步的具体操作和相应的屏幕状态,但随着操作次数的增加,操作历史序列会变得越来越长。操作历史的冗长且图文交错的格式,会显著增加智能体追踪任务进度的难度。

如该图所示,经过7轮操作后,输入的操作历史序列长度已超过一万个token,图文交错的数据格式使得智能体追踪任务进度变得异常困难。

Mobile-Agent-v2引入了创新的多代理协作架构。如上图所示,这种架构允许多个AI代理协同工作,以实现更加高效的任务规划和执行。这种协作机制不仅提升了任务处理的灵活性,还显著提高了任务完成的效率。在一些任务中,智能体需要查看天气并撰写穿衣指南。生成指南时,智能体需要依赖历史屏幕中的天气信息。因应这一需求,Mobile-Agent-v2设计了记忆单元,由决策智能体负责更新与任务相关的信息。此外,由于决策智能体无法直接观察操作后的屏幕信息,系统还引入了反思智能体,用于监测并评估决策智能体操作前后的屏幕状态变化,确保操作的正确性。

评估结果如表所示,详细展示了不同语言场景中的表现。从结果中可以看出,Mobile-Agent-v2在多项指标上,无论在英文还是非英文场景,都表现出了全面的提升。此外,通过人为增加操作知识(Mobile-Agent-v2 + Know.),性能得到了进一步的增强。

结语

Mobile-Agent-v2 通过规划智能体、记忆单元和反思智能体的协同工作,解决了长序列操作历史追踪的难题,并且在英文和非英文应用的测试中表现出了全面提升。通过消融实验,验证了规划智能体、决策智能体和记忆单元对性能的重要性。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0618_zhihu

0 阅读:0

科技研习看今朝

简介:感谢大家的关注