‌阿里发布MAI-UI：能看懂手机帮你自动操作App的智能体

大家好，我是编程乐趣。

今天推荐一个开源项目，可以让AI直接操控我们的手机。

阿里通义实验室近日发布了 MAI-UI —— 一个面向图形用户界面（GUI）智能体开源项目。

MAI-UI在GUI（图形用户界面）定位方面有着非常高的性能，在ScreenSpot-Pro上超越了Gemini-3-Pro和Seed1.8，并在UI-Vision上显著超越了现有模型。

项目简介

MAI-UI是覆盖一系列全尺寸谱系的基础GUI智能体。它包含‌2B、8B、32B 以及 235B-A22B‌等多种参数量变体。

MAI-UI最厉害的地方主要有两点，可以想象成一个会看屏幕、会自己操作手机的超级AI助手：

1‌、“看得懂”屏幕（GUI定位能力）‌：它识别和理解手机、电脑屏幕上各种按钮、文字、图片的能力达到了顶尖水平。

2‌、“办得成事”（导航与执行能力）‌：它不仅能看懂，还能真的替你在手机上完成复杂任务。在目前最受认可的Android智能体“驾照考试”——AndroidWorld基准上，它创造了‌76.7%‌ 的最高成功率记录，表现优于同期其他对手。更关键的是，在一个更接近真实手机使用场景的基准“MobileWorld”中，它也创下了新的最高成功率记录，‌达到了41.7%‌，这证明它处理日常真实应用的潜力非常强。

我们可以用它做什么？

想象一下，你希望AI助手帮你订机票、购物、处理工作信息，但它却只能和你“空谈”，无法直接操作你的手机App，也无法根据情况主动问你问题，甚至一遇到复杂的界面就“卡壳”。

MAI-UI正是为了打破这些障碍而生：

‌1、让AI不再是“空谈”：它设计了‌原生的人机互动机制‌，能在执行任务时主动向用户询问必要信息（例如，“您想买哪天的机票？”），让指令更完整。

‌2、超越“纯界面”限制‌：它能通过‌MCP工具调用‌与外部应用（如地图、票务系统）和真实世界数据深度集成，实现“查地图、订车票”等复杂操作。

3‌、实现“灵活部署”‌：独创的‌设备-云混合协作架构‌，能根据任务复杂度和数据敏感性，智能决定是在你手机上本地处理，还是调用云端强大算力，兼顾了效率、成本与隐私。

4‌、应对“动态环境”‌：通过先进的‌在线强化学习框架‌，它在海量虚拟手机环境中不断“练习”和进化，使其在面对各种复杂、变化的App界面时，依然稳健可靠。

实例演示

1、去盒马买菜，买一份雪花牛肉卷、一份娃娃菜、一份金针菇，再随便买一个豆制品。对了，去日历中待办里检查下我老婆有什么要在盒马买的，我确认下要不要一起买

2、我现在在阿里巴巴云谷园区，我要先去招商银行取钱，再去城西银泰城。帮我规划公交地铁出行的路线，选一家在4公里以内的、用时最短的招商银行，两段行程总时间不要超过2小时，把规划行程记在笔记中我一会看，标题为下午行程，内容为两段行程细节

3、在小红书搜索产品，将产品图片保存到相册，然后用这张图片在淘宝上搜索相同商品并加入购物车。

4、我需要紧急出差上海，帮我去12306查询现在最早从杭州西站去上海虹桥、有二等座票的班次，在钉钉前沿技术研讨群里把到达时间同步给大家，再把我和水番的会议日程改到明天同一时间，在群里发消息@他，礼貌解释因为临时出差调整会议时间，询问他明天是否有空

5、去飞猪查询12月25日去，28日回，杭州到三亚的往返机票

6、去淘票票给我买一张25号下午的疯狂动物城2的电影票，选亲橙里的电影院，中间的座位，加一份可乐和爆米花的单人餐，停在最后的订单界面

安装指南

目前，MAI-UI 已经把 2B 和 8B 的版本开源出来了。

1、克隆代码

打开终端，执行命令克隆项目到本地：

git clone https://github.com/Tongyi-MAI/MAI-UI.git

2、‌准备模型文件‌

从 Hugging Face 下载模型。

3、启动 API 服务‌

使用 vLLM 启动模型服务，命令如下：

python -m vllm.entrypoints.openai.api_server \ --model <你的模型路径> \ --served-model-name MAI-UI-8B \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --trust-remote-code

4、运行示例‌

进入 cookbook/ 目录，打开 grounding.ipynb 或 run_agent.ipynb 文件。

修改 llm_base_url 为 http://localhost:8000/v1，然后运行代码即可体验。

开源项目地址

https://github.com/Tongyi-MAI/MAI-UI

- End -

DC娱乐网

‌阿里发布MAI-UI：能看懂手机帮你自动操作App的智能体

热门分类