大家好,我是编程乐趣。
今天推荐一个开源项目,可以让AI直接操控我们的手机。
阿里通义实验室近日发布了 MAI-UI —— 一个面向图形用户界面(GUI)智能体开源项目。
MAI-UI在GUI(图形用户界面)定位方面有着非常高的性能,在ScreenSpot-Pro上超越了Gemini-3-Pro和Seed1.8,并在UI-Vision上显著超越了现有模型。

项目简介
MAI-UI是覆盖一系列全尺寸谱系的基础GUI智能体。它包含2B、8B、32B 以及 235B-A22B等多种参数量变体。
MAI-UI最厉害的地方主要有两点,可以想象成一个会看屏幕、会自己操作手机的超级AI助手:
1、“看得懂”屏幕(GUI定位能力):它识别和理解手机、电脑屏幕上各种按钮、文字、图片的能力达到了顶尖水平。
2、“办得成事”(导航与执行能力):它不仅能看懂,还能真的替你在手机上完成复杂任务。在目前最受认可的Android智能体“驾照考试”——AndroidWorld基准上,它创造了76.7% 的最高成功率记录,表现优于同期其他对手。更关键的是,在一个更接近真实手机使用场景的基准“MobileWorld”中,它也创下了新的最高成功率记录,达到了41.7%,这证明它处理日常真实应用的潜力非常强。
我们可以用它做什么?
想象一下,你希望AI助手帮你订机票、购物、处理工作信息,但它却只能和你“空谈”,无法直接操作你的手机App,也无法根据情况主动问你问题,甚至一遇到复杂的界面就“卡壳”。
MAI-UI正是为了打破这些障碍而生:
1、让AI不再是“空谈”:它设计了原生的人机互动机制,能在执行任务时主动向用户询问必要信息(例如,“您想买哪天的机票?”),让指令更完整。
2、超越“纯界面”限制:它能通过MCP工具调用与外部应用(如地图、票务系统)和真实世界数据深度集成,实现“查地图、订车票”等复杂操作。
3、实现“灵活部署”:独创的设备-云混合协作架构,能根据任务复杂度和数据敏感性,智能决定是在你手机上本地处理,还是调用云端强大算力,兼顾了效率、成本与隐私。
4、应对“动态环境”:通过先进的在线强化学习框架,它在海量虚拟手机环境中不断“练习”和进化,使其在面对各种复杂、变化的App界面时,依然稳健可靠。
实例演示
1、去盒马买菜,买一份雪花牛肉卷、一份娃娃菜、一份金针菇,再随便买一个豆制品。对了,去日历中待办里检查下我老婆有什么要在盒马买的,我确认下要不要一起买

2、我现在在阿里巴巴云谷园区,我要先去 招商银行取钱,再去城西银泰城。帮我规划公交地铁出行的路线,选一家在4公里以内的、用时最短的招商银行,两段行程总时间不要超过2小时,把规划行程记在笔 记中我一会看,标题为下午行程,内容为两段行程细节

3、在小红书搜索产品,将产品图片保存到相册,然后用这张图片在淘宝上搜索相同商品并加入购物车。
4、我需要紧急出差上海,帮我去12306查询现在最早从杭州西站去上海虹桥、有二等座票的班次,在钉钉前沿技术研讨群里把到达时间同步给大家,再把我和水番的会议日程改到明天同一时间,在群里发消息@他,礼貌解释因为临时出差调整会议时间,询问他明天是否有空
5、去飞猪查询12月25日去,28日回,杭州到三亚的往返机票
6、去淘票票给我买一张25号下午的疯狂动物城2的电影票,选亲橙里的电影院,中间的座位,加一份可乐和爆米花的单人餐,停在最后的订单界面
安装指南目前,MAI-UI 已经把 2B 和 8B 的版本开源出来了。
1、克隆代码
打开终端,执行命令克隆项目到本地:
git clone https://github.com/Tongyi-MAI/MAI-UI.git2、准备模型文件
从 Hugging Face 下载模型。
3、启动 API 服务
使用 vLLM 启动模型服务,命令如下:
python -m vllm.entrypoints.openai.api_server \ --model <你的模型路径> \ --served-model-name MAI-UI-8B \ --host 0.0.0.0 \ --port 8000 \ --tensor-parallel-size 1 \ --trust-remote-code4、运行示例
进入 cookbook/ 目录,打开 grounding.ipynb 或 run_agent.ipynb 文件。
修改 llm_base_url 为 http://localhost:8000/v1,然后运行代码即可体验。
开源项目地址
https://github.com/Tongyi-MAI/MAI-UI
- End -
推荐阅读