今天看了看老戴关于三星手机上已经可以用谷歌 Gemini 操作手机了,好奇回看了豆包手机对比一下。
两个都是“屏幕感知 + 路径规划 + 动作执行”的自动化系统。它们都依赖虚拟屏幕完成焦点隔离,并通过云端推理与端侧执行把复杂推理放到云端,把屏幕采集与输入执行留在本地。
差异是使用方式和权限层级不同。
豆包手机像是把未来 AI 手机的形态提前拿出来演示:用户只要给目标,它就能跨 App 看页面、点按钮、滑动、输入、记录信息。问题是它为了做到这些,拿到的权限很夸张,它甚至能看你的银行 APP一般银行 APP 是会做视觉保护的,所以它之前被禁还真是有道理的。
Google / Gemini 未必比豆包更好用,主要就是权限统一管理,但是说实话,谷歌目前开放出来的功能就是点外卖打车这些,甚至没有 YOYO 和小艺花样多
所以以后豆包手机肯定是进化方向,只是什么东西要给权限这个很难定



