今天看了看老戴关于三星手机上已经可以用谷歌 Gemini 操作手机了，好奇回看了

今天看了看老戴关于三星手机上已经可以用谷歌 Gemini 操作手机了，好奇回看了豆包手机对比一下。

两个都是“屏幕感知 + 路径规划 + 动作执行”的自动化系统。它们都依赖虚拟屏幕完成焦点隔离，并通过云端推理与端侧执行把复杂推理放到云端，把屏幕采集与输入执行留在本地。

差异是使用方式和权限层级不同。

豆包手机像是把未来 AI 手机的形态提前拿出来演示：用户只要给目标，它就能跨 App 看页面、点按钮、滑动、输入、记录信息。问题是它为了做到这些，拿到的权限很夸张，它甚至能看你的银行 APP一般银行 APP 是会做视觉保护的，所以它之前被禁还真是有道理的。

Google / Gemini 未必比豆包更好用，主要就是权限统一管理，但是说实话，谷歌目前开放出来的功能就是点外卖打车这些，甚至没有 YOYO 和小艺花样多

所以以后豆包手机肯定是进化方向，只是什么东西要给权限这个很难定

DC娱乐网