DC娱乐网

腾讯推出操作系统级AI助手Marvis

文:王智远 | ID:Z201440腾讯应用宝团队开发一款新产品,叫Marvis 马维斯。名字挺洋气,吉祥物画了一个小牛

文:王智远 | ID:Z201440

腾讯应用宝团队开发一款新产品,叫Marvis 马维斯。

名字挺洋气,吉祥物画了一个小牛马,红围脖,小眼睛,腾讯企鹅的基因也在;产品经理介绍的时候说,今年马年嘛,公司又是小马哥的,就取了这么个名。

胆子真大,哈哈。

这东西想干什么,我用一句话讲清楚:它想在你和你的电脑之间,加一层AI。

你平时用电脑,找文件开Finder,改配置进系统设置,干各种事找各种App入口,每个动作都得自己去找门。Marvis想干的事特简单:你说一句,它帮你穿到那些地方去。

听起来不新鲜,对吧?豆包能聊天,ChatGPT也能干活,凭什么用它的?我装的时候也是这个心态。

装完之后,有几个地方确实有点意思。

先说本地知识库。

我装的Mac版,授权完它自己把我整台电脑扫了一遍,所有文档按主题分类摆好;开会用的资料归一堆,电脑上存的书归一堆,PDF归一堆,我啥都没干,它自己整完了。

然后有个搜索功能。

比如:我搜「思考」两个字,它不只匹配文件名,能穿透到文档内容里去找。标题匹配的、内容匹配的都给你列出来,分类更细。

图库也是同一个套路,我电脑上的照片全扫了一遍,人脸识别、足迹地点、时光长廊,iPhone用户应该很熟悉这套。

参加过大会的人应该都用过一种东西,就是现场摄影师的照片直播。几百张照片实时传到云端,你上传一张自己的脸,按脸识别,跟你相关的照片全筛出来。

Marvis的图库是这个逻辑,只不过搬到了你自己的电脑上,对着本地的照片干这件事。

关键是全是本地跑的,纯端侧模型,不上传云端,设置里可以精确控制哪些系统盘不让它读,做得挺直接,电脑上有敏感文件的人,这个开关是实打实有用的。

再说自动化任务,它自带了一些模板,什么喝水提醒、多邻国帮你做题之类的,我自己测了一下,建了个喝水提醒,设完之后到点就执行,流程跑得通。

不过目前任务设置还挺早期,不能上传文档,只能做相对简单的定时动作,后面还得迭代。

我自己一直在用ChatGPT的Tasks,平时让它帮我盯公司动态、盯一些二级市场的赛道信息,基金相关的东西隔几天推一次,挺顺手的。

但它本质上就是定时跑一段Prompt,到点了生成一段文字推给你。

Marvis这个自动化不太一样,产品经理现场演示的是直接打开App、跳广告、点按钮,替你把事干了;一个推文字,一个动手操作,这个区别我觉得还是挺大的。

第三个是技能广场,Skills。

这块说实话跟别家差别不大。市面上有各种Skills商店,Marvis的特点是做得傻瓜式,页面长得像小红书,左边封面右边图文介绍,底下按钮一点就装上。

不用去GitHub下载、折腾配置,对普通用户来说,门槛确实低。

还有一个细节,它的对话界面做成了一个小办公室的样子;几个Agent像小牛马一样坐在里面,你派了任务,它们就开始跑,有的在干活,有的在上厕所,有的在摸鱼打游戏。

这东西没啥功能意义,纯粹情绪价值,情绪也是价值。

我看着那几个小牛马跑来跑去,确实觉得:嗯,有点可爱;整体用了几天,我的感受是,单看每一个功能都做得不错,有些地方甚至比市面上的同类做得更细致。

可你要问我,哪个功能让我觉得「我必须装这个东西」,我还真想不到。所以,我把这个尖锐的问题甩给了产品经理。

....

我说:给我一个装这个软件的理由。他想了一会儿,说了句挺实在的话:坦白说,我们当下真没有杀手锏。

这句话让我对这团队好感加了不少。大部分产品发布会上你问这种问题,对面要么绕到愿景上去,要么甩一串数据给你。

能直接说「没有」的,要么真没想清楚,要么想得足够清楚才敢说没有。

后来跟他聊下来,我觉得是后者;他接着说了一段,大意是:你去问豆包的杀手锏是什么,豆包也回答不了。你去问元宝,元宝也回答不了。今天AI行业的通病就是这个。

每个产品什么都能做一点,可没有哪一件事是非它不可的。

我觉得这个判断很准确。你仔细想想,豆包日活快两亿,它的杀手功能是什么?说不出来。它模型不是最强的,交互也没有多颠覆。

它赢在一个「粘手感」:

你用它不难受,什么都能聊两句,下限够高,用户就留下来了;可你换成元宝、换成千问,也差不多能做到。

整个行业还没走出「通用AI助手」的同质化阶段。

所以,我后来想的是:如果大家在「聊天框」这个形态上已经打成一片了,Marvis选的这条路到底有什么不同。

先拉开看看市面上几条路线:

微软Copilot的思路是从Office生态往外扩。它的根据地是Word、Excel、PPT,AI加进去让你写文档更快、做表格更快,再慢慢往操作系统渗透。

这条路的优势是,起手就有用户场景,劣势在中国市场受限于监管和本地化,基本没怎么落地。

苹果Apple Intelligence更直接,从硬件出发,AI直接嵌进系统。Siri升级、通知摘要、照片搜索,全是系统级的功能。

同样问题,中国市场的政策和生态限制,落地情况大家都看到了。

豆包、元宝这一类,起点是聊天框,先做一个好用的对话产品,然后往工具方向加功能,加搜索、加文档解析、加Agent。

这条路铺量最快,可天花板也比较明显,因为它始终是一个App,它跟你电脑里其他东西是平行关系,上下关系?

....

Marvis走的路跟这几家都不一样。

产品经理聊的时候说了他们的发展路径,我觉得特别值得讲。

2024年时,行业里大部分AI团队的做法是高举高打,先讲一个很厉害的概念,先把壳子做出来,再一层一层往下填。他们反过来。

2024年他们从最底层开始做,文件解析、格式转换、本地搜索,就是最脏最累的工具活;2025年做MCP商店、做系统操作能力,再到2025年底才开始搭Agent框架。

他原话说,到了那个时候已经「回不了头了」,整套系统是自研的,没有用OpenAI任何东西。

自底向上,这四个字听着不性感,可恰恰是这个做法让它跟别人拉开了距离。

因为你想,大部分AI产品做文档处理,把文件上传到云端,让大模型去解析。一个PDF里面有图片有公式有多表头的Excel,普通的AI产品解析出来能打30分就不错了。

他们花了一年多专门做本地的解析工具,精度能做到八九十分。这是工程上硬砸出来的精度。

所以,我对Marvis的判断是这样的:它想做你电脑上所有App的总调度。

打开文件,它能理解;装了什么软件,它知道;系统设置出了问题,它能诊断;让它操作一个手机App,它也能跑。

它想站的位置,是操作系统和用户之间的那个AI中间层,这个位置,在中国市场目前是空的。

微软Copilot进不来,苹果Apple Intelligence落不了地。产品经理聊到这个话题的时候说了句很直接的话:

中国市场大概只占微软全球收入的1.5%,它的精力就是这1.5%。可这个市场是我的100%,决心不一样,投入就不一样。

然后,团队基因的问题,这个东西聊起来有点虚,可实际上特别实。

应用宝做了十几年PC端生态,所以Marvis能在电脑上运行安卓App,微博、小红书、微信读书,这些手机上的东西电脑上也能跑。

这个能力是从应用宝那个时代长出来的,别的团队没做过这件事,想做就得从零开始。

以前做过云游戏,所以现在分配云电脑设备的方案,成本最低、路由最快;产品经理说他们研发Leader汇报的时候原话是:

这是市面上性价比最高的云设备调度方案,因为以前做过,就这么简单。

跟微软有战略合作,操作系统层面的合作。Windows的文件系统消息、系统设置项的接口,这些东西不是谁都能拿到的。

产品经理举了个例子:

你想关掉Windows锁屏上的广告,你知道它在设置里叫什么吗?叫「关闭Windows聚焦」;普通用户上哪知道去?

可因为我们跟微软合作,知道这些对应关系,所以,能帮你一句话关掉。

这些东西产品经理有一句总结我觉得特别到位:就像一个人的童年经历,长在你身上了,别的团队能不能做?花时间,一年可以;可这一年里你又往前走了。

最后说一个现实的数字。

Agent类产品的平均Token消耗量,是普通Chatbot的150倍。如果做到豆包那种体量,一天的Token成本可能要200亿人民币。

这个数字意味着什么?这条赛道天然走不了豆包那种免费铺量的路。你不可能靠烧钱让两亿人每天用你的Agent,那个账算不过来。

所以,Marvis做端云结合、本地模型分担算力这件事,是一个经济上的必须;只有把能在本地跑的任务留在本地,才能把云端的Token成本控制在一个可持续的范围里。

这也解释了,为什么他们在端侧模型上投了这么多精力,跟英特尔、高通都有驻场团队做性能优化。

...

我自己的感受是,AI时代做产品,不能再像以前那样打磨到90分再往外端了,节奏太快了,等你觉得准备好了,窗口早关了。

Marvis现在确实不是个完成品,很多地方还粗糙,产品经理自己也清楚。

可回到我在现场问的那个问题:给我一个装它的理由。

用户和操作系统之间,终归需要一层新东西;这层东西得能理解你的文件,管住你的应用,摸清你的系统,然后帮你把事干了,这个位置,在中国市场,现在就是空的。

空的意思是没人做到,Marvis只是先走到了这,走到了不代表赢了。不过这行业从来都是,先到的人定规则,后到的人跟规则。

对了,产品目前Win版和安卓版可以去官网 www.marvis.qq.com 下载。Mac端还没正式上线,不过我有安装包,邀请码放留言区了。

感兴趣的,自己去体验一下。