脑洞大开的“支小宝”向你走来

王长胜 2024-09-17 21:09:14

撰文 | 王长胜

这是我们离AI最“近”的一次。

2024外滩大会上,支付宝发布了All in AI之后的第一款重磅产品——支小宝。光看这个名字就知道,这是支付宝的娃。

俗话说,子承父业。支付宝能干的,支小宝都能干;支付宝不能干的,支小宝也能干。那么,支小宝到底能干啥呢?

打开支小宝,或者在支付宝首页下拉也能调出支小宝,你只需对着它说话,说出你的需求,剩下的事情,它都帮你办妥。比如订票、点餐、打车、充值缴费、查询账单、查询快递、查询附近吃喝玩乐……只要你想到它就能去办,而且它会越用越懂你。如果你的需求太过于专业,比如咨询法律、医疗、政务、理财等问题,它就会寻求外援——智能体,这里有更专业的解决方案。

想必大家都看出来了,支小宝就是一个AI生活管家App,它是支付宝和AI深度融合之后的产物,也是国内第一个服务型的AI原生应用,主打一个“有用”。

所谓原生应用,就是它不是普通那种通过AI改造过的移动互联网时代的应用,而是完全诞生在AI之上的原住民。当然,支小宝的能力,还是基于母公司蚂蚁集团的百灵大模型底座加上支付宝20年的生态积累。

首款服务型原生App,真的不一样

那么,支小宝和其他AI原生应用有什么区别呢?

众所周知,AI开始从去年的卷通用大模型进化到了今天的卷应用阶段。去年8月我写过一篇文章,对比了国内几家通用大模型,并断言最后真正活下来的通用大模型一个手指数得过来,没想到预言成真得这么快。今年以来,已经有很多通用大模型厂商纷纷转型,要么做行业模型要么做应用。

目前,被广泛使用的AI应用无非三种:1.专业型AI,应用于各行各业的,比如运输、农业、工业、制造业、养殖业等等;2.生成式对话AI,也就是OpenAI推出的ChatGPT以及追随者们,国内主要包括字节跳动的豆包和百度的文心一言;3.基于 agent协作的服务型AI,它不只会张嘴,还会跑腿,支小宝属于此类,它能帮你完成各种真正的任务,而不只是陪你聊天,给你搜索资料,生成一个结果。

由此可见,真正与普通大众息息相关的只有第二种和第三种,而这两种的区别也是显而易见的。

生成式AI,只要给大模型投喂足够多的资料和知识,它就会自动学习,并给用户提供答案。目前,国内大部分相对成熟的生成式AI还只是在文字阶段,图片和视频的生成能力相对较差,几乎相当于没有。

基于 agent协作的服务型AI,不仅需要大模型的支持,更需要一个庞大的生态体系做支撑。比如,你对生成式对话AI说,“帮我点一杯双拼奶茶”,它会回复你说,“很抱歉,我没办法直接帮你点一杯双拼奶茶,你可以通过以下几种方式点奶茶:1.外卖平台下单,2.到店购买,3.品牌官方小程序或APP”。

而你如果对支小宝这种服务型AI说“帮我点一杯双拼奶茶”,它就真的能直接提供一个可以供你选择和下单的页面,你只需点击你所要点的奶茶,然后下单即可。能够实现这一切,正是因为支小宝的背后是支付宝,而支付宝里面的合作伙伴和商家能够提供这些后续的服务并完成支付闭环。所以说,这是一个生态体系,而不只是一个大语言模型。能“写诗”还能“扫地”,这是它区域于国内一众AI原生型app的地方。

可以说,进入AI时代,全球各国的各个企业都在探索不同的路,而支付宝推出支小宝走AI agent这条路,相对来说,是独特的,而之所以能够独特,也正是因为支付宝20年来的生态积累。

生态服务能力的厚积薄发

支小宝的AI能力都是基于蚂蚁百灵大模型,而刚才提到的那些需求都是基于支付宝20年来积累的“办事”能力,从“办一件小事”开始,到“办一切小事”,支付宝经过20年的发展,已从“国民电子钱包”变成了开放的数字生活开放平台,目前服务超10亿用户,提供8000多种服务,连接超8000万商家,拥有近400万个小程序,包括携程、同程、饿了么、滴滴、高德,最近,美团团购上线支付宝小程序,美团的7个核心业务全部入驻支付宝。

作为国内最大的服务型超级App,支付宝承载着无数普通人的生活:全国超1300个城市上线了出行服务,每天有超5亿用户用支付宝日常出行;全国近9成的三级医院在支付宝上布局数字化就医服务,有6亿人通过支付宝看病就医;全国31个省市自治区将“办事大厅”搬进支付宝,每2人中就有1人用支付宝办事。

厚积薄发,从量变到质变,支小宝就是支付宝积累到一定程度之后,又恰巧遇到了AI,最终在这一时刻,完成了质变。

这也是为什么在这个时候,支付宝推出支小宝的真正原因。

我还能清晰地记得,早在10年前,支付宝就已经感受到了一种困境,功能越来越多,页面呈现越来越复杂,就像一个巨大的仓库,什么货物都有,但是你要想快速找到你所需要的货物,却要费点劲,总不能把所有货物都摆在门口位置。

那时候,我还在媒体,参加过好几次与支付宝高层的闭门交流会,主题只有一个,就是如何精简、优化支付宝页面。其间,也改版过几次,但是效果都不太理想。这个问题,一直困扰着支付宝,很多年。

当支付宝的生态加上AI,就诞生了支小宝,提过对话调用智能体,臃肿问题迎刃而解。所以,有时候,解决问题需要跨越一个维度,高维打低维,很多问题都不再是问题。

当然,千万不要误会支小宝只是解决了页面臃肿的问题,实际上,支小宝解决问题只是顺手的事儿,它真正的价值在于给我们打开了一扇窗,一扇通往AGI(通用人工智能)的窗户,让我们有机会通过这扇窗户,走向一个更辽阔且迷人的未知世界。

这也是我开篇说的那句话的真正意思,“这是我们离AI最近的一次”,不止在于支小宝让AI走进了我们的生活,更在于它有机会带领我们走向真正的AI世界。

智能体:一体多端与生态开放

走进AI世界,只靠支小宝不行,只靠支付宝也不行,还需要各行各业的合作伙伴一起加入,众人拾柴火焰高,一人独行难致远。

因此,在2024外滩大会上,支付宝面向全行业,启动“支付宝智能体生态开放计划”,并推出智能体开发平台“百宝箱”。这标志着支付宝开放生态也正式进入到了AI时代,同时,也标志着蚂蚁集团AI First的战略全面提速。

今年9月,世界人工智能大会上,蚂蚁集团董事长兼CEO井贤栋就曾表示:在大模型时代,智能体是新的应用范式,蚂蚁正在探索智能服务的新可能。但未来智能化的用户体验,一定不是只靠一个大模型,而是需要全行业深度协作,需要很多的专业智能体共同参与、各司其职。蚂蚁将坚持走开放道路,与行业共建专业智能体生态。

智能体(AI Agent)作为人工智能的一种产品形态,是当下大模型应用的核心方向,其具备自主感知环境、智能决策并执行任务的能力,能让大模型长出“手和脚”,进而为用户提供更加自主智能的服务,它也是连接大模型基础能力与AI应用的重要桥梁。如何从“百模大战”推进到智能体创新,也逐渐成为行业关注的焦点。

支付宝做智能体有什么特色?答案无疑是开放生态。

最近,在面对淘宝接入微信支付时,支付宝官方回应称继续加大开放,背后的原因其实是,开放是支付宝能积累生态厚度的原因,也是支付宝面向AI时代的核心战略,只有持续开放才能做大AI的服务能力。

没有开放就没有智能体。在外滩大会现场,蚂蚁集团大模型应用负责人顾进杰,对智能体和开放的关系,有一段经典描述:

一是,高效连接服务,智能体可与支付宝支付、搜索、小程序等20多项经营工具和阵地打通,让AI连接真实商业服务;

二是,多场景分发,智能体可实现商家小程序私域、支付宝App、支小宝App、H5、浏览器插件等线上的多点服务分发,也能打通IoT、智能车机、医疗设备等线下场景和硬件,实现多端分发、互联互通,真正实现“一体多端”;

三是,聚焦专业智能体,在出行、政务、餐饮、医疗等重点行业坚持开放,与行业伙伴及专业机构携手共创。

那么,百宝箱又是啥?

简单说,百宝箱是支付宝推出的一个智能体开发平台,让商家机构和开发者实现AI能力的“开箱即用”——通过百宝箱,商家机构可调用蚂蚁百灵等多个主流大模型的能力,使用海量第三方API和插件,做到0代码、最快1分钟创建智能体,并一键发布到支付宝小程序、支付宝App、支小宝App等,实现“一个智能体、多端快速分发”。

支小宝依托百宝箱,以自然语言模型、多模态大模型、语音大模型为底座,集成了FunctionCall、RAG、角色、工作流等能力,以及全网搜索、知识图谱、图文、代码解释等工具,为专业的垂直场景,出行、政务、医疗、金融提供可信、专业的解决方案;同时也能为普通用户提供个人智能体创建服务。目前,百宝箱智能体平台已通过信通院智能体综合评测4+级,专业性和行业价值得到了权威认可。

用蚂蚁集团总裁韩歆毅的话说就是:“支付宝将携手生态伙伴,共建智能体开放生态,推动服务业的数智化转型,让好服务人人可享有。”

创新很重要,开放更重要。

所以,这21年来,创新和开放一直都是支付宝持续发展的基石,从最早的走出淘宝,实现支付开放;到后来的推出小程序开放,实现向商家开放,成为国内第二大商业开放生态;再到今天,智能体开放;支付宝始终在坚定地拥抱开放,携手各行业伙伴,为用户提供更好的服务。

智能体,正在成为支付宝构建未来的AI开放生态想象力的重要依托。

消失的App:新交互、新入口、新服务

虽然支小宝是一款App,但是,它所能提供的服务能力,已经超出了一个标准的App的范畴。

试想一下,当你驾驶着新能源汽车,喊一声“小爱同学”或者“理想理想”,然后直接说出你的需求,比如“我们前面的路上有没有奶茶店?提前帮我点一杯双拼奶茶,大杯,热的,我们到店直接取走。”然后,系统就可以调用支小宝的Agent,导航就直接把你导到奶茶店,到的时候,奶茶也已经做好,直接完成支付。

再试想一下,当你在家时,喊一句“小度小度”或者“天猫精灵”或者任何一个智能硬件的口令,然后直接说出你的需求,比如“帮我叫一辆滴滴,10分钟后出发,去国贸三期”,或者“中午我想吃水煮鱼了,帮我叫个外卖,12点前送达,不要米饭,不要餐具”。

再试想一下,如果你想做短视频博主,需要一套设备,比如大疆的pocket3摄像机和mic2收音器,以及灯光设备,抑或者你都不知道买什么品牌,只需要说出你的需求和预算,然后让支小宝去给你出一个采购清单,你选定之后,让它去各大平台比价采购,你只需确认支付即可。

如果脑洞再大一点,如果你要给女朋友一个生日惊喜,把家里布置一下,你就可以对支小宝说:“我女朋友下周五过生日,你去小红书帮我找个最好的攻略,预算控制在1000块钱,按照攻略里的细节帮我去网上采购物料,保证周四之前到货;然后再在我家附近的花店订一束鲜花和一个生日蛋糕,总预算600,周五下午5点送到家里;当天我也不想做晚饭了,帮我订一桌外卖,适合两个人过生日的,6点前送达。还有什么我没有想到的,也提醒我。”

这是不是很魔幻?如果前两个“试想”叫做“新交互,新入口”,那么,后两个“试想”,我愿意称之为“新服务”。

这不是异想天开,从技术层面,支小宝完全可以胜任。这项技术就是ACT(transformer for ACTions),它是基于蚂蚁自研端边云协同AI框架实现服务智能体应用的技术,这项技术让大模型不仅有自然语言推理能力,还能让大模型长出“手脚”能办事。

支小宝应用该技术,能够一键上翻支付宝百万级小程序,让支付宝上400万小程序和8000万数字生活服务触手可及。ACT相关技术论文已被NeurlPS、CVPR、KDD等10余个国际人工智能顶级学会收录。

值得一提的是,ACT自主研发的端边云隐私计算框架,支持多种密态计算,保护用户隐私。有了ACT技术,支小宝就真的可以接入各种服务平台,实现各种交互,至于之前担心的用户隐私和数据安全问题,都不再是问题。

在这种情况下,你都不需要拿起手机打开支小宝,你也不需要这个服务是谁提供的。你就只管有问题就招呼支小宝就好了,剩下的事情,交给支小宝,它就是你真正的AI小助理。

这才是人工智能和开放生态体系该有的样子。

蚂蚁提供强大的基础设施能力支持,支付宝提供一个无边框的平台支持,各行各业的合作伙伴和商家提供实实在在的服务,支小宝为大家跑腿提供“新服务”。

当然,由于支小宝刚上线,智能体还不够丰富,商家也在逐步加入,生态也在逐步繁荣,支小宝这个小助理可能还没有那么贴心,但是,它一定会变得越来越聪明,越来越会办事。这也是作为一个开放生态的最大优势和意义所在。

2 阅读:148

王长胜

简介:关注科技互联网公司的人和事