字节跳动大模型:实用,实用主义

图解金子 2024-07-14 09:04:43

作者丨陈江

来源丨零壹智库

字节跳动无疑是当前互联网平台的流量之王,也是媒体眼中的实用主义者。在当红的大模型赛道上,流量手段和实用路径依然体现得淋漓尽致。

01

“算法”基因

其实,字节挑动在AI方面的布局、应用的时间可能远早于一众大厂。2012年刚成立的时候,字节推出基于智能推荐算法的产品“今日头条”APP,成为国内最早将人工智能技术运用到移动应用场景的科技公司之一。

2016年,字节跳动更进一步,成立人工智能实验室,开始针对AI技术进行系统性的研发与储备。2019年,字节收购了英国一家利用人工智能创作音乐的公司Jukedeck,后者创始人&CEO埃德·牛顿-里克斯(Ed Newton-Rex)随后加盟字节跳动并担任人工智能实验室主任。

2020年之后,字节又将AI技术广泛应用在抖音、今日头条等APP上,推出绘画、特效类等AIGC功能,同时也积极探索大模型应用场景,比如抖音AI绘图、飞书智能伙伴、剪影AI生成视频等。

除了自己发力研发外,字节跳动还对外做了大量的人工智能相关投资。

据零壹智库梳理统计,截至目前,字节在人工智能领域出手投资达到26次(含并购),其中行业应用层面19次,占比73.1%。

在大模型方面,字节比百度等大厂略晚,2023年8月,宣布云雀大模型上线,但也赶上了备案头班车,成为国内首批算法备案的大模型之一。这亦是“豆包”等一些列应用产品的技术支撑与底座。上线后,该大模型每天平均处理的token数量高达1200亿,相当于1800亿的汉字或生成3000万张图片。

02

全家桶

今年5月15日,2024春季火山引擎FORCE原动力大会在北京举行。会上,字节跳动旗下火山引擎正式全员亮相了豆包大模型。这是一个模型大家族,包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等9款产品。

而此时,豆包在流量上已经以迅雷之势站上舞台中央。

据原动力大会发布的数据显示,豆包在苹果APP Store和各大安卓应用市场的下载量突破1亿,在AIGC类应用中排名第一,月度活跃用户突破2600万,智能体创建总数达800万。

To B方面,火山引擎于2023年6月上线了MaaS平台,即火山方舟。这个平台汇集了国内科技公司和科研院所的优秀模型(比如百川智能、复旦大学MOSS等),有点类似打造大模型领域的电商平台模式,帮助企业为不同场景选择合适的模型,同时提供充沛算力、安全互信等方面的支持。

火山方舟发布后,公司与汽车、手机、金融、食品饮料等领域的龙头企业展开了密切合作,包括吉利汽车、长城汽车、OPPO、vivo、小米、华硕、招商银行、海底捞等。

不管是面向个人消费者的C端,亦或是面向广大产业的B端,字节均是有了相当的用户基数之后,再做大模型的全面发布。这种战略与其他绝大多数玩家是不一样的,后者往往是将大模型和应用产品一同发布,再去开拓市场。

本次字节全员亮相的豆包大模型(前身即云雀),涵盖了文本对话、语音识别与合成、声音复刻、角色扮演、文生图等基础功能与产品,并进行了多方面的升级。其应用场景非常广泛,包括但不限于办公智能助手、电商导购、营销创作、编程助手等50余个业务场景。

针对B端,火山方舟已升级到2.0,可以让企业更加高效、简易地实现AI创新和应用落地,同时降低企业使用大模型的成本和技术门槛。应用场景包括智能外呼、数字人、数据助理等等。

03

价格战

为了抢占企业用户市场份额,字节大模型大打价格战。其中,豆包主力模型在企业市场的定价为0.00008元/千 Tokens,比行业价格降低了99.3%。

图1:大模型定价对比(单位:元/千Tokens)

数据来源:火山引擎FORCE原动力大会,零壹智库

对于大降价原因,火山引擎总裁谭待在接受媒体采访时表示,一方面,字节跳动在在模型结构、训练、生产等各种技术层面都能做到很好,有很多优化手段能够实现降价。此外,市场对降价呼声比较大,平台必须把试错成本做到非常低,才能让大家用起来。

另一方面,用户规模的扩大也将提升大模型的性能。大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。

B端企业市场是大模型厂商的兵家必争之地,因为可以提供更直接、且可以预测的现金流收入。而C端要落地到具体应用中,需要很长的时间来开发市场、教育用户,并且如何盈利一切都是未知数。

百度的文心一言、阿里的通义千问服务的企业客户众多,分别高达8.5万家、9万家,市场占有率相对更高一些。

豆包大模型价格大降,亦是想通过价格战与百度、阿里正面PK,抢夺更多的企业用户。

面对字节的打骨折,阿里宣布跟进大降价,将通义千问GPT-4级别的主力模型Qwen-Long的API输入价格,从每千个token的0.02元降至0.0005元,比字节还低0.0003元。

04

砸广告

在C端市场,字节跳动亦是高举高打。

据Quest Mobile数据显示,2024年1月,豆包APP在人工智能生成内容(AIGC)APP活跃用户排行榜中排名第一。到了3月,月活用户量亦是文心一言的1.5倍。

即便如此,豆包依然不满足,将重心放在如何搞流量上。

用户活跃数、访问使用量等核心经营指标是C端大模型厂商能否活下去,或者说未来能够实现商业化的核心基础。包括豆包在内的大模型厂商掀起了烧钱大战,买用户。

据AppGrowing统计,2024年6月第一周(6/3-6/9),豆包素材投放量高达26521个,环比增长38.6%。相对而言,Kimi为14451个,环比增长160.7%;智谱清言为1866个,环比飙升2456%。

线上渠道方面,大厂们主要聚焦在吸纳了众多年轻人的B站社区上,6月第一周AI广告投放量是去年同期的3-4倍。

除B站外,线上推广渠道进一步扩散至小红书、抖音等平台。比如,在抖音平台上,单个AI相关词条下,豆包硬广、软广外,还有头部达人带货。在小红书上,合作KOL发布体验视频、利用话题标签增加曝光、举办互动问答和抽奖活动等方式进行推广。

线下渠道方面,一二线主要城市的写字楼、地铁、机场等白领聚集的场所,都成为推广的重要战场。

仅仅在6月上旬,豆包广告投放金额就已经高达1.24亿元,令众多大厂有些望尘莫及。

05

犯忌讳

此外,为了流量,豆包大模型剑走偏锋,甚至“不择手段”。

今年5月底,据一些网友爆料,百度和谷歌的搜索结果中,除了广告之外,第一页全部来自豆包生成的内容。在谷歌搜索引擎里更是生成超过2000万条各式各类的词条内容并进行固化。

这些内容也会关联搜索引擎高点击率的关键词,从而获取访问流量,或者被其他大模型抓取并使用,以达到推广豆包之目的。

豆包的做法,也并不难理解。简单来说,通过数据进行训练,训练好后对人类的原创内容进行“洗稿”,再将之作为“全新原创”内容,并通过算法进行大量分发,进入到搜索引擎数据库中。

去年的一篇论文——《递归的诅咒:在生成数据上训练会使模型遗忘》就详细讲解了当模型使用生成的数据进行训练时,生成数据如何污染下一代模型的训练集,导致模型逐渐失去对原始数据的正确感知,出现模型崩溃现象。

很快,豆包的做法引发了社会舆情的反弹以及其他AI大模型厂商的警觉。一方面,豆包自己进行了整改与优化。另一方面,谷歌下架了所有豆包的词条内容。此外,国内各大互联网公司也针对AI生成的词条以及低质量的语料修改了算法。

-END-

❤️

0 阅读:0

图解金子

简介:感谢大家的关注