对话行业大咖:OpenAI为什么收购Rockset

科技每日十点见 2024-06-25 06:41:37

6月21日,OpenAI宣布完成了对数据库检索和分析公司Rockset的收购,公司将整合 Rockset的技术和人员,强化各项产品的检索基础设施。

OpenAI在X平台上表示,Rockset公司主要提供世界级的数据索引和查询功能,OpenAI将在产品中集成Rockset的技术,将数据转化为可操作的智能。

Rockset首席执行官兼联合创始人Venkat Venkataramani 随后发文表示,在Rockset成为OpenAI的一部分之后,其将为OpenAI产品套件的检索基础架构提供支持。

Rockset创立于2016年,由前Meta员工创立,先后获得 Greylock、红杉资本等投资机构约1亿美元的投资。

对于这次收购,外界猜测颇多,有观点认为 OpenAI 在为推出搜索服务铺路,也有观点认为,这是OpenAI 重视B端业务的一个标志性动作。

6月24日,智能超参数对话质变科技CE0占超群(花名:离哲),让他从专业视角解析 OpenAI对Rockset的并购。

离哲是数据库领域的大咖,曾担任阿里云OLAP产品部总经理,从无到有创建 AnalyticDB,他在2011年就曾研发过类似Rockset 的产品,并在阿里集团和阿里云上提供大规模服务,是中国实时数仓领域计算规模和营收最大的产品。现在他创立的AI数据云厂商质变科技,正为企业客户提供经生产验证的一体化AI数据云服务,公司获得了多家顶级投资机构的投资。

以下是经编辑过的对话:

智能超参数:OpenAI宣布收购云原生数据库公司Rockset。这家公司有什么独特之处?

离哲:最近很多投资人和行业同学也找我咨询这个问题。我简单说一下我的理解,Rockset应该是在国外算比较早做实时数仓的厂商。它的产品有三个主要特性,第一个特性叫实时数据集成;第二个特性叫全索引;第三个特性叫云原生,对应的就是存储计算分离,可以做到低成本。

这三个特性背后,其实是能解决今天大模型进入企业的三个核心问题。

大模型进企业面临的第一个问题,现在企业基本上都是需要支持实时数据集成,而大模型默认都是pre-train的数据,需要有外部的data infra来支持。所以这个时候,大模型进入企业第一就要实现实时的数据更新。

第二个叫做全索引,全索引核心技术和实践可以参考我于2018年发表在VLDB顶会的论文。全索引能解决什么问题呢?比如说,今天我做了大模型的RAG,但实际上还缺两个能力,全索引的第一个价值是检索与校验,大幅降低Token成本和做facts还原。第二个价值是什么呢?全索引还有一个特征是能做计算,进行任意维度的多维检索与计算。就比如说按照性别、年龄,消费水平、区域等等做多维检索与计算,这样就可以解决大模型不合适做私有海量数据检索、计算与insight的问题。

这个计算的好处是什么呢?举个例子,比如我想结合大模型知道某家公司当前的运营状况是否有什么异常。这个场景,其实除了需要大模型做plan之外,需要做很多维度的分析,然后找出哪个维度有异常。但如果你没有全索引,计算成本就会特别高。

第三个点就是,它的云原生架构,能带来足够低的成本和按需付费,可以真正按照数据容量进行付费。那么这个时候,这个收购也让 OpenAI 的Assistants API 有一个好的 infra基础设施,去满足用户按需存储、计算以及与大模型的结合场景。

我以前在阿里的时候,应该算全球最早做实时全索引数仓的团队,所以我能感受到实时数仓和大模型结合的价值。另外,我们质变科技去年10月份在海外发布了第一个AI分析产品,目前已经积累了近百万用户,在AI分析这个领域,被很多榜单认定为中国出海的第一厂商。

智能超参数:OpenAI必须要收购数据仓库厂商吗?

离哲:现在,你要真正的做好 AI时代的数据分析和企业级场景落地,把数据和 AI一体化做好,数仓非常重要。

今天大模型还很难去做一些深度计算的工作,但在企业内部不做计算肯定不行。大模型本质上是把数据都压缩。但是压缩之后,还需有一个东西去做全量的任意维度的检索、校验、与计算才能真正融入业务中被用起来。

智能超参数:OpenAI 跟微软合作很深,Rockset 的产品,微软没有吗?

离哲:微软还真没有。Rockset 是一种实时全索引数仓,这个细分赛道上的厂商并不多。据我了解,阿里云AnalyticDB 是做得最早的,我在 2011 年就开始做了。Rockset 是 2018 年开始做的。

智能超参数:外媒说Rockset一年营收2000万美元左右,似乎规模不大?是因为市场需求不大吗?

离哲:Rockset 的具体营收我不是很清楚;基于我们曾经的经验来看,应该不会很高。以前实时数仓更多做离线的数据平台的加速或在线分析(OLAP),如果仅仅只提供实时数仓服务,结合他们的客户案例来看,营收应该不大,如果想要做大,一定要找到新的革命性的场景或往一体化数仓转型。比如说,AI 就会加大实时数仓的价值。

智能超参数:所以这个收购可以看作是,OpenAI开始往企业级市场渗透了。

离哲:我的感觉在往上两个方向渗透,一个是往企业市场渗透,第二个就是更好服务 C 端用户。因为但凡服务未来实时数据场景或需要准确性的场景,它一定需要有一个新的技术,不能只是依靠基于Transformer架构的大模型。

其实前段时间谷歌发表的一篇论文也讲了这个事情,当大模型上下文越来越长的时候,是不是可以解决所有问题?最终的实验结果表明,是不可能的,一定需要和一个好的Data Infra结合才可以。

0 阅读:2

科技每日十点见

简介:感谢大家的关注