
导读 在首届 AliSQL Innovate 社区用户大会上,AliSQL 社区 PMC Chair、阿里云数据库产品事业部 RDS 产品部负责人陈宗志(花名:暴跳)带来了题为《AliSQL:开源共生,创新进化》的深度技术分享。他系统回顾了 AliSQL 从去 IOE 到服务百万云实例的发展历程,深入剖析了 AliSQL DuckDB 这一革命性创新特性,并展望了 AliSQL 社区的未来规划。本文根据演讲实录整理,全面呈现 AliSQL 在技术创新与社区共建上的探索实践。
主要内容包括以下几个部分:
1. 从去 IOE 到云原生:十五年的技术淬炼
2. AliSQL DuckDB:补足 MySQL 分析能力的短板
3. 社区展望:开源共生,繁荣生态
分享嘉宾|陈宗志(花名暴跳) 阿里云 AliSQL 团队负责人
内容校对|韩珊珊
出品社区|DataFun
大家好,我是陈宗志,花名暴跳,现任阿里云 AliSQL 团队负责人。今天我想和大家分享的主题是"开源共生、创新进化"。
我的分享将分为三个部分:首先简要回顾 AliSQL 的发展历程,然后重点介绍我们近两年最重要的创新——AliSQL DuckDB 的能力集成,最后展望 AliSQL 社区的未来发展方向。作为一个长期的开源爱好者,我不仅主导着 AliSQL 项目,也积极参与 MySQL、MariaDB、DuckDB 等多个开源社区的建设。
01
从去 IOE 到云原生:十五年的技术淬炼AliSQL 的故事要从 2010 年说起。那时阿里巴巴集团正在进行一场史无前例的技术变革——去 IOE,用开源 MySQL 替换 Oracle 数据库。最大的挑战是双十一这种世界级的高并发场景,当时业界普遍认为开源数据库无法支撑如此极端的负载。但我们通过深度定制和优化,不仅成功支撑了双十一,更在这个过程中积累了大量针对高并发、大规模场景的技术能力。
这里有个很多人不知道的事实:大家熟知的 PolarDB 和 RDS MySQL,实际上都是从 AliSQL fork 出来的。我们内部一直把线上的 RDS MySQL 称为"AliSQL 企业版"。与大多数云厂商"先开源后商业化"的路径不同,AliSQL 是依托阿里云成熟的商业化版本,反向进行开源回馈,这确保了开源代码的企业级成熟度。
持续与开源社区共生共建
AliSQL 始终保持与开源社区的深度互动。面向 MySQL 社区,我们提交了大量功能合并到社区版本,包括大事务提交优化和大事务 recovery 优化。这两项优化源于双十一场景——单笔订单可能涉及数十张表的更新,形成超大事务。我们通过对事务提交流程和 recovery 机制的深度优化,解决了大事务的性能瓶颈,并将这些优化贡献给了 MySQL 社区。
面向 MariaDB 社区,我们开源了多个自研功能,包括热点更新、表回收站、行级数据闪回、Sequence 引擎、大表删除优化等。热点更新优化解决了秒杀场景中的锁竞争问题;表回收站提供了误删表的恢复机制;行级数据闪回允许将特定行恢复到过去某个时间点;Sequence 引擎为从 Oracle 迁移的用户提供了熟悉的序列生成能力;大表删除优化通过分片和限速,将大表删除的影响降到最低。

我们与开源社区共生共建的理念可以概括为三点:源于开源——基于 MySQL 演化,继承社区智慧,站在巨人肩膀上前行;场景驱动——依托阿里巴巴极端场景的磨炼,沉淀满足时代需求的能力;回馈社区——将经过验证的核心功能回馈给社区,推动生态共同繁荣。
02AliSQL DuckDB:补足 MySQL 分析能力的短板在众多创新特性中,我今天重点介绍 AliSQL DuckDB。这是我们近两年投入最大的一项技术创新,很好地补足了 MySQL 社区在列存引擎、轻量级分析场景和数据压缩能力上的不足。
1. 一体化 HTAP 架构
AliSQL DuckDB 实现了事务处理(TP)和分析处理(AP)的一体化。在架构上,所有 SQL 请求通过 MySQL Connection 接入,SQL Planner 进行智能路由——事务型 SQL 由 InnoDB 引擎处理,分析型 SQL 路由到 DuckDB 列存引擎。两个引擎通过 Binlog 进行数据同步。
这种架构带来四大核心优势。第一是开源生态协同,与 99.99% 的 MySQL 语法和函数兼容,原有查询零修改即可执行。第二是复杂分析性能提升百倍,通过列式存储、向量化处理等技术,聚合查询性能相比同类 HTAP 产品提升 3 倍。第三是数据高效流转,基于 binlog 原生复制自动同步数据,引入攒批机制后同步性能提升 100 倍。第四是数据高压缩率,支持 50% 以上压缩,基于对象存储大幅降低成本。
2. 核心使用场景
AliSQL DuckDB 支持三大场景。HTAP 查询加速场景中,通过 Proxy 自动行列分流,TP 业务由 MySQL 主节点处理,AP 查询由 DuckDB 分析实例处理,应用无需修改代码。数据汇聚分析场景中,多个 MySQL 实例数据汇聚到 DuckDB 实例,进行统一分析。数据归档场景中,利用 DuckDB 的高压缩率和强分析能力,实现低成本存储和高效查询的平衡。
3. 技术深度解析
实现 MySQL 与 DuckDB 的深度融合,最大挑战是兼容性。兼容性问题集中在四方面:数据类型的差异、SQL 语法的不同、函数语义的差异、结果集表达方式的不一致。
我们对 DuckDB 进行了深度定制:对 Parser 进行 11 处扩展,使其能够理解 MySQL 特有语法;对函数进行 76 处扩展,覆盖 MySQL 常用函数;开发结果集转换层,确保返回格式一致。经过这些努力,在兼容性测试平台上通过约 20 万条 SQL 测试,通过率达 99% 以上。

在性能方面,DuckDB 在 benchmark.clickhouse 榜单上位居开源数据库第一。与开源 ClickHouse 相比,某些查询场景性能提升 2 到 20 倍。这种提升来自多个优化点:I/O 操作大幅减少,列存只读取查询涉及的列;CPU 利用率提升,通过 SIMD 指令集和批量操作加速计算;热点数据自动缓存;查询计划动态优化;Join Reorder 算法提升多表关联性能。聚合查询场景性能提升 100 倍以上,几分钟的查询现在几秒钟返回结果。
4. 数据同步优化
数据同步是 HTAP 系统的关键环节。我们实现了三大优势:低复制延迟、高同步稳定性和攒批回放优化。
传统 binlog 复制模式下,保持 1 秒延迟需要 30 万行/秒的吞吐量,但只能容忍5秒延迟时吞吐量会降到 100 行/秒。我们通过"攒批回放"机制解决了这个问题:binlog 事件到达时不立即回放,而是先将修改行数据追加到临时表(列式存储,写入高效),积累到一定量后通过批操作快速合并。这样在保持 1 秒以内延迟的同时,支持每秒数十万行甚至上百万行的同步吞吐量。
DDL 兼容性适配方面,对于 DuckDB 原生支持的 Instant DDL,直接执行即可;对于不原生支持的 Copy DDL,采用"创建新表-拷贝数据-替换原表"策略,通过优化算法将对业务的影响降到最低。
5. 数据压缩能力
在 TPC-H SF100 测试中,AliSQL DuckDB 的压缩后数据量显著低于 MySQL、HBase、ClickHouse 等产品。这得益于三个优势:RowGroup 组织方式天然适合列式压缩;自适应算法匹配,为每列智能选择最佳压缩算法;软硬件协同,利用 CPU 硬件压缩指令集。实际场景中通常实现 50% 以上压缩率,某些场景可达 80%,直接将存储成本降低到原来的五分之一。
6. 真实案例:价值验证(1)HTAP 加速查询
某服务 6 亿用户的内容平台,每日产生 TB 级数据。采用 AliSQL DuckDB 后,通过 Proxy 自动行列分流,InnoDB 处理事务,DuckDB 处理分析。数据通过 binlog 自动同步,客户端无缝对接,原有查询零修改。系统稳定性大幅提升,运维成本显著降低。
(2)数据汇聚分析
某企业将数十个 MySQL 实例数据汇聚到 AliSQL DuckDB。通过攒批同步,延迟小于 5 秒,多表 Join 性能显著,复杂 SQL 查询速度提升 20 倍。高度兼容 MySQL 协议,开放 binlog,轻松对接 BI 工具。性能提升 20 倍,运维成本减少 50%。
(3)高效数据归档
某企业热数据存储在 RDS MySQL,冷数据归档到 AliSQL DuckDB。列存压缩率高达 80%,大幅减少存储成本。订单聚合分析等性能提升 100 倍以上,冷数据也能高效查询。100% 兼容 MySQL 协议,99.99% 兼容语法,冷热数据统一运维。
03社区展望:开源共生,繁荣生态

AliSQL 社区规划了完整的活动矩阵:每年 1 场 AliSQL Innovate 大会、4 场季度 Meetup、6 场 AUG 活动、N 场高校和专项活动,覆盖从认知到使用到贡献到布道的全链路。
在丰富开源生态方面,我们将持续开源核心能力,保持 100% 兼容 MySQL,让开发者在熟悉的语言上获得 AI 时代的创新能力。建立开放共建机制,通过透明的 RFC 机制和贡献者激励体系,鼓励共同参与。
在激活社区参与方面,通过社区活动矩阵实现开发者深度互动。建立 AUG 运营机制,缩短"发现社区"到"得到支持"的历程。利用 GitHub 协作机制,将用户需求快速转化为迭代动力。
在高校合作方面,通过开源实训营引导学生从使用者转变为创造者。构建 AliSQL 课程体系,增加 AI 时代的创新能力培训。开展"走进高校"系列活动,培养新一代数据库人才。

AliSQL 的核心理念是持续与开源社区共生共建:源于开源,站在 MySQL 巨人肩膀上前行;创新演进,在极端场景中不断进化;回馈开源,将核心能力反哺社区。
从去 IOE 到服务百万云实例,从 MySQL 分支到 AI 时代数据底座,AliSQL 走过了一条不平凡的创新之路。在最熟悉的数据库语言上,释放AI时代的创新潜能——这是我们的使命,也是对全球开发者的承诺。
AliSQL 社区规划了完整的活动矩阵:每年 1 场 AliSQL Innovate 大会、4 场季度 Meetup、6 场 AUG 活动、N 场高校和专项活动,覆盖从认知到使用到贡献到布道的全链路。
在丰富开源生态方面,我们将持续开源核心能力,保持 100% 兼容 MySQL,让开发者在熟悉的语言上获得 AI 时代的创新能力。建立开放共建机制,通过透明的 RFC 机制和贡献者激励体系,鼓励共同参与。
在激活社区参与方面,通过社区活动矩阵实现开发者深度互动。建立 AUG 运营机制,缩短"发现社区"到"得到支持"的历程。利用 GitHub 协作机制,将用户需求快速转化为迭代动力。
在高校合作方面,通过开源实训营引导学生从使用者转变为创造者。构建 AliSQL 课程体系,增加 AI 时代的创新能力培训。开展"走进高校"系列活动,培养新一代数据库人才。
AliSQL 的核心理念是持续与开源社区共生共建:源于开源,站在 MySQL 巨人肩膀上前行;创新演进,在极端场景中不断进化;回馈开源,将核心能力反哺社区。
从去 IOE 到服务百万云实例,从 MySQL 分支到 AI 时代数据底座,AliSQL 走过了一条不平凡的创新之路。在最熟悉的数据库语言上,释放 AI 时代的创新潜能——这是我们的使命,也是对全球开发者的承诺。
为进一步释放 AI 时代的创新潜能,AliSQL 近年来与 AMD 展开深度协作,联合推出了面向 HTAP(混合事务/分析处理)场景深度调优的 AliSQL DuckDB+ 9 代 AMD 机高性能分析解决方案,共同打造了 AI 时代的“性能组合拳”。
此方案充分受益于 AMD EPYC 高性能服务器 CPU 的代际持续迭代。其中,第 9 代机型搭载了第五代 AMD EPYC 处理器(代号为 Turin),相较于上一代 Genoa(8 代机型),在 Zen 架构、算力 IPC、内存带宽及能耗方面均实现了显著飞跃。具体而言,9 代 AMD 机所依托的 Zen5 架构,其 IPC(每时钟周期指令数)综合提升了 17%,针对 AI 算力提升高达 37%,内存带宽也提升了 33%,并全面支持 AVX512 指令集。在工艺节点上,采用了更先进的 TSMC 3nm/4nm 工艺。得益于这些全新的 CPU 技术,在标准 TPC-H sf100 基准测试中,搭载 9 代 AMD 机型的 AliSQL DuckDB 集群,相较于上一代机型(8 代),整体分析查询性能提升了 50%,查询耗时也大幅缩短。AliSQL 与 AMD 的这项深度协作,不仅为 HTAP 场景带来了卓越的性能提升,更使 MySQL 在 AI 时代焕发了新的生机与活力。
以上就是本次分享的内容,谢谢大家。