导读 随着大模型技术的快速发展,数据平台正经历着深刻的变革。从传统 BI 看板到自然语言交互的 ChatBI,从结构化数据到非结构化数据的全面激活,从被动数据服务到主动 AI 数据平台,数据平台的定位正在发生根本性转变。腾讯云大数据顺应这一趋势,发布了 TC Data Agent 智能体,开启了数据智能的新篇章。本文将深入介绍数据平台的核心变革趋势、腾讯云大数据新一代数据智能平台 DlaaS 系统架构、数据分析智能体的核心技术,以及自定义场景配置约束和语义增强方案。
主要内容包括以下几个部分:
1. 数据平台的变革趋势
2. 腾讯云大数据新一代数据智能平台
3. 数据分析智能体架构与功能
4. 关键技术解析
5. 自定义场景配置与语义增强
6. 未来展望
分享嘉宾|付振雄 腾讯云 大数据专家产品经理
编辑整理|洪海洋
内容校对|郭慧敏
出品社区|DataFun
01
数据平台的变革趋势
1. 四大核心变革在当前 AI 时代,数据平台正在经历四大核心变革。首先是分析方式的革新,传统的 BI 看板和离线报表需要专业的 SQL 技能,而如今已转变为自然语言交互的 ChatBI 模式,支持 NL2SQL 自动转换和对话式分析,大幅降低了数据分析的门槛。
其次是技术融合趋势日益明显。数据 ETL 与 ML 训练正在深度整合,形成 Data+AI 一体化开发环境。以 QQ 音乐为例,其千人千面推荐模型已与用户行为分析深度结合,实现了数据处理与智能应用的无缝衔接。
第三个变革是非结构化数据的激活。通过 RAG 技术,企业可以挖掘 80% 以上非结构化数据的价值。微信读书的智能检索与问答系统就是一个典型案例,它将海量的图书内容转化为可检索、可问答的知识资产。
最后是平台定位的升级。数据平台正从被动的数据服务转向主动的 AI 数据平台。腾讯广告妙思平台就实现了营销自动化与大语言模型的深度融合,主动为业务提供数据洞察和决策支持。
2. Data Agent 的三大特征Data Agent 作为新一代数据平台的核心组件,具备三大显著特征。第一是主体转换,操作主体由人变为 AI Agent,实现了"问题找数据"的逆向交互模式,用户只需提出问题,系统自动完成数据获取和分析。第二是能力进化,Data Agent 整合了 NL2SQL、自治系统和 RAG 技术,支持多模态数据的混合分析,能够同时处理结构化和非结构化数据。第三是平台转型,基于大模型构建的下一代数据平台,实现了企业数据与大语言模型的深度耦合,让数据真正成为智能决策的基础。
02腾讯云大数据新一代数据智能平台
1. 平台定位与核心价值腾讯云大数据推出的新一代数据智能平台是一款具有革命性意义的产品。该平台具备操作系统级能力,集成了多模态数据处理、AI 模型和 Data Agent 的全链路智能操作系统。通过自然语言接口降低使用门槛,平台具有显著的普惠化特性,使数据智能成为企业如水电气般的基础设施。同时,平台具备敏捷响应机制,从依赖人工分析经验转向 Agent 主动洞察,实现业务变化的分钟级响应。
在核心价值方面,平台能够显著提升生产效率,统一管理结构化与非结构化数据,通过智能体自动完成从数据预处理到洞察生成的全流程。在运维成本优化方面,平台支持 7×24 小时无人值守运维,有效降低企业大数据平台的总体拥有成本(TCO)。
2. DlaaS 系统架构设计DlaaS 系统采用分层架构设计,从上到下分为三个核心层次。Agent 赋能层通过 MCP 机制对接 TCHouse、EMR、ES等底层计算平台,提供数据分析、数据科学、智能搜索等场景化 Agent。统一调度层实现 CPU+GPU 混合调度,支持 Ray 分布式任务调度框架,确保计算资源的高效利用。数据湖底座基于 TCLake 统一存储结构化与非结构化数据,兼容 Iceberg、Hudi 等开源格式,保证了良好的生态兼容性。
系统的关键组件包括智能自治系统(涵盖元数据服务、语义服务、MLOps 等模块)、混合计算支持(同时支持 Spark 生态与自研 Xpark 引擎)以及开放兼容性(可对接企业自建数据平台与第三方大数据产品)。
03数据分析智能体架构与功能
1. 场景化 Agent 矩阵腾讯云数据分析智能体采用场景化 Agent 矩阵设计,包含五大核心 Agent。数据分析 Agent 能够自动生成 SQL 并可视化执行过程;数据科学 Agent 可构建端到端的 ML pipeline,支持预测分析等场景;智能搜索 Agent 基于企业知识库构建 RAG 应用;深度研究 Agent 协调多 Agent 完成跨模态复杂分析;AIOps Agent 实现集群故障预测与根因分析。
在技术实现方面,系统采用多 Agent 协作框架,由 Plan Agent 协调 SQL Agent、Code Agent、RAG Agent 等专家 Agent 协同工作。核心工具链包含 NL2SQL、智能选表、代码生成等自研工具。在大模型集成方面,系统支持混元大模型与 DeepSeek 等第三方模型的微调。
2. 数据接入与处理流程Data Agent 的数据流程分为结构化数据和非结构化数据两条主线。在结构化数据处理方面,系统支持 TCHouse、EMR、DLC 等数据源接入,兼容 CSV、Excel 等文件格式;通过 NL2SQL 将自然语言查询智能转换为可执行代码;同时自动获取表结构、字段语义等元信息进行元数据管理。
在非结构化数据方面,系统支持文档、图片、音视频等多模态数据解析,构建企业知识库;采用混合检索技术,结合文本倒排索引与向量检索(Hybrid Search);并能自动建立结构化分析结果与非结构化洞察的智能关联关系。
3. 核心业务功能
智能分析:业务人员可直接使用自然语言提问,系统自动返回可视化结果和业务建议。无需 SQL 或 Python 技能即可完成专业数据分析。某报业客户案例显示,报告生成效率提升了 300%。典型流程包括语义解析(通过大模型理解业务语境)、任务拆解(自动生成数据查询到分析到可视化子任务)、结果合成(整合数据洞察与行业知识生成决策建议)。

智能搜索:通过 AutoRAG 技术实现全链路参数自动优化,搜索准确率提升 40%。Document AI 支持 PPT、PDF、图片等多格式文档解析。典型场景包括行业研报解读(自动提取数据表和文本关键信息)和企业知识库(私域知识与公域知识融合检索)。某央企稿件撰写时间从 8 小时缩短至 30 分钟。

数据科学:具备强大的自动化能力,特征工程可自动处理缺失值和异常值,支持自定义规则;选择支持时序预测、分类、回归等场景自适应匹配;报告生成可实现趋势可视化和可解释性分析一体化输出。某游戏公司将模型构建周期从 2 周缩短至 2 天,付费预测准确率达 92%,集群资源利用率提升 15%。

深度分析:采用动态规划机制,Reflexion 技术可根据执行反馈实时调整任务流,记忆优化利用历史分析轨迹优化当前任务。典型输出包含竞争格局、战略机会、实施路径的完整报告,并能自动关联外部行业数据。

智能运维:核心算法包括基于 GNN 的异常传播图谱构建进行根因分析,以及贝叶斯优化和强化学习混合策略进行智能调参。实施效果显著,Spark 任务资源消耗降低 15%,异常 MTTR 缩短 60%,年节省云计算成本超 200 万美元。
04关键技术解析
1. 总体架构系统采用多智能体设计,基于 LLM 的多智能体套件包含 SQL 执行、RAG 检索、数据科学和深度分析等不同功能的智能体。底层采用量化高效推理模型,在单台 H20 机器上实现整包回复小于 4 秒的性能。代码执行层采用企业级低延时高并发沙箱工具,可毫秒级拉起独立网络权限的沙箱环境。
2. 记忆层设计记忆层是系统的重要组成部分,分为短期记忆和长期记忆两类。短期记忆存储用户单轮会话的多次聊天内容及大模型返回内容,并生成会话摘要。长期记忆存储三类数据:事实数据(如"中关村会议中心位于北京")、关系数据(如"小明和小张是兄弟关系")以及程序记忆(存储代码执行、SQL 执行的结果及性能数据,便于大模型理解数据质量)。
3. 核心功能模块系统包含多个核心功能模块。意图分析与路由模块负责识别用户意图并进行任务拆解;任务规划调度模块基于不同智能体执行结果进行总结和摘要生成;上下文增强模块利用记忆层提取的信息进行上下文优化。
在安全防护方面,系统具备完善的机制:内容审查检测违规违法信息及敏感数据遮盖;权限控制约束用户数据使用边界,防止越界内容输出;回复策略支持流式返回中的敏感信息终止或内容覆写。
执行环境支持多种级别:毫秒级启动的腾讯云原生沙箱、秒级启动的 Jupyter kernel、以及分钟/小时级的大规模数据处理 DLC 引擎。多模态处理方面采用 Xpark 引擎实现多模态数据并行加速和分布式优化,支持腾讯大模型及开源模型框架。
05自定义场景配置与语义增强1. 行业约束问题与解决方案在构建数据分析智能体时,行业特定规范难以标准化是核心痛点。例如电商推荐系统缺乏统一的分析逻辑标准,约束形式多样,包括思维链要求、工具使用限制、参数禁用规则等。
当前方案支持结构化配置与自然语言描述双模式。自然语言适合简单直白的步骤描述(如"第一步执行 X,第二步执行 Y"),结构化通过 Agent 技能树实现细粒度控制(输入输出规范、执行逻辑等)。技术实现采用提示词工程进行约束编码。
未来发展方向上,短期目标是实现自然语言任务编排和场景设定模块;长期规划是结合知识库上下文与强化学习实现自动化场景输出,从人工配置逐步过渡到 AI 自主理解业务规则。
2. 语义层与元数据维护语义层的工作内容包括三个方面:自动生成字段描述、表关系等元数据;大模型辅助生成数据字典(字段含义、业务解释)进行智能增强;跨数据源的字段名称标准化与语义对齐实现统一管理。
技术架构基于 TCCatalog 构建(类似 Databricks Unity Catalog),核心组件包括统一存储层(TC Lake)和元数据服务层(支持多模态数据)。其核心价值是实现跨数据源的语义一致性理解,确保不同来源的数据能够被正确解读和关联。
06未来展望在技术方向上,腾讯云大数据将持续深耕两个领域:一是强化学习,建立分析效果自动优化闭环;二是多模态处理,支持音视频数据的直接分析。
在场景扩展方面,智能营销将实现消费者行为的多模态洞察,媒资管理将支持视频内容的自动标签化。腾讯云大数据将继续推动数据智能技术的发展,为企业提供更强大、更易用的数据分析能力。付振雄
今天的分享就到这里,谢谢大家。