1、背景:大数据湖的发展背景与建设理念
2、体系:大数据湖体系规划与建设思路
3、生态圈:探索新兴业务入湖建设模式
4、共享:大数据湖统一访问共享规划
5、运营:大数据湖一体化运营管理建设(本方案及更多方案原件可获取)
大数据湖建设技术要点:数据收集和存储:数据湖需要收集和存储来自多个来源的数据,包括结构化、非结构化和半结构化数据。数据清洗和预处理:确保数据的质量和可靠性,通过数据清洗和预处理来纠正错误、去除重复项等。数据索引和查询:对存储在数据湖中的数据进行索引,以便快速查询和分析。数据分析和挖掘:提供数据分析和挖掘工具,帮助组织从数据中发现有价值的见解和洞察力。数据架构与承载体系的演变过程数据库时代:关系型数据库解决了信息时代的数据资源存储和管理,实现了电子化的文件柜
1)采用数据模型表示数据结构,冗余小
2)面向事务管理,具有ACID特性
3)数据统一管理和控制,易维护和扩充
4)程序与数据独立,具有良好用户接口
数据仓库时代:DW研究和解决了从数据库中获取信息的问题,通过OLAP、数据挖掘等帮助企业决策分析,构建商业智能(BI)
1)面向主题的,关注用户重点业务
2)集成的,跨越历史、区域、系统…
3)稳定的,具有只读性质,以查询为主
4)以时间序列存储,非规范化管理
大数据平台时代:面对大数据5V特点,采用分布式、并行化的存储和计算架构,提升数据处理能力
1)对象:PB级,80%以上非结构化数据
2)技术:分布式架构、云计算、虚拟化等
3)CAP原理:CAP BASE
4)目标:线性扩展、弹性计算、实时响应、动态调节