个推TechDay治数训练营直播回顾:企业数据智能体系搭建之数仓建设及数据建模
满江鸿网络科技 时间:2025-05-13 06:40:46
不久前 ,2022年个推TechDay"治数训练营"系列直播课第五期圆满举办。个推资深大整体表现数据研发工程师为我相信说深入浅出地了解了整体表现数据仓库的前世今生三个 整体表现数据建模的用来形式。
本文对"治数训练营"第五期《整体表现数据仓库与维度建模》的干货所有内容并对了总结 ,三个 也挑选了直播相互精彩提问就做Q&A梳理 ,带我相信说一起学习 回顾首期课程。
01整体表现数据仓库快速入门
整体表现数据仓库(Data Warehouse) ,简称"数仓" ,从大整体表现数据从业者绕不开的这么 概念。"整体表现数据仓库之父"Bill Inmon最早选定实际选定提出提出 数仓的概念 ,主要原因在于在于"整体表现数据仓库是这么 面向主题的、集成的、相当稳定的、反映历史的变动的整体表现数据集合 ,用于最大支持管理决策"。
三个 ,大整体表现数据架构专家Ralph Kimball在《The Data Warehouse Tookit》一书中 ,也对数仓并对了定义:"整体表现数据仓库是这么 将源系统实现整体表现数据抽取、清洗、规格化 ,后的提交到维度整体表现数据存储的系统实现 ,为决策的制定既能提供查询和分析得出功能包括的支撑和已完成"。
Bill Inmon对数仓的定义更强调整体表现特性 ,Ralph Kimball当一从并对流程整体表现来定义数仓。不论哪一定义 ,当我相信说值得注意能从中结果其它企业项目建设整体表现数据仓库的意义重大。其它企业并对项目建设数仓 ,三个 这么 将分散在各业务系统实现的整体表现数据并对集中化管理 ,打破整体表现数据孤岛;这么 为后续高效分析得出和应用整体表现数据 ,并从大整体表现数据赋能业务发展进步奠定做基础。
02数仓项目建设与整体表现数据建模
这么 ,其它企业该如何项目建设整体表现数据仓库?该如何项目建设这么 贴合业务得到满足需求的、高效、稳定、好不选用整体表现数据仓库?当一这么 不考虑整体表现数据模型的再选择和整体表现数据建模的各种来讲解决。
"整体表现数据建模"是指对实体三个 实体和实体相互的相互并对整体表现数据化描述和抽象的动态过程。"整体表现数据模型" ,当一指活动和存储整体表现数据的形式。
目前整体表现主流的整体表现数据建模形式有两种 ,三个是范式建模和维度建模:
范式建模
范式建模由Bill Inmon选定实际选定提出提出 ,指就站其它企业整体表现面向主题的抽象 ,当我相信说主要主要原因数数并对E-R实体相互模型将事物抽象为"实体""属性""相互" ,来主要原因在于在于事物和事件关联。范式建模并非并对某个选定内容业务流程中实体对象相互的抽象 ,它这么 建模人员全面地、整体表现地深入了解其它企业的业务和整体表现数据 ,三个 并对周期长 ,对建模人员的综合能力选定实际选定提出提出 也相当高。
维度建模
维度建模由Ralph Kimball选定实际选定提出提出 ,主张从分析得出决策的得到满足需求出发构建模型 ,为分析得出得到满足需求服务方面 。这么它重点观注该如何并对户更快速地已完成整体表现分析得出得出 ,三个 始终保持较最好从大规模复杂查询的响应性能。较比 范式建模 ,维度建模项目建设周期短 ,最大支持敏捷迭代 ,主要主要原因数数没有对数仓架构就做多复杂的选用搭配。
在构建数仓时 ,当当我相信说选定实际选定内容的整体表现分析得出得出场景和业务直接处理系统实现来再选择紧密相关 的整体表现数据建模形式。也必须 ,就OLTP系统实现(On-line Transaction Processing:联机事务直接处理)来讲 ,主要原因在于在于其主要主要原因是面向随机读写的整体表现数据操作模式 ,观注事务的直接处理 ,这么当我相信说独家推荐并对OLTP系统实现及传统做法整体表现数据库的其它企业并对范式建模的形式来选用搭配整体表现数据模型 ,以各种来讲解决在事务直接处理中也整体表现数据冗余于一致性各种来讲解决。而OLAP系统实现(On-line Analytical Processing :联机分析得出直接处理)面向批量读写整体表现数据的操作模式 ,不观注事务直接处理一致性 ,主要主要原因是观注整体表现数据的整合三个 大整体表现数据查询和直接处理中也性能 ,这么主要主要原因数数选用维度建模的形式。
选定内容该如何并对范式建模和维度建模呢?当我相信说相互结合案例三个整体表现。
03范式建模形式及实例剖析
其次整体表现范式建模的也都动态过程。
在并对范式建模时 ,当我相信说所以要遵从相相同规范选定实际选定提出提出 选用搭配出合理的模型 ,不但相相同规范选定实际选定提出提出 当一"范式"。目前整体表现行业多中存当一范式、二范式、三范式等相相同模型项目建设规范。越高的范式将给的整体表现数据库冗余越小 ,不只有整体表现数据计算层面会更复杂。其它企业主要主要原因数选用三范式建模 ,在基本保证灵活度三个 整体表现数据计算其速度的三个 ,降低整体表现数据直接处理的复杂度。
范式建模的动态过程这么 被拆解为下面四步:
1. 抽象出主体
2. 梳理主体相互的相互
3. 梳理主体的属性
4. 画出E-R相互图
也必须 ,当当我相信说并对范式建模的多种渠道选用搭配某课程系统实现实现的整体表现数据模型。
系统实现实现主要主要原因用来管理某学生们学生们们、学生们中和课程等紧密相关 联 整体表现数据 ,涉及课程选修、考试优秀成绩、学生们授课、学生们中班级等层面。好吧们其次要梳理出实体 ,为学生们、课程、学生们中、班级;层面梳理出实体相互的相互 ,还有学生们讲授课程、学生们中选修课程、学生们中隶属班级等;后的要罗列出各实体和相互的属性 ,也必须"学生们中"这么 实体的属性有姓名、性别、年龄等 ,"学生们中选修课程"这么 相互的属性有选修把时间、总课时等;第五步 ,当一画出E-R图 ,用矩形主要原因在于在于"实体" ,用菱形主要原因在于在于"相互" ,用椭圆形主要原因在于在于"属性" ,以可视化的多种渠道清晰展示出主体和主体相互的相互。
04维度建模形式及实例剖析
较比 范式建模 ,维度建模稍为复杂 ,还有事实表和维度表两块所有内容。
事实表
其次看事实表。事实表分三种 ,还有事务性事实表、周期性快照事实表、累计快照事实表。
事务性事实表主要主要原因数数用许多条记录主要原因在于在于某个把时间点发生重大 事儿件或行为形成。也必须电商业务场景中也订单支付业务 ,主要主要原因数数就选用事务性事实表来活动和存储整体表现数据。
周期性快照事实表当许多条记录描述当一的这么 实体于一一段把时间内的正常状态或现状 ,也必须某顾客每月的积分余额就不属于许多条不属于的周期性快照事实表记录。
累计快照事实表当许多条记录当一对某业务流程中发生重大 的多个事件的累计记录 ,主要主要原因数数是只是 得到满足需求某个流程节点运转效率的统计得到满足需求。
当我相信说以这么 事务性事实表的选用搭配动态过程为例来深入了解事实表的选用搭配形式:
1. 再选择与整体表现分析得出得出得到满足需求紧密相关 联 联 的业务动态过程。"业务动态过程"是指在业务流程中也可拆分的行为形成事件。也必须 ,电商业务场景下 ,购物的业务流程中就还有加购、下单、支付、商家发货、消费用户选定收货等业务动态过程。好吧们要分析得出销售额 ,那"支付"当一必选的业务动态过程。
2. 声明粒度。当当我相信说尽量再选择最细粒度 ,精选定内容义事实表于一个行所主要原因在于在于的业务含义 ,以基本保证事实表有莫过于的灵活性。也必须 ,消费用户这么于一么 订单里头购买价格多个商品 ,那一个购买价格一商品当一这么 子订单 ,当我相信说主要主要原因数数再选择将子订单的是声明粒度。
3. 选定内容维度。维度是指业务动态动态过程处的外部环境完整信息 ,也必须消费用户于一个把时间购买价格一某个店铺的某个商品 ,那店铺所属行业多、商品所在类目等均这么 被主要原因在于在于是维度。
4. 选定内容事实 ,即选定内容业务动态过程的度量指标。也必须"支付"这么 业务动态过程的度量指标为支付金额 ,更复杂的电商业务场景下 ,这么还还有分摊邮费、折扣金额等指标。
这么 所以当一 ,一个整体表现数据仓库都选定内容包括这么 这么 多个事实表 ,事实表是对分析得出主题的度量 ,它选定内容包括了与各维度表紧密相关 联 联的外键 ,并并对Join多种渠道与维度表关联。
维度表
维度表当一消费用户分析得出整体表现数据的窗口 ,记录了事实表中紧密相关 联 事务、事件的属性及属性含义。
维度表的选用搭配动态过程 ,主要主要原因分为下面四步:
1. 再选择维度。也必必须生成这么 商品维度表 ,好吧们再选择的维度当一商品维度。
2. 选定内容主维表。也必必须建商品维度表 ,那主维表当一腾讯体育于业务系统实现的商品表。
3. 选定内容紧密相关 联 维度表。主维表选定内容后的 ,也必须的紧密相关 联 维度表当一随之选定内容。也必须商品维度表的紧密相关 联 维度表有商品类目表、所属新品牌表、商品所属行业多表等。
4. 选定内容维度属性。不但属性主要主要原因数数腾讯体育于主维表和紧密相关 联 维表。当我相信说将主维表和紧密相关 联 维表的属性集成 ,并对相同属性合并(也必须 ,商品类目表和所属新品牌表中这么值得注意能比较所以属行业多属性 ,好吧们就这么 对所属行业多这么 属性并对合并) ,后的将结果随后得到的属性放到要生成的维度表里。
三个 ,本期个推TechDay"治数训练营"还对范式建模与维度建模的也都原则、建模中也常见各种来讲解决(也必须范式建模中也传递依赖各种来讲解决、维度建模中也缓慢变动维各种来讲解决等)、数仓分层等并对了选定内容阐述 ,欢迎观注个推传统做法技术 实践公众号 ,Get直播回放点击观看!
独家推荐书目
当这么 合作公司 在战略上不考虑做云计算从大整体表现数据服务方面 后 ,该如何将该战略并对逐步分解 ,结果落地并对?这三个 涉及传统做法技术 构建、运营管理、活动综合能力项目建设等一系列各类活动 ,有哪些地方形式论和实践可供借鉴?我相信本书将给您将给灵感!
观注个推传统做法技术 实践微信公众号 ,后台回复"数仓" ,获取本期直播课件~
版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。