水务数据治理平台建设方案.pptx
水务数据治理平台建设方案,,目录,数据治理需求概述 数据治理方案介绍,,,数据治理需求概述,1,水务集团数据现状,水务集团数据问题,,业务系统越来越多,各系统烟囱式建设,大数据时代挑战,,,,管网监测,ERP,水质监测,客服,供水调度,,应用维护,其他资源,中间件,数据库,操作系统,主机,存储备份,网络安全,开发商,,应用维护,其他资源,中间件,数据库,操作系统,主机,存储备份,网络安全,开发商,,应用维护,其他资源,中间件,数据库,操作系统,主机,存储备份,网络安全,开发商,企业数据资产化挑战缺少全局规划和统一标准,导致数据资产化核心能力丧失,信息孤岛孤岛现象突出,业务系统“各自为战”数据分散,且数据已业务为导向 标准不统一未制定统一的数据标准,各系统业务口径和技术定义差距较大 数据质量低各系统数据良莠不齐、质量低数据格式不统一 存储复杂度高不同数据的混合存储,数据分析复杂度提升 数据处理能力差大量半结构化数据和非结构数据未保留处理 数据共享难未建立数据全局数据共享机制,实现数据互联互通,数据治理的需求,将分散、多样化的核心数据等通过标准化、质量探查、清洗、集成及监控等技术手段进行优化,形成水务集团内的数据治理体系,并结合企业组织结构,形成数据管控执行体系,在内部持续运行,提升、挖掘主数据的应用价值。 解决水务集团内部如下的数据管控问题 数据 分散 且 多样化 问题。 隐蔽性 的数据质量问题。 数据 质量低下,利用率低 的问题。 数据管理 落实不力的问题。 数据使用者 决策依据不准确 的问题。,数据治理目标,数据治理的价值,通过数据资源治理提升促进数据的业务价值水平,数据资源治理水平,数据业务价值水平,数据帮助业务运作,数据管理业务,数据称为战略资产,数据促进创新,数据保障企业脱颖而出,1,2,3,4,5,关注数据变化和报表,初级数据治理交互,数据治理与业务需求相整合,基于优质数据的创新,优质海量数据随需而变,,数据治理水平提升,数据的灵活运用,,,数据治理方案介绍,2,整体架构 数据生命周期管理 数据标准管理 主数据管理 数据质量管理 元数据管理 数据仓库建设方案,总体架构设计,,,数据源,数据治理平台,数据应用,,数据查询,,,软硬件基础设施、网络环境,HDFS,RMDBS 数据,本地 文件,Kafka,,数据生命 周期管理,数据接入,数据标准,数据加工,标准制定,标准实施,主数据管理,客户数据,产品数据,数据质量稽核,稽核任务,稽核报告,数据层次管理,数据探索,元数据管理,数据全景,数据血缘,,ODS,Data Warehouse,数据写入,数据写入,,,数据写入,,数据安全管理,数据标准管理,,,数据开放,数据交换,数据接口,数据生命周期管理,数据采集,,全量初始化导入,,,增量数据同步,,第一步梳理各个数据源,对用户所有数据采集,第二步,设计建立存储数据模型,将数据与模型映射起来,用户结构化数据整合,数据加载,数据转换,调度监控,第三步,将模型与数据存储到系统中,定时运行监控,,HDFS,数据抽取,用户非结构化、历史数据整合,Hbase,,ODS,多源异构数据接入,异构数据存储设计,数据加工,基于可视化开发界面、离线任务调度运维、快速数据集成、多人协同工作、版本管理等功能,为开发者提供一个高效、安全的数据开发环境。,海量数据加工计算,,存储资源层,资源管理器YARN,计算引擎,批处理 MapReduce,流计算 Spark Streaming,搜索引擎 Elasticsearch,机器学习 Spark MLlib,访问引擎,HDFS,KHan,Hive,HBase,MongoDB,资源管理,图计算 KHan,Hive SQL,类SQL,R/类SQL,类SQL/API,可视化交互界面,,,,发布及版本管理,数据接入,数据模型,工作流调度,数据开发,海量数据加工计算,交互式建模,,,,,R,SQL,Sphere,专业数据分析师,数据开发工程师,业务分析师,,,数据服务 第三方应用扩展,数据API 通过数据表导出、数据文件接口、REST API三种方式对第三方应用提供数据接口,系统开发SDK 为第三方应用开发者提供标准系统SDK,包括权限、数据处理、作业提交、运行监控等,,统一应用门户 B/S架构应用可直接上线到桌面应用市场,供用户使用。,,数据服务 数据共享与交易,发布及版本管理,API创建,API发布,使用统计,服务计费,数据服务 数据共享与交易,数据标准管理,对数据建立、管理和不断完善其数据标准,实现标准和数据的闭环管理。 对数据进行多种检核规则的灵活配置,全面及时发现数据标准与实际数据差异,有效促进水务集团内部系统改进,满足客户内部与外部管理与服务的要求。,数据标准管理,依照参考数据和行业标准进行数据标准化处理,,数据管理认责,补全数据,验证数据,标准化数据,行业标准 参考数据,,审核标准化,自动引用参考标准 自动验证和标准化,符合规范完整的优质数据,全局数据标准制定与实施,数据标准管理体系,主数据管理,主数据的定义,主数据示例,主数据的特征,主数据是用来描述企业核心业务实体 的数据 具有高业务价值的、可以在企业内跨越多个业务部门被重复使用的数据 作为业务信息的基础数据存在于多个应用系统中,固定资产,产品,客户,组织机构,可以唯一识别 缓慢变化的 准确性非常重要 企业经营活动的基准数据和经营分析统计 跨部门和组织共享和重用,,主数据管理带来的价值,消除数据冗余,不同的部门都按自己的需求获取数据,造成数据重复存储,形成数据冗余。主数据可以作为唯一的数据源供不同部门调用,避免数据出现冗余,减少数据整理时间,由于各部门对数据的业务定义不一样,不同版本的数据不一致,一个核心业务主体有多个版本的信息,需要大量的时间进行数据整理和统一。通过主数据可以实现数据动态地自动整理、丰富和复制,减少人工整理数据的工作和时间,提高信息 传递效率,通过主数据的一次录入,多处引用,避免一个数据在多个系统进行重复录入,从而提高信息传递效率,主数据的特征和识别,数据质量提升,,,,,劣质数据,优质数据,评估/监控,质量改进,自动发掘数据规则,业务规则,数据规则库,数据质量引擎,查看/编辑,分析,工作,标准规则服务,标准数据服务,数据 治理,参考数据,,数据质量提升,,规则稽查,重复性稽查,服务集成,输入 数据,输出 数据,报告,标准化,融合,一致性稽查,工作流平台,,,,,数据剖析,数据质量提升,,数据的六大问题,数据质量提升,,数据规则,数据特性,,,,,函数依赖规则,字典规则,正则表达式规则,值域规则,包含依赖规则,,局部冗余,数据的格式规律,数据的有效值,表间关系,行与行、列与列之间的关系,数据治理依赖规则,,,,,,,SQL规则,,表或表间复杂关系,,六大规则函数依赖、字典规则、正则规则、值域规则、包含规则、 SQL规则,数据治理依赖规则,数据质量稽核,稽核规则多样性 稽核规则包含单表级和多表级规则。,数据质量可追溯 支持邮件、短信告警,生成稽核结果报告,帮助用户及时发现数据质量和业务异常。,稽核粒度丰富性 稽核粒度包括表级别规则和字段级别规则。,稽核任务可调度 稽核规则与工作流无缝集成,支持稽核任务定时调度。 支持阻塞与非阻塞的稽核规则任务。,,,,数据质量稽核,,数据标准,业务标准,技术标准,其他标准,标准稽查,加工,分发,,,,符合标准数据,不符合标准数据,不同主题库、业务库,数据来源,将问题报告给相应数据负责部门,督促整改问题,将数据标准转换为技术规则,对数据进行定期稽查,督促数据负责人整改数据,及时掌握数据的情况,数据质量稽核维度,概要剖析,频率,结构,值域,空值,唯一值,极值,,,,身份证,性别,数据质量稽核,数据质量管控,,数据所有者,数据生产者,数据管理者,数据使用者,组织管理,,,,制度管控,技术保障,数据质量管控_制度管控,参考,数据质量管控_技术保障,识别企业数据的优势和弱势,帮助企业确定项目计划,定义并共享可重复利用的数据质量规则和度量目标,根据已定义的规则,改进数据质量,例如数据标准化、匹配等方法,将质量改进规则集成到数据整合过程中并不断优化质量改进规则,巩固和维持数据质量,和增强使用相关对数据质量的信任,元数据管理,数据全景 项目数、存储量统计 各类指标展示,数据共享 租户间数据共享,血缘分析和影响性分析,,,,变更历史 表、脚本、工作流变更历史,健康监控 表增量统计 脚本、工作流运行时长,元数据管理,元数据检索,血缘关系,变更信息,数据安全管控,,,,,,用户管理 访问控制 数据保护 监控,,数据库安全,,应用安全,数据安全管控,权限管理 数据视图 日志审计,数据加密 数据脱敏 安全隔断,,统一认证 统一账户 统一授权,统一审计 ,水务集团数据仓库建设,一个大数据 有机体,基础数据仓库架构,,数据近源区,,,历史非 结构化库,,历史数据,非结构化数据,,,,非结构化数据,数据来源,地理信息库,生产调度库,管网信息库,基础库,,客服库,监测数据库,数据集市区,水生产,水供应,水消耗,客服,维护服务,,主题库,数据汇总区,管网数据,生产调度数据,传感器数据,其他数据,,数据缓冲区,,结构化数据,近源标准层,近源业务层,数据仓库,基础数据仓库建设_数据缓冲区,下游,上游,内部数据,外部数据,数据缓冲区,数据帖源区,非结构化数据,,,,1,2,3,与源系统的数据模型保持一致,保持原汁原味 缓冲区数据只存储一定周期 按天或按月分区,【缓冲层设计】,【数据流向策略】,通过ETL按指定周期(如周、日、月)从源系统获取增量; 数据缓冲区按照的抽取频率提供给数据帖源区; 将非结构化增量同步到非结构化数据库。,数据缓冲区作为数据中转枢纽,当下游数据处理出错时重新执行,避免重新从业务系统抽取。,基础数据仓库建设_数据近源区,下游,上游,数据缓冲区,数据集市区,,,1,2,近源当前数据与业务库数据保持T1同步。 近源历史数据在源数据基础上补充序列主键、时间拉链信息。 数据模型基本与业务库保存一致 按天或按月分区,【数据近源区设计】,【数据流向策略】,按数据ETL周期从数据缓冲区获取数据,并进行预处理。 进行简单的数据质量检查,分离出问题数据,将干净数据提供给下游使用。 将近源当前数据和近源历史数据按ETL周期归档到历史数据库。,数据近源区尽量保持业务数据原貌,保留源系统的原始和历史数据,可方便快速地支持需要按源系统数据结构进行数据加工的分析型应用。,数据整合区,数据汇总区,下游,,历史数据,3,,近源当前数据,近源 历史数据,数据近源区,基础数据仓库建设_数据整合区,下游,上游,,,1,2,基础汇总层以各主题关键信息为逻辑主键或关联,例如客户的身份证号码、姓名; 采用雪花模式和星型模式结合的方式,在规范化设计和高效性能间取得平衡; 分主题域前缀命名建表。,【数据整合区设计】,【数据流向策略】,按数据ETL周期对数据帖源区的数据进行清洗、关联、比对、加工,统一标准; 通过业务规则提取应用所需数据; 将整合区数据按ETL周期归档到历史数据库。,数据整合区集合了各业务系统数据,形成各主题库,提供了最干净、最全面、最标准的数据,存储周期一般为35年。,数据近源区,数据集市区,下游,,历史数据,3,数据整合区,人口域,管网域,生产域,调度域,消耗域,,基础数据仓库建设_数据集市区,华傲数据机密,上游,数据集市区,水生产,水消耗,水供应,,,,历史库,历史数据,1,2,3,针对业务应用服务需求定期生成相应的数据。,按业务应用的要求建立模型,【数据集市区设计】,【数据流向策略】,根据应用的要求,定时从数据近源区、数据整合区、数据汇总区提取数据; 数据集市区的数据直接面向应用; 历史库中整合的数据通过ETL提供给数据集市区使用; 将集市区数据按ETL周期归档到历史数据库。,,应用 中心,指数发布,,决策分析,,4,数据近源区,数据整合区,基础数据仓库建设_历史非结构化数据,下游,上游,数据集市区,,,1,2,历史非结构化数据,数据整合区,数据近源区,数据集市层,历史数据,非结构化,历史数据利用Hadoop大数据存储和运算能力,保存结构化历史全生命周期的数据和非结构化数据,并提供对外查询服务。,非结构化数据存放在HDFS上,提供键值对查询; 非结构化数据保存的所有演进版本,以更新时间作为版本号; 历史数据以拉链追加方式存储、按天或按月分区。,【历史非结构化数据设计】,【数据流向策略】,按数据ETL周期对各层相关数据做历史归档; 对于下游系统的查询请求,通过程序控制返回结果。,数据汇总区,数据缓冲区,数据治理为水务集团带来的价值,统一平台技术架构,降低技术复杂度,企业大数据人才培养,赋予企业大数据处理能力,提升数据资产运用能力,为数据变现打下坚实基础,减少重复建设,提高效率,提升ROI,01,02,04,03,05,06,提供有效决策支撑,为企业创收盈利提供保障,提升企业精细化运营能力,降低成本控制风险,