《数据治理标准化体系建设方案.pptx》由会员分享,可在线阅读,更多相关《数据治理标准化体系建设方案.pptx(27页珍藏版)》请在悟道方案网上搜索。
1、数据治理标准化体系建设方案,01,数据集成管理,数据集成管理_数据处理过程,数据初始化导入,日常数据同步,ODS,业务系统,数据加载,数据抽取,数据加载,数据处理,结构化数据,数据仓库,第一步:梳理各个数据源,对相关业务数据进行采集,第二步:将业务相关数据进行数据抽取、加载,第三步:对不同类别的数据进行存储,非结构化数据存储在HDFS中,结构化数据存储在新数据仓库中,集成处理过程支持: 批处理 微批处理(将批处理的数据分为多个批次,分批小量进行处理) 实时处理(针对Kafka/MQ等数据源),数据集成管理_数据处理过程,原始数据,半成品数据,成品数据,数据集成管理功能封装,基于元数据驱动的数据
2、生产,保证元数据与实际系统一致,通过集成管理提供对外的数据服务,单表服务,组合服务,多表关联,服务测试,数据集成管理_数据集成功能,集成数据,建立内部源数据到目标数据源的各种连接,建立外部源数据与内部目标数据源的各种连接,图形化作业设计,图形化作业管理,自动化作业调度、监控、执行,数据集成,建立各数据源间连接 设计管理作业 调度执行作业,运维管理,作业运行监控 作业出错报警 机器负载监控,支持大数据,预装大数据环境 数据处理,数据 集成 管理 功能,02,数据探索稽查,数据探索稽查(剖析)_稽查过程,数据标准,业务标准,技术标准,其他标准,标准稽查,加工,分发,符合标准数据,不符合标准数据,不
3、同主题库、业务库,数据来源,将问题报告给相应数据负责部门,督促整改问题,将数据标准转换为技术规则,对数据进行定期稽查,督促数据负责人整改数据,及时掌握数据的情况,数据探索稽查_稽查功能,整体统计,概况认知 通用探查需求,细节探索,深入分析 多维度统计,关联分析,数据依赖分析 全面数据诊断,数 据 探 查,建立数据库全文索引,Schema概况统计,表概况统计,主外键关联探索,敏感数据探索,基本分析,结构分析,频率分析,分布统计,函数依赖探索,字典规则探索,智能探索,人工探索,质量评估,数据探索稽查报告,数据源,数据探索稽查(剖析)_稽查场景,场景举例说明: 质量监管员对数据进行基本的探索,以了解
4、数据的基本内容、结构、分布等信息,Step2:定义列分析 任务,Step3:查看分析报告,数据质量监管员,Step1:查找数据表,对数据进行基本的统计分析,包括极值、类型、空值、频率、重复、结构等,并支持报告导出,03,数据清洗融合,数据清洗融合,数据清洗融合,数据不一致,数据重复,数据不准确,数据缺失,数据无法关联,数据没有更新,问题数据的六大问题,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 数据清洗过程会通过一系列的修复规则等来进行优化解决。,数据清洗融合_数据问题分析,也叫数据冲突、数据打架 选择不同的策略修复数据: 按更新日期
5、 按数据来源 按信息长度 按出现频率,1、数据不一致,数据清洗融合_数据问题分析,易造成数据重复,也就是数据冗余,即对异构系统或不同数据源系统间身份证、姓名读音相似,存在近形字等的相似冗余信息进行选择性处理,并导出正确信息。,2、数据重复,记录合并,基础数据,人口信息,人工选择,导出数据,针对中、英文字符、数值及不同行业领域信息提供不同算法。,数据清洗融合_数据问题分析,系统自动补全部分为空数据,如根据身份证号补充生日; 通过多表关联比对补全缺失数据。,3、数据缺失,数据清洗融合_数据问题分析,某教育局: 目前1+5政策下,学位申请审核需要比对6个职能部门的数据,但这些数据很多未能及时更新,如
6、工商执照过户后的数据。 学籍管理系统转学后的数据也没有及时更新,通过时间戳记录数据获取时间 四种策略解决数据时效性问题:,按更新日期 按数据来源 (可信数据源),按信息长度 按出现频率,4、数据没有更新,04,数据质量提升,数据质量提升_提升过程,数据质量评估报告,数据源输入,数据源输入,数据源输入,数据源输入,数据剖析,数据稽查,一般性稽查,重复性稽查,完整性稽查,数据提升,流式职能修复,重复性稽查,数据输出,服务集成管理封装,工作流平台,数据质量提升_数据标准处理,依照参考数据和行业标准进行数据标准化处理,数据管理认责,补全数据,验证数据,标准化数据,行业标准 参考数据,审核标准化,自动引
7、用参考标准 自动验证和标准化,符合规范完整的优质数据,数据质量提升_标准处理依赖规则,数据规则,数据特性,函数依赖规则,字典规则,正则表达式规则,值域规则,包含、依赖规则,局部冗余,数据的格式规律,数据的有效值,表间关系,行与行、列与列之间的关系,数据清洗融合依赖规则,SQL规则,表或表间复杂关系,依赖的六大规则:函数依赖、字典规则、正则规则、值域规则、包含规则、 SQL规则,数据质量提升_数据提升,整合标准数据,自动、及时的提升关键数据质量,融合数据,发现问题,提升关键数据,问题数据,优质数据,自动学习问题识别和数据修复规则,将各场景融入智能数据修复的流程中,匹配和融合,标准化处理,流式智能修复,交互式修复,05,数据质量管控,数据质量管控,数据所有者,数据生产者,数据管理者,数据使用者,组织管理,制度管控,技术保障,数据质量管控_组织管理,以数据质量管控为目标,从组织管理角度将数据生产者、使用者、管理者及拥有者关联起来,形成一套可持续有效执行的执行体系,保障持续的高数据质量,06,数据安全管控,数据治理解决方案_数据安全管控,用户管理 访问控制 数据保护 监控,数据库安全,应用安全,数据治理解决方案_数据安全管控,权限管理 数据视图 日志审计,数据加密 数据脱敏 安全隔断,统一认证 统一账户 统一授权,统一审计 ,谢 谢,