数据治理体系整体建设方案.pptx
数据治理体系整体建设方案,,Contents Page,目录页,2,数据治理建设价值,1,数据治理体系方案,3,数据治理成果应用,Part1 数据治理体系方案,1,数据治理概述,2,数据治理背景需求,3,数据治理建设战略,4,数据治理组织管控,5,数据治理架构设计,6,数据治理解决方案,数据治理体系方案,1、数据治理概述,数据治理概述,什么是数据治理,定义数据治理其实是一种体系,是一个关注于信息系统执行层面的体系,这一体系的目的是整合IT与业务部门的知识和意见,通过将流程、策略、标准和组织的有效组合,对企业的信息化建设进行全方位的监管,需要企业高层的授权和业务部门与IT部门的密切协作。,目标保证数据的有效性、可访问性、高质量、一致性、可审计和安全性。,数据治理概述,数据治理体系的建立是促进企业数据管理体系建设和执行体系落地的有力支撑平台,将分散、多样化的核心数据等通过标准化、质量探查、清洗、集成及监控等技术手段进行优化,形成企业内的数据治理体系,并结合企业组织结构,形成数据管控执行体系,在企业内部持续运行,提升、挖掘主数据的应用价值。 解决企业内部如下的数据管控问题 数据 分散 且 多样化 问题。 隐蔽性 的数据质量问题。 遇到问题,数据生产者和管理者互相推脱责任 的问题。 数据 质量低下,利用率低 的问题。 数据管理 落实不利 的问题。 数据使用者 决策依据不准确 的问题。,,数据治理概述,食材选购,食材处理,厨师烹饪,,,数据采集,数据治理过程,数据整合汇总 组织管理体系,一道 美味佳肴,数据治理成果展现,数据治理体系方案,2、数据治理背景需求,数据治理背景需求_大数据数据角度,大数据的6V难题,数据治理背景需求_数据质量角度,有量无质很多大数据产品只关注了数据量和速度,,,数量 管理,质量 管理,大数据,大数据 数量 质量,But,市场上的大部分数据管理系统自动化低、不支持大数据,垃圾进、垃圾出 无论数据量多大,多快,数据治理背景需求_数据分析角度,机构、部门的数据分析就像是盲人摸象虽然象就在那,但没人知道象是什么样的,割裂、失配的数据分析只见树木,不见森林,数据治理体系方案,3、数据治理战略,数据治理战略,企业信息系统的血液,就像汽车的汽油,糟糕的油质,将导致汽车的抛锚,企业数据的重要性,就像身体内流动的血液,血液坏掉,人类将会如何,数据,,数据治理战略,CEO,CFO,CIO,COO,Data Analyst,CMO,“我收到了很多相互矛盾的报告,我们对这些报告的讨论变成了哪个是正确的,而不是怎么去根据报告做决策” 原因 数据不一致,“分析师的时间主要花在数据收集上,而不是在分析上” 原因 数据质量差,需要进行大量的收集和清洗工作,“进行运营管理时主要是靠感觉,搜集到的数据不敢肯定是否还有效” 原因 数据时效性不明确,“我在做市场关键决策时总是对我们的数据信心不足” 原因数据不准确、不精确,“找到系统完全全面的信息来做决策太难了” 原因 数据完整性存在问题,“我总是会收到很多份一样的业绩报表,不能快速分析数据,来支撑各种工作” 原因数据重复,在利用数据之前需要做大量清洗和确认工作,数据信息消费者困惑,数据治理战略,,问 题 领 域,业 务,IT,问题类型,操 作 层 面,规 划 层 面,信息管理和数据流方面的知识有限,团队孤立的工作,数据相关的工具不足,对于数据质量没有一致的观点,被动的处理数据质量问题,数据输入没有控制,将”遵从”要求当成”推荐“,缺乏数据责任人制度,数据质量问题没有人承担责任,没有数据生命周期相关的管理系统,数据质量没有ROI分析,数据方面的技能储备资源不足,没有统一的方法论,数据治理战略,通过数据资源治理提升促进数据的业务价值水平,数据资源治理水平,数据业务价值水平,数据帮助业务运作,数据管理业务,数据称为战略资产,数据促进创新,数据保障企业脱颖而出,1,2,3,4,5,关注数据变化和报表,初级数据治理交互,数据治理与业务需求相整合,基于优质数据的创新,优质海量数据随需而变,,数据治理水平提升,数据的灵活运用,数据治理体系方案,4、数据治理组织结构,数据治理组织结构,,数据生产者 数据生产 数据质量初审 数据质量绩效执行,组织架构,数据使用者 数据使用 数据统计分析 数据质量绩效执行,数据拥有者 数据owner 数据挖掘 数据质量绩效评估,数据管理者 数据管理 数据安全保护 数据质量绩效执行,,数据治理组织结构,决策层,管理层,执行层,数据负责人,数据负责人,,,,职 能,制定审核企业信息管理策略 确定数据治理的重要决策,发布重要标准和规范 指导企业信息整合,负责起草数据治理相关的规划、计划和方案 负责组织实施数据治理的有关具体工作 协调数据治理的工作进度 制定数据治理考核方案,负责日常具体工作 组织、参与、推动数据修正工作 执行数据治理的考核工作 参与数据应用及其他业务系统的设计和开发工作,对主体域内的数据质量、规范、标准全权负责 对录入系统的数据进行质量检查和纠错 强化业务人员对数据治理和数据质量的培训和管理,主 要 职 责,数据治理体系方案,5、数据治理架构设计,数据治理架构设计_逻辑架构,,,数据源,数据治理平台,数据应用,,数据查询,,,软硬件基础设施、网络环境,HDFS,RMDBS 数据,本地 文件,Kafka,MQ,,数据集成管理,数据读取,数据探索稽查,分批读取,数据读取流执行,数据范围分析,数据评估,质量探查,数据清洗融合,数据关联,数据比对,数据修复,数据质量提升,数据标准管理,数据对象管理,数据来源管理,数据提升,消息读取,数据剖析,元数据管理,数据质量管控,规则监测管控,监测与告警,处理流程管控,人工处理,,ODS,Data Warehouse,数据写入,数据写入,,,数据写入,,数据安全管理,数据标准管理,,,数据开放,数据治理成果展示,业务专题分析,权限管理,买 菜,择 菜,洗菜 切菜,炒 菜,品鉴 摆盘,数据治理解决方案,,数据集成管理,,数据探索稽查,,数据清洗融合,,数据质量提升,,数据质量管控,,数据安全管控,,目 标,数据治理解决方案,产生,修改,组织,使用,发现,提升,归档,数据全生命周期管理,数据清洗融合,解决数据如何清洗和整合的问题,数据质量提升,发现数据问题 解决质量问题,数据标准管理,解决全生命周期数据标准化的问题,数据规划管理,解决全生命周期数据认责的问题,历史数据管理,解决历史数据处理、 存储和访问的问题,数据采集,解决数据来源及如何获取的问题,数据治理解决方案,01,数据集成管理,数据集成管理_数据处理过程,,数据初始化导入,,,日常数据同步,,ODS,业务系统,数据加载,数据抽取,,数据加载,,数据处理,结构化数据,数据仓库,第一步梳理各个数据源,对相关业务数据进行采集,第二步将业务相关数据进行数据抽取、加载,第三步对不同类别的数据进行存储,非结构化数据存储在HDFS中,结构化数据存储在新数据仓库中,,集成处理过程支持 批处理 微批处理将批处理的数据分为多个批次,分批小量进行处理 实时处理针对Kafka/MQ等数据源,数据集成管理_数据处理过程,原始数据,半成品数据,成品数据,数据集成管理功能封装,基于元数据驱动的数据生产,保证元数据与实际系统一致,通过集成管理提供对外的数据服务,单表服务,组合服务,多表关联,服务测试,,数据集成管理_数据集成功能,集成数据,建立内部源数据到目标数据源的各种连接,,建立外部源数据与内部目标数据源的各种连接,图形化作业设计,,图形化作业管理,自动化作业调度、监控、执行,,数据集成,建立各数据源间连接 设计管理作业 调度执行作业,运维管理,作业运行监控 作业出错报警 机器负载监控,支持大数据,预装大数据环境 数据处理,数据 集成 管理 功能,,数据治理解决方案,02,数据探索稽查,数据探索稽查剖析_稽查过程,,数据标准,业务标准,技术标准,其他标准,标准稽查,加工,分发,,,,符合标准数据,不符合标准数据,不同主题库、业务库,数据来源,将问题报告给相应数据负责部门,督促整改问题,将数据标准转换为技术规则,对数据进行定期稽查,督促数据负责人整改数据,及时掌握数据的情况,数据探索稽查_稽查功能,整体统计,概况认知 通用探查需求,细节探索,深入分析 多维度统计,关联分析,数据依赖分析 全面数据诊断,数 据 探 查,建立数据库全文索引,,Schema概况统计,表概况统计,主外键关联探索,,敏感数据探索,基本分析,结构分析,频率分析,,分布统计,函数依赖探索,字典规则探索,智能探索,人工探索,质量评估,数据探索稽查报告,数据源,数据探索稽查剖析_稽查场景,场景举例说明 质量监管员对数据进行基本的探索,以了解数据的基本内容、结构、分布等信息,Step2定义列分析 任务,Step3查看分析报告,,数据质量监管员,,Step1查找数据表,,对数据进行基本的统计分析,包括极值、类型、空值、频率、重复、结构等,并支持报告导出,数据治理解决方案,03,数据清洗融合,数据清洗融合,,,,,,,数据清洗融合,数据不一致,数据重复,数据不准确,数据缺失,数据无法关联,数据没有更新,问题数据的六大问题,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 数据清洗过程会通过一系列的修复规则等来进行优化解决。,数据清洗融合_数据问题分析,也叫数据冲突、数据打架 选择不同的策略修复数据 按更新日期 按数据来源 按信息长度 按出现频率,1、数据不一致,数据清洗融合_数据问题分析,易造成数据重复,也就是数据冗余,即对异构系统或不同数据源系统间身份证、姓名读音相似,存在近形字等的相似冗余信息进行选择性处理,并导出正确信息。,2、数据重复,记录合并,基础数据,人口信息,人工选择,导出数据,,针对中、英文字符、数值及不同行业领域信息提供不同算法。,数据清洗融合_数据问题分析,系统自动补全部分为空数据,如根据身份证号补充生日; 通过多表关联比对补全缺失数据。,3、数据缺失,数据清洗融合_数据问题分析,某教育局 目前15政策下,学位申请审核需要比对6个职能部门的数据,但这些数据很多未能及时更新,如工商执照过户后的数据。 学籍管理系统转学后的数据也没有及时更新,通过时间戳记录数据获取时间 四种策略解决数据时效性问题,按更新日期 按数据来源 (可信数据源),按信息长度 按出现频率,4、数据没有更新,数据治理解决方案,04,数据质量提升,数据质量提升_提升过程,数据质量评估报告,数据源输入,数据源输入,数据源输入,数据源输入,,数据剖析,,数据稽查,一般性稽查,重复性稽查,完整性稽查,,,数据提升,流式职能修复,重复性稽查,,,,,,,数据输出,服务集成管理封装,工作流平台,数据质量提升_数据标准处理,依照参考数据和行业标准进行数据标准化处理,,数据管理认责,补全数据,验证数据,标准化数据,行业标准 参考数据,,审核标准化,自动引用参考标准 自动验证和标准化,符合规范完整的优质数据,数据质量提升_标准处理依赖规则,,数据规则,数据特性,,,,,函数依赖规则,字典规则,正则表达式规则,值域规则,包含、依赖规则,,局部冗余,数据的格式规律,数据的有效值,表间关系,行与行、列与列之间的关系,数据清洗融合依赖规则,,,,,,,SQL规则,,表或表间复杂关系,,依赖的六大规则函数依赖、字典规则、正则规则、值域规则、包含规则、 SQL规则,数据质量提升_数据提升,整合标准数据,自动、及时的提升关键数据质量,融合数据,发现问题,提升关键数据,问题数据,优质数据,,自动学习问题识别和数据修复规则,将各场景融入智能数据修复的流程中,,匹配和融合,,标准化处理,,流式智能修复,,交互式修复,,数据治理解决方案,05,数据质量管控,数据质量管控,,数据所有者,数据生产者,数据管理者,数据使用者,组织管理,,,,制度管控,技术保障,数据质量管控_组织管理,,以数据质量管控为目标,从组织管理角度将数据生产者、使用者、管理者及拥有者关联起来,形成一套可持续有效执行的执行体系,保障持续的高数据质量,数据治理解决方案,04,数据安全管控,数据治理解决方案_数据安全管控,,,,,,用户管理 访问控制 数据保护 监控,,数据库安全,,应用安全,数据治理解决方案_数据安全管控,权限管理 数据视图 日志审计,数据加密 数据脱敏 安全隔断,,统一认证 统一账户 统一授权,统一审计 ,数据治理建设价值,Part 2,为企业更“懂”自己的消费者奠定数据基石 实现企业数据资产的沉淀 打造数据驱动业务的能力 助力企业构建以用户为中心的数据运营体系,谢 谢,