数据中台数据模型建设方案V2.0.doc
《数据中台数据模型建设方案V2.0.doc》由会员分享,可在线阅读,更多相关《数据中台数据模型建设方案V2.0.doc(33页珍藏版)》请在悟道方案网上搜索。
1、数据中台数据模型 建设 方案 数据中台数据模型建设方案 数据中台数据模型 建设 方案 目录 第 1章 综述 . 2 1.1 项目背景 . 2 1.2 建设目标 . 2 1.2.1 数据资产自动汇聚、一键发布 . 2 1.2.2 数据资产可视、可用、可管理 . 3 1.2.3 数据质量可控、可视、可追溯 . 4 1.3 建设思路 . 4 第 2章 建设方案 . 6 2.1 采集层 . 6 2.1.1 采集适配模块 . 6 2.1.2 数据处理适配器 . 6 2.
2、1.3 数据采集策略的定制管理 . 7 2.1.4 数据补采 . 9 2.1.5 采集调度模块 . 10 2.2 数据模型层 . 18 2.2.1 建模方法思路 . 20 2.2.2 数据模型分层架构设计 . 23 2.3 数据治理功能 . 25 2.3.1 统一数据标准管理 . 25 2.3.2 统一数据建模 . 25 2.3.2.1 统一数据加工 . 26 2.3.3 统一数据资产 . 26 2.3.4 统一数据质量管理 . 26 2.3.4.1 统一数据共享与开放 . 27 2.4 能力开放 . 27 2.4.1 数据资产开放 . 28 2.4.2 指标开放 . 28 2.4.3 数据服
3、务超市 . 28 2.5 网管迁移方案 . 28 2.5.1 BI 工具 . 29 2.5.2 话务及数据专业报表明细整理 . 32 数据中台数据模型 建设 方案 第 1章 综述 1.1 项目背景 在 20年集团网络工作部署,明确提出构建网络中台,推进业务拉通和数据共 享。打造数据业务化、业务数据化、技术通用化的网管中台架构体系。以业务与 数据治理为核心,存量系统共性能力按需解耦改造、新增能力遵循分层架构建设。 1.2 建设目标 针对本次系统接管与替换,在整体架构上考虑以中台支撑现有系统的发展, 基于智慧平 台构建的 O
4、SS数据中台, 实现数据专业整合,打通专业信息壁垒和数 据孤岛,提升数据规范化水平。实现数据集中存储和业务逻辑的数据处理,包括 按时间粒度和维度组合的数据汇总。同时数据中台中的数据可根据需要封装后直 接对上层应用开放。 1.2.1 数据资产 自动汇聚、一键发布 数据资产多手段自动汇聚 通过三种手段实现数据处理相关的接口、模型、任务、服务、指标各环节 元数据及血缘关系的自动获取,同时发布为数据资产。 血缘关系自动获取 ,自动获取数据实体间的上下游信息,字段之间转换 关系。 血缘关系登记录入: 在无法自动获取血缘关系的场景下,提供
5、血缘关系 登记录入界面,以补充完整数据血缘关系。 元数据登记录入: 支持数据实体的批量录入功能,能够满足物理实体及 其元数据信息的快速创建。 数据中台数据模型 建设 方案 数据资产一键发布 依托统一的元数据库,将开发完成的标签、指标数据一键发布到标签库、 指标库、。 标签库:展现 企业的标签数据,用于包括开发人员、业务人员、运维人员理 解系统标签库的现状,支撑其进行数据订阅使用、生命周期管理等应用。 指标库:展现企业的指标数据,用于包括开发人员、业务人员、运维人员理 解系统标签库的现状,支撑其进行数据订阅
6、使用、生命周期管理等应用。 1.2.2 数据资产可视、可用、可管理 强化元数据管理能力 将数据开发过程和元数据登记录入过程融合,实现元数据信息的自动录 入。 实现数据开发的统一管控 数据生产各环节的开发工作基于数据管理模块实现,各环境的元数据信息 自动获取,并同步给其他应用系统,确保应用系统的元数据信息 与数据管理模 块一致。 数据资产应用审批 确保数据资产安全,上层应用或用户申请数据使用时,需要通过流程审 批。 数据中台数据模型 建设 方案 数据对内开放信息完整 &
7、nbsp;提供样例数据查询,字段级统计数据查询,以方便开发人员选择所需数据 资产。 1.2.3 数据质量可控、可视、可追溯 数据标准落地 结合湖南移动网络运维与业务发展要求,梳理适合本地的数据标准,并基 于数据管理模块 完成 数据标准的 IT落地。 数据 血缘 关系 可视 通过数据生产各环节的元数据信息自动获取,形成端到端的数据血缘关 系,通过可视化手段呈现 数据血缘关系。 端到端数据质量监控 依托数据标准 与 数据血缘关系 的构建,建立数据质量稽核告警与端到端可 视化呈现机制, 质量情况可监控,可量化
8、。 1.3 建设思路 系统整体分为数据采集层、数据模型层、能力开放层及功能域。 数据采集层 :采集层采用模块化设计思想,从业务功能上分为采集适配器、 数据处理层、采集调度层、数据共享层四个层次,并通过系统自身管理模块 实现自身的业务逻辑控制和管理,通过多维监控和质量管理,实现对系统平 数据中台数据模型 建设 方案 台的实时多角度监控与数据质量管理;同时,开放标准化的外部管理接口, 以实现对外的可管理性。业务功能层面,每层只需要关心本层的数据、业务 逻辑和业务实现,层与层之间通过标 准接口进行交互,能更好地实现系统的 可扩展性。
9、 数据模型层 :结合业界规范和多年的 O数据数据建模经验,综合考虑了数据 特点、存储方式、处理效率、处理复杂度、访问效率及模型扩展性等方面, 采用了模型分层设计的思想,分为原始数据层、基础数据层、融合信息层、 应用数据层四层,实现了数据源和加工处理过程的分离,保证了数据流向清 晰,提高了数据访问效率等。 能力开放层 :主要提供发布订阅模式、异步模式、同步模式等不同模式的数 据开放共享。 数据治理功能域 :提供对数据的统一治理能力,主要包括数据标准管理、元 数据管理、数据资产管理、数据 安全管理和数据质量管理等能力。 数据中台数据模型 建设 方案 &nb
10、sp; 第 2章 建设方案 2.1 采集层 2.1.1 采集适配模块 采集适配模块实现网元直连网管接口采集和 OMC北向接口适配采集;采集适 配器层接收采集任务,实现与设备侧的接口协议适配,从设备侧获取原始数据, 进行数据采集,采集适配器的功能组成如下:协议适配、数据获取,并支持被动 接收设备侧发送的数据。采集的源数据通过适配器北向接口向上共享。 采集适配器支持实时数据、非实时数据;协议接口类型支持文件接口、数据 库接口、指令接口、 Syslog接口、 NetFlow 接口、 SNMP接口、 CORBA接口等主流 网管接口类型,同 时支持接口类型
11、的扩展。 系统提供采集适配器的注册、动态加载及注销功能,并提供采集、处理适配 器参数配置界面,以及适配器状态查看功能。并对适配器进行手工的状态变更, 比如启动、停止、重启等操作。 2.1.1.1 采集过程数据检测 能够及时检测设备侧发送过来的文件准备好消息通知或者原始数据准备情 况,数据准备好消息接收到后立即进行采集;数据始终未达到设定的完整标准, 也能把部分准备好的数据进行采集,可配合厂商侧的情况,尽最大可能完整及时 的采集数据。 2.1.2 数据处理适配器 数据处理适配器接收调度中心的数据处理命令,将采集适配器生成的数据进 行 处
12、理、关联运算,通过 ETL过程将数据录入到数据库中。 数据处理适配层接收处理任务,对数据进行解析、格式化,并根据需要进行 , 数据中台数据模型 建设 方案 风暴抑制、数据上报、 KPI 指标计算。原始数据、格式化数据、 KPI 指标均可以 推送到数据共享层,可以文件、数据库、消息等方式进行传送和保存。可以有选 择地提供告警数据过滤能力。 2.1.3 数据采集策略的定制管理 根据第三方应用,或者定制的配置、性能和告警数据的特性,采用不同的策 略利用导航方式创建采集流程,描述了在何时到何地采集什么样的数据。 以向导式根据不同业务需求创建
13、合适的采集策略。 根据性能、配置 和告警数据的特性,采用不同的策略创建流程,明确创建过 程,降低用户输入错误率。 创建策略的步骤有采集数据(数据源和数据集)、处理数据(标准化)和制 定策略。描述了在何时到何地采集什么样的数据。 数据中台数据模型 建设 方案 数据中台数据模型 建设 方案 2.1.4 数据补采 当任务执行失败后,具有对某个环节进行一定的重做能力,包括重新采集和 数据处理环节的重做;补采主要是指自动补采的能力,根据补采的规则进行任务 级别的补采。 数据中
14、台数据模型 建设 方案 2.1.5 采集调度模块 采集调度模块实现对各类采集任务的统一调度管理; ( 1)根据策略,生成相应的任务,进行分发。 ( 2)接收适配器发送来的采 集任务执行情况查看请求,如:采集节点的内 存、 CPU、磁盘占用率,采集节点当前正在运行任务的情况。 ( 3)接收自动补采模块发送的任务信息,然后对该任务进行分发。 ( 4)任务的重做或补采 : 当任务执行失败后,具有对某个环节进行一定的 重做能力,包括重新采集和数据处理环节的重做;补采主要是指自动补采的能力, 根据补采的规则进行任务级别
15、的补采。 ( 5)通过消息通道,发送任务消息到采集适配器。 ( 6)负载均衡策略,保持各采集适配器负荷基本均衡,进行动态的负载分 担,可以参考采集适配器硬件配置、 CPU占用率、内存总量、内存占 用率和采集 机空闲线程数、任务负载权重等信息。 ( 7)在采集适配器出现异常后,能够把未执行完成的任务重新执行。 ( 8)容灾能力:包括三种级别的容灾,即任务、适配器实例和调度中心容 灾。任务级别的容灾是指当适配器实例宕机时,该适配器实例中的任务可以切换 到其他适配器实例中执行;适配器实例级别的容灾是指当一个适配器实例宕机 时,该适配器的其他实例可以接管
16、任务的执行;调度中心级别的容灾是指一个调 度中心服务宕机后,其他调度中心服务可接管调度工作。 数据中台数据模型 建设 方案 2.1.5.1 采集策略接收 接收从数据共享层下发的策略信息,并把这些策略信息保存。这里的策 略是 指:采集的任务,该去哪个范围去采集,用什么频率去采集等。 采集目标网元资源与综合资源数据信息相关联,能够自动识别、同步网元信 息,并能自动化完成采集关联动作。 2.1.5.2 任务生成 根据策略数据生成任务,任务中包含采集源标识、指标组列表、采集的起始 时间、结束时间、网元信息、任务唯一标识。具有任务
17、启停功能,即对已经停止 或需要启动的采集任务,在界面上单击启动按钮,启动采集任务,对已经在运行 的采集任务单击停止按钮,停止采集任务。 2.1.5.3 任务分发 接收任务生成模块生成的任务,进行分发。接收状态监控模块发送来的采集 任务执行情况查看请 求,如:采集节点的内存、 CPU、磁盘占用率,采集节点当 前正在运行任务的情况。接收自动补采模块发送的任务信息,然后对该任务进行 分发;通过消息通道,发送任务消息到采集适配器。 任务分发能够判断系统是否支持分布式软件部署,并能够依据各采集节点的 负荷忙闲情况每次总是优先选择负荷最低的采集节点下发采集任务,以实现计
18、算 资源的负荷分担。 ( 1)接收任务生成模块生成的任务,进行分发。 ( 2)接收适配器发送来的采集任务执行情况查看请求,如:采集节点的内 存、 CPU、磁盘占用率,采集节点当前正在运行任务的情况。 ( 3)接收自动补 采模块发送的任务信息,然后对该任务进行分发。 ( 4)通过消息通道,发送任务消息到采集适配器。 ( 5)负载均衡策略,保持各采集适配器负荷基本均衡,进行动态的负载分 数据中台数据模型 建设 方案 担,可以参考采集适配器硬件配置、 cpu占用率、内存总量、内存占用率和采集 机空闲线程数、任务负载权重等信息。
19、 ( 6)在采集适配器出现异常后,能够把未执行完成的任务重新执行。 下图描述了性能、配置和告警数据采集的整体调度过程,分为两个阶段:消 息触发和任务运行。 该架构包含了同步和异步的采集机制,异步方式的分离,有利于采集过程的 统一。 具备负载均衡调度 能力。可以通过采集机资源空闲优先等(根据排队任务数、 CP负荷、内存占用率、 IO等)策略选择合适的适配器实例完成数据的采集。 统一采集系统采用负载均衡管理实现采集节点的扩展和任务的均衡分配,但 当单个或多个采集节点由于突发原因出现高负荷时,按照正常的动态分配和扩展 机制会造成高负荷节点
20、向其他采集节点波及,影响其它正常采集节点,进而导致 整个采集层效率下降,请详细描述该问题的解决方法。 数据中台数据模型 建设 方案 系统采用分布式云部署,调度也是云调度。在负载均衡过程中,系统采用最 优适配器算法,即根据采集机负荷的评估动态选择合适的适配器实例,可以 有效 的利用分布式资源,从而高效的进行任务调度,确保采集任务的及时、高效。 调度中心与适配器方便的进行热插拔式的升级扩容。 新增的调度中心可即时分担调度工作,升级则可以将原来的重启,可实现 24小时运行服务。 新增的适配器实例可即时分担采集工作,升级则可以将原来的重
21、启,可实现 24小时运行服务。 数据中台数据模型 建设 方案 此两者容灾的能力将使整套架构均能达到每一层的扩容能力,即任何一层中 的服务都可以随时增加,而不会对系统运行造成致命的影响。 系统支持采集任务迁移功能,迁移 1000 个任务所需时间: 0.1 秒 左右。 2.1.5.4 自动补采 接收状 态监控模块发送的采集任务执行情况,自动判断数据是否完整,在数 据不完整情况下根据设定的补采策略,重新生成采集任务,发送这些任务给任务 分发模块,重新采集数据。补采策略中包含某采集源的指标组在不完整情况补采 次数、补采时机等信息
22、。补采的机制要支持周期补采、自定义补采或幂指数补采, 同时支持手工进行补采。 当任务执行失败后,具有对某个环节进行一定的重做能力,包括重新采集和 数据处理环节的重做;补采主要是指自动补采的能力,根据补采的规则进行任务 级别的补采。 数据中台数据模型 建设 方案 当统一采集系统与单个或多个采集源中断,造成一定数量的采集数据 积压 时, 以告警采集为例,当出现采集源中断情况时,往往经过自动补采,过段时间 会自动重连上采集源,但是由于告警量比较大,会造成短时间的告警数据大量过 来,首先采集适配器与处理适配器是分布式部署的,各自的环境并不互相依赖,
- 温馨提示:
建议用WPS软件(.pptx、.docx)打开文档,少量文档使用Microsoft(.ppt、.doc)打开易出错。
- 配套讲稿:
如PPT文件的首页显示word图标打开文档,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 数据模型 建设 方案 v2
