基于Hadoop+Mpp架构大数据综合服务中心平台.pdf
《基于Hadoop+Mpp架构大数据综合服务中心平台.pdf》由会员分享,可在线阅读,更多相关《基于Hadoop+Mpp架构大数据综合服务中心平台.pdf(29页珍藏版)》请在悟道方案网上搜索。
1、基于Hadoop+Mpp架构大数据中心综合服务平台平台架构 1 平台治理 2 平台应用 3 Centent 目 录 平台架构 1 1 平台架构 医疗数据实践中的共性问题 历史的采购/合同及行为变化 市场信息 与主动性 华为毛利率数据 业务战略的理解 销售什么?卖什么? 如何参与?如何赢得? 资源 / 时间投资? 当前系统视图 客户相关 活动 华为相关 活动 客户资源视图 客户&领域 战略规划 ODMT 审视委员会 区域客户 营销计划 华为Offering 客户&市场细分 工具及跟踪/ 资质评分 价值主张 客户需求 客户价值贡献模型 1 2 3 4 数据分散 在各个业
2、务系统中,每个系统承建厂商不同,标准不同,难以关联分析 数据来源 多样 , 难以综合利用随访数据、可穿戴设备数据、环境数据等 非结构化数据 难以利用,难以量化分析疾病规律、治疗方案优劣 数据不完整 ,各种字段存在缺失 数据质量 缺乏控制, 缺乏有效的数据治 理 手段 传统架构数据存储量有限 ,海量数据资产难以有效管理 缺乏统一规划 , 每个业务科室随时找信息中心要数据,数据重复利用率低 数据存储的格式有限 难共享 难利用 难管理 没价值 缺少数据建模和分析手段 ,大量数据存在,但无法产生价值 缺少数据分析的专业团队 及经验,专业人才匮乏,多学科融合难度大 1 平台架构 医疗数据中心的启动条件和
3、迫切性 医院信息化管控到位 医院标准化工作推进顺利 领导的大力支持 信息化工作的认可 各家业务系统厂商的沟通 信息化团队初步到位 硬件网络的购买搭建 各部门对数据应用的要求 信息标准化工作的迫切需要 医院信息化建设烟囱式发展带来的风险 各系统对互联互通的要求 院领导对数据运营管理的需要 满足医生科研数据的需要 医疗数据分析挖掘预测的需要 1 平台架构 三大服务、二十大建设目标 Page6 服务临床 服务管理 患者 360视图 数据监管 电子病历浏览器 多维度检索系统 治疗、用药评价 数据治理 服务器链接 服务科研 临床数据中心( CDR) 运营数据中心( ODR) 科研 数据中心( RDR)
4、科研检索分析系统 大数据洞察 基础平台 标准平台 临床数据中心库 数据接口与访问 服务 数据集成服务 主数据管理 (MDM) 患者主索引服务 知识库 专病 CDR个性化定制 专病 CDR通用版 1 平台架构 Hadoop+MPP融合架构 Hadoop MPP 分布式数据库 MPP分布式数据库: Shared Nothing、并行计算、集群横向扩展、列存储、自适应压缩、智能索引、数据一致性、 ASNI SQL、高可靠(备份组) Hadoop分布式计算: NoSQL对半结构化数据自适应扩展、 HDFS非结构化数据分布式存储、 Solr/ES全文检索、MR/Spark分布式计算、 Stream流式处
5、理、机器学习 高价值密度数据 结构化数据 低价值密度数据 大数据应用 结构化数据 非结构化数据 半结构化 /非结构化数据 大数据应用 1 平台架构 Hadoop+MPP融合架构 先进性 MPP数据库 Hadoop Hadoop+Mpp 应用场景: 大数据量的结构化数据复杂关联查询,多维分析、统计分析、数据仓库,高实时性场景。 优势 复杂关联查询,支持存储过程,准实时即席查询等结构化数据的运算。 产品稳定成熟,高可靠性。 劣势 处理半 /非结构化数据问题较大。 无法借力开源生态系统,场景局限性大。 应用场景: 数据采集类分析、日志分析、流处理、机器学习、海量数据离线批处理、图片、音视频等非结构化
6、数据的存储。 优势 适合处理半 /非结构化数据,机器学习; 强大的开源生态圈,百花齐放; 劣势 存储过程是 Hadoop硬伤。 90%的电信,金融等高端数据库应用都使用存储过程。已有分析应用迁移困难; 开发复杂度高,对开发人员要求高; Hadoop+MPP混搭配合能适合用户所有场景,且性能优秀。 1 平台架构 极速 -性能卓越 复杂关联查询, MPP比传统数据库快 10倍 到300倍 复杂关联 查询慢 传统数据库 MPP 序号 测试场景 Orcale性能 (秒 ) MPP性能 (秒 ) 1 同住宿 823.18 2.14 3 同上网 58.21 2.84 4 同机构 28.17 2.84 5
7、安全审计登录日志查询 119.35 0.50 6 安全审计接口服务日志 查询 401.09 1.50 真实测试(以高血压联合用药及主述复杂关联查询场景 +MPP) 1 平台架构 数据清洗 难点 进度 亮点 3 2 1 数据清洗过程 0 1 2 3 标准不统一: 字典表以及编码体系不标准统一,一套字典表多个系统维护,缺乏关联关系 厂商众多 :系统间通信交互缺乏有效的约束和规则标准 数据不规范: 加载过程中含有不符合要求的数据,主要由不完整的数据、错误的数据、重复的数据三大类组成 数据格式不统一: 格式内容错误比如时间、日期、数值、全半角等显示格式不一致 关联性验证困难 :如果多个数据源就要进行关
8、联性验证 ,比如要如何追踪一个病人的化验单是来自那次就诊的那个医生开的医嘱 经过清洗后形成统一规范的标准数据仓库 整个数据在业务流程上形成了一个闭环 建立 标准化 编码体系和标准规范 提供高质量的数据 格式内容错误 关联性验证 重复错误的数据 新增数据源 (分级医院,物联网, APP)的清洗 字典表以及标准编码体系的建设 业务系统编码和标准编码之间的对应关系 后续补充 1 平台架构 数据清洗 数据质量的管控 对问题数据导出: a、数据重复 b、属性值错误 c、数据不一致 格式处理 、统一编码 字段取舍和上下文处理 数据校验和稽核 分析数据源 理解业务规则 数据质量分析 通过 ETL过 程进行数
9、据 整合 数据分析和业务逻辑理解 错误数据反馈回业务系统 业务系统数据问题整改 1 平台架构 数据整合 数据和信息系统分散 , 应用系统众多 , 并积累了大量的基础数据 数据类型众多: 时期 、 部门、 设备 、 技术 、 能力等不同类型的数据 数据接口五花八门: 大量的数据不能提供一个统一的数据接口 , 不能采用一种通用的标准和规范 , 无法获得共享通用的数据源 手工录入数据以及第三方数据进入问题 难点 做法进程 前期 :初步完成了以临床为中心的数据集中( HIS,LIS,RIS,EMR,手麻)的整合汇聚 中期 :完成全院级别的整合汇聚整合完成非结构化数据的整合 第三期:解析完成院外 , 物



- 温馨提示:
建议用WPS软件(.pptx、.docx)打开文档,少量文档使用Microsoft(.ppt、.doc)打开易出错。
- 配套讲稿:
如PPT文件的首页显示word图标打开文档,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Hadoop Mpp 架构 数据 综合 服务中心 平台
