数据规划大数据平台解决方案规划方案.pptx
数据规划 :大数据平台解决方案规划议题第 2页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案 大数据平台概述第 3页大数据平台主要通过集成中国联通内部运营支撑系统和外部数据,包括交易型大数据(Big Transaction Data)和交互型大数据( Big Interaction Data) , 通过多种云计算的技术将之集成和处理,向中国联通内部和外部企业客户提供有极大商业价值的信息支撑和智能解决方案。大数据服务能够在哪些方面为企业客户提供价值?第 4页营销精准广告实时营销效果评估优化客户服务客户需求洞察客户满意度管理客户忠诚度管理渠道渠道选址渠道业绩管理客户接触管理合作渠道欺诈监测风险控制物流其它物流监控物流优化物流预测关键点监控预警绩效监控使整个企业进入大数据智能时代大数据 服务面向的三类企业客户第 5页Data Warehouse as a ServiceStep 2Step 3 面向起步型企业,数据规模较小,并且难以负担建设分析型系统的投入成本,没有深入的分析需求,手工即可分析。随着企业成长可以使用更高级的服务面向成熟一些的中小型企业,数据规模中等,单独建设系统加上管理系统维护团队以及购买分析软件的单位用户成本较高,有分析需求和分析人员Analytics as a ServiceIntelligenceas a Service面向中型企业,管理上走向成熟,数据规模中等,除了有较深入的分析需求外,还有对行业深度了解和预测的需求大数据平台的三种服务交付方式第 6页大数据服务Data Warehouse as a ServiceAnalytics as a ServiceIntelligence as a ServiceData Warehouse as a Service数据仓储即服务第 7页为企业提供数据仓库 SaaS服务,帮助企业将数据进行清洗 、校验和梳理, 为企业提供适合的数据存储和数据库解决方案,以及提供数据访问接口和数据安全管理等, 为 企业 的分析型应用提供支撑基础设施以服务的方式提供企业分析型系统构建所需 的硬件,包括服务器、存储、网络设备等数据仓库解决方案根据企业的数据类型和应用方向选择合适的数据存储解决方案,包括数据库等实施服务同时提供数据仓库实施服务,解决中小企业缺乏数据仓库领域的专门人才及维护这样一个团队 的高成本问题Data Warehouse as a Service的服务交付方式第 8页多类型数据集成大数据存储数据访问接口管理 大数据的 “多类型数据集成 ”模块将企业的业务数据从企业的 IT系统中抽取出来,经过清洗、规整、校验等环节,以及根据需要进行初步的汇总,进入大数据存储; 根据数据类型和处理需求,选择合适的存储方案,包括RDBMS, Hadoop等; 大数据存储中的数据通过访问接口提供给企业的 IT部门,供企业多种使用方式;企业的业务系统IT人员通过接口使用数据Analytics as a Service分析平台即服务第 9页为企业 提供分析平台 SaaS服务 ,基于企业托管的数据仓库提供报表、及多种分析工具,包括即席分析、数据挖掘、垂直解决方案等,帮助企业实现基于大数据的智能决策和智能管理等。报表以服务的方式提供企业所需的 KPI及反映企业各方面运营状况的的指标和报表,图形化展现和多种访问方式分析工具提供企业所需的即席分析和数据挖掘等分析工具,使企业能够灵活的对业务进行分析垂直解决方案提供一些典型的垂直解决方案,如客户统一视图,精准营销等,针对企业典型的业务场景提供解决方案Analytics as a Service的服务交付方式第 10页多类型数据集成大数据存储大数据分析平台企业的业务系统管理人员和 业务分析人员通过portal使用分析平台报表 分析工具 垂直解决 方案 在企业基于大数据平台建设的数据仓库的基础上,提供KPI&Dashboard,报表工具,分析工具,以及行业垂直解决方案; 提供企业的分析解决方案结合企业的实际需求进行的解决方案实施服务; 企业的管理人员、业务分析人员等可以通过 web、手机或其它移动设备访问大数据平台的门户,以便随时了解企业的关键指标和进行深度业务分析;Intelligence as a Service 智能即服务第 11页基于中国联通具有的大数据资源,经过去隐私化,为企业 提供行业解决方案和市场及其它信息咨询服务等。 将中国联通的大数据资源转化为商业价值,服务于各个行业的企业客户。行业解决方案为典型行业,如零售、广告、电子商务等行业的企业客户提供解决方案,解决这些企业运营中面临的典型业务问题信息咨询服务向企业客户提供基于中国联通大数据的咨询服务和分析报告,通过最权威的数据反映行业趋势,使企业准确判断行业趋势,预测未来走向Intelligence as a Service的服务交付方式第 12页多类型数据集成大数据存储大数据分析平台企业的业务系统管理人员和业务分析人员通过 portal使用分析平台行业解决方案行业分析报告 在大数据平台的基础上面向企业客户提供典型行业解决方案,并通过专业市场和管理咨询服务团队提供咨询服务,根据实际业务需求,并充分利用大数据的优势,快速开发需要的业务问题解决方案; 根据企业的需求,基于大数据资源,定制提供行业级的分析报告,为企业预测未来趋势提供最具科学依据的参考。议题第 13页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案 系统边界第 14页大数据平台中国联通省级BOSS系统中国联通省级CRM系统中国联通电子渠道系统中国联通 集中化大数据平台 企业客户的业务系统网络数据采集中国联通用户上网数据采集中国联通信令数据采集系统点击流数据采集S1S2S3S4S5S9S7S8I1 I6I2I3中国联通SMS/MMS等渠道I4I5S6源数据接口 S1-S8第 15页接口名称接口方向 接口数据 接口方式S1 中国 联 通省 级 BOSS系 统 > 大数据平台用 户资 料、 CDR、 账单 、 业务订购 等文件S2 中国 联 通省 级 CRM系 统 > 大数据平台 客服数据等 文件S3 中国 联 通 电 子渠道系 统 > 大数据平台 业务办 理、 详单查询 、 账单查询 等用 户行 为文件S4 中国 联 通用 户 上网数据采集 > 大数据平台用 户 手机上网行 为 数据 数据流S5 中国 联 通信令数据采集系 统 > 大数据平台信令数据 数据流S6 企 业 客 户 的 业务 系 统 > 大数据平台 业务 数据 文件、数据流S7 网 络 数据采集 > 大数据平台 网 页 内容等数据S8 点 击 流数据采集 > 大数据平台 用 户访问 外部网 页 的点击 流数据文件S9 中国 联 通集中化大数据平台 > 大数据平台经 分数据 文件互动接口第 16页接口名称接口方向 接口数据 接口方式I1 大数据平台 > 中国 联 通省 级 BOSS系统营销 相关信息等 文件I2 大数据平台 > 中国 联 通省 级 CRM系 统 客 户 特征 视图 、客服 优化或 营销 相关信息等文件I3 大数据平台 > 中国 联 通 电 子渠道系 统大数据平台业务 推荐、内容推荐等信息文件I4 大数据平台 > 企 业 客 户 的 业务 系 统 业务 解决方案相关信息 文件、数据流I5 大数据平台 > 中国 联 通 SMS/MMS等渠道营销 信息 数据流I6 大数据平台 中国 联 通集中化大数据平台支撑 经 分系 统 的数据 文件三级平台架构第 17页一级大数据 平台二级大数据平台省级数据集成平台一级大数据平台数据中心二级大数据平台数据中心 A接口机接口机MDCN广域网MDCN广域网数据中心 BA省大数据采集和集成系统B省大数据采集和集成系统某省大数据采集和集成系统三级 平台 功能架构第 18页内部源系统数据接口 网络数据采集 其它数据接口结构化数据集成 非结构化数据集成 流数据集成省级数据集成平台二级大数据 平台二级区域 大数据混合式存储 与处理一级大数据存储平台二级 PaaS平台 二级 SaaS平台一级 PaaS平台 一级 SaaS平台一 级大数据 平台三级平台 功能架构(续)第 19页 省级数据集成平台主要对数据进行采集、清洗、转换,以及初步的汇总; 对结构化数据,保持其初始的数据粒度,并进行映射,统一数据模型; 对非结构化数据,进行处理,转化为结构化数据; 对流数据,进行实时处理; 二级大数据平台包括多个数据中心,主要对区域性的数据进行加工,并向区域性的企业提供解决方案; 多数据中心覆盖不同的区域,主要向该区域的企业客户提供服务; 向一级平台提供接口,并接受一级平台对数据处理需求的调度; 一级大数据平台主要对数据进行跨区域的汇总,并提供标准的解决方案,供各区域在此基础上定制各自的解决方案;二级 大数据平台 功能架构第 20页Data SourceData Integration 结构化数据集成Big data Platform流数据集成 非结构化数据集成Hadoop RDBMS Column DB NOSQLAnalytic Capability 用户价值 使用行为 地理位置 上网行为 消费行为内容偏好 时间特征 社交网络 影响力 Vertical/Industry Solution实时营销 客户忠诚度 管理 渠道选址 内容定制 推送 电信行业解决方案广电行业解决方案电子商务行业解决方案公共安全行业解决方案物联网行业解决方案Portal Web Mobile Widget Info Push省级数据集成平台 Web数据 其它外部 数据安全管理用户管理生命周期管理资源管理System Management开发管理二级平台 各层的功能第 21页 数据集成层 从省级数据集成平台获取已经清洗和初步集成的结构化数据,包括联通内部系统提供的结构化数据,以及从非结构化数据转化而来的结构化数据; 对非结构化数据处理,转化为结构化数据,并在省级数据集成平台之间及区域二级大数据平台之间进行同步; 对相关的流数据进行处理; 大数据存储层 根据数据特点和应用的需求,将大数据进行混合式的存储和处理,满足上层应用的需求;二级平台 各层的功能(续)第 22页 大数据平台分析能力层 提供基础分析能力和解决方案的开发环境和运行环境; 提供丰富的基础分析能力,可以在此基础上快速开发解决方案; 解决方案层 提供垂直解决方案和行业解决方案; 解决方案可以独立开发也可以在一级解决方案模板的基础上进行二次开发; 访问门户 层 提供多种访问方式,包括 web、移动设备、 widget、 SMS、 MMS等; 统一的访问入口和鉴权; 系统管理 包括安全管理、用户管理、开发管理、应用生命周期管理、元数据管理等;集成架构第 23页Data SourceData Integration 结构化数据集成Big data Platform流数据集成 非结构化数据集成Hadoop RDBMS Column DB NOSQLAnalytic Capability 用户价值 使用行为 地理位置 上网行为 消费行为内容偏好 时间特征 社交网络 影响力 Vertical/Industry Solution实时营销 客户忠诚度 管理 渠道选址 内容定制 推送 电信行业解决方案广电行业解决方案电子商务行业解决方案公共安全行业解决方案物联网行业解决方案Portal Web Mobile Widget Info Push企业内部系统数据 Web数据 其它外部 数据安全管理用户管理生命周期管理资源管理System Management资源管理多类型数据的集成工具Hadoop、关系型数据库、列数据库等多种数据存储解决方案大数据平台垂直解决方案、行业解决方案大数据平台、数据可视化工具大数据平台议题第 24页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案 数据集成在大数据平台中的位置第 25页Data SourceData Integration 结构化数据集成Big data Platform流数据集成 非结构化数据集成Hadoop RDBMS Column DB NOSQLAnalytic Capability 用户价值 使用行为 地理位置 上网行为 消费行为内容偏好 时间特征 社交网络 影响力 Vertical/Industry Solution实时营销 客户忠诚度 管理 渠道选址 内容定制 推送 电信行业解决方案广电行业解决方案电子商务行业解决方案公共安全行业解决方案物联网行业解决方案Portal Web Mobile Widget Info Push省级数据集成平台 Web数据 其它外部 数据安全管理用户管理生命周期管理资源管理System Management开发管理省级数据集成和二级大数据平台数据集成的关系第 26页内部源系统数据接口 网络数据采集 其它数据接口省级数据集成平台二级大数据 平台结构化数据集成数据获取数据清洗数据转换非结构化数据集成 流数据集成数据获取数据清洗数据汇总混合式大数据存 储 ,结构化数据处理统一数据接口 对于来自中国联通内部的数据,包括 CDR等,在省级数据集成平台仅进行清洗和转换,在二级大数据平台进行汇总; 非结构化数据的处理在省级平台进行简单的清洗和转换,在二级大数据平台转换为结构化数据; 第三方的数据接口和数据集成统一在二级大数据平台;数据获取数据清洗数据转换非结构化数据集成数据结构化标签同步第三方数据集成数据获取 数据清洗数据转换 数据汇总数据集成的类型第 27页 从实时性角度划分- 实时或准实时通常用于支持时间敏感型应用,要求数据以实时或准实时的方式处理,单位时间内处理的数据量较大;- 非实时用于支持非时间敏感型应用,处理周期通常按日、周、月、年,以批量处理的方式满足这部分需求; 从数据类型角度划分- 结构化数据即行数据 ,存储在数据库里 ,可以用二维表结构来逻辑表达实现 的数据,例如业务支撑系统产生的 CDR等数据等。- 非结构化数据, 包括文本 、 图片、图像音频 、 视频 信息 等。不能以传统的数据库进行存储和处理。大数据平台支持的多类型数据集成第 28页非实时的结构化和非结构化数据集成12 流数据集成传统的 BI系统数据 ETL存在的难题第 29页高扩容成本数据处理的类型数据处理的性能目前 ETL工具产品主要是单机版串行系统,任务无法并行实现,在处理海量数据时,其性能、扩展性都存在瓶颈。因此,数据仓库承担了大部分转换任务。随着数据量的不断扩大,经分数据仓库也存在性能压力大、扩展性瓶颈等问题。 存储成本和压力比较高 ,仅能处理结构化的数据,大量的网络 信令 、互联网信息等非结构化数据的存储和分析需求难以满 足 随着用户数的增长和新的数据源的引入,数据量也不断增长, ETL处理能力的扩容成本很高基于云计算的非实时并行数据集成的特点第 30页2134分布式存储 ,高效并行处理 能力支持垂直扩展和水平扩展,扩展能力近似线性多机容错低廉的软硬件要求,能够较大程度上降低硬件成本核心技术 分布式存储第 31页 采用分布式文件系统存储 HDFS作为云计算 数据集成 系统 的存储系统 。 HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。 HDFS对外屏蔽了分布式存储的细节,如数据备份、失效节点恢复、并发等,使用户可以像操作本地文件系统一样操作分布式文件系统。 HDFS中一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简化了数据一致的问题和高吞吐量的数据访问 。- 支持并发 的读写文件。- 支持添加删除文件等操作 。- 支持数据备份,失效节点恢复, 高容错性 。- 数据备份数量 为多份Hadoop概述第 32页Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS有着高容错 性的特点,并且设计用来部署在 低廉的硬 件上。而且它提供高吞吐 量来访问应用程序 的数据,适合那些有着超大数据 集的应用程序 。 HDFS放宽 了 POSIX的要求这样可以实现流的形式访问文件系统 中的数据 。核心技术 基于 Map/Reduce的并行计算第 33页 Map/Reduce是一个用于大规模数据并行处理的编程模型。 指定一个 Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 并行计算的流程第 34页提交任务根据输入文件大小个数等确定子任务建立任务池 子节点领取 任务 返回结果Map/Reduce运算模式本地优先的运算策略:分配任务时采取本地优先的原则具有可控性的负载均衡:每个子节点根据自身硬件情况配置最大的可执行任务数基于云计算的并行数据集成模块的功能架构第 35页 基于云计算的并行数据集成 由基础功能层和集成环境层组成。图、云计算并行 ETL系统的功能架构 基础功能包括: 数据抽取、数据处理、数据装载和数据探索。 数据抽取:是将外部提供的数据抽取到 ETL平台提供的分布式文件系统中,以便后续处理使用,包括文件抽取和数据库抽取两种方式。 数据处理:实现了对分布式文件系统上的数据进行并行化的处理功能,包括数据清洗、转换、汇总等功能。 数据装载:对于处理完毕的数据,加载到相应的数据仓库中。 数据探索:数据探索是扩展功能,包括样本数据查看和统计。主要是为了便于开发人员在开发环境进行设计时,提取部分样本数据进行查看,以了解数据格式、数据分布特征和数据质量相关情况。集成环境 第 36页集成环境包括:开发环境、执行环境和管理环境 。- 开发环境:是 ETL处理程序开发者进行操作的主要环境。包括:数据定义、操作流开发和任务调度计划开发等功能 。- 执行环境:执行环境要能保证工作任务能正常、高效的运行,并对处理过程进行监控 。- 管理环境:进行云计算并行 ETL系统稳定运营的管理工作,包括:安全管理、日志管理、数据生命周期管理和元数据管理等。与传统 ETL比较 容错性与扩展性子任务出错后自动重跑 失败一定次数后挂起 连续出错节点加入黑名单容错性具有热扩展能力,新节点 可 动态部署新节点加入后,可将原来的存储重新平衡分布,减轻存储压力,同时 新节点 马上参与任务的运算,提高运算效率扩展性物理部署第 38页主节点主节点备份节点用户接入节点大数据存储子节点子节点子节点云化数据集成平台数据库FTP数据服务器将文本类非结构化数据转化为结构化数据第 39页分词库爬取基准url分类日志 URL比对陌生 URL已知 URL手机上网行为分析热词库爬取内容,分词,根据规则将分词入分词库爬取内容,与分词库根据规则匹配,找出对应 url类别读库 入库匹配入库入库读库如何将提取到的 URL转化为可解读的信息是手机上网行为分析的关键。这里采用了百度等搜索引擎的先进文本解析技术。核心技术 中文分词第 40页正向最大匹配法逆向 最大匹配法最少切分中文自然语言处理技术中文分词技术属于自然语言处理技术范畴 ,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法 。 基于字符串匹配 的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词) 。 按照扫描 方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法 。通常采用几种方法的综合算法。中文分词的核心难点第 41页 歧义识别- 歧义 是指同样的一句话,可能有两种或者更多的切分方法。 新词识别- 新词 ,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词 。- 新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词, 因此对于文本解析来说 ,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一 。分词的准确性Text in hereText in here分词的速度云计算技术可以很好的解决准确性和速度之间的矛盾,使可以保证准确率的复杂的算法的应用成为可能核心技术 基于数据挖掘的文本分类,将非结构化数据转化为结构化数据第 42页 文本分类- 通过计算机对文本集按 照 一定的分类体系或标准进行自动分类标记- 文本分类一般包括了文 本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过 程;- 其 中文本的表达又可细分为文本预处理、 索引和统计(分词)、特征抽取等步骤;预处理将原始语料格式化为同一格式,便于后续的统一处理;分词将文档分解为基本处理单元,同时降低后续处理的开销;统计词频统计,项(单词、概念)与分类的相关概率;特征抽取从文档中抽取出反映文档主题的特征分类器分类器的训练评价分类 器的测试结果分析文本分类的核心挖掘算法第 43页统计学习方法需要一批由人工进行了准确分类 的文档作为学习的材料( 称为训练集) ,计算机从这些文档重挖掘出一些能够有效分类的规则, 这个过程称为训练 ,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行 。常用的分类算法为:决策树 , Rocchio,朴素贝叶斯,神经网络,支持向量机Rocchio算法 朴素贝叶斯 算法( Naive Bayes)Rocchio算法是文本分类的最基本算法。思路是把一个类别 里的样本文档各项取个平均值(例如把所有 “体育 ”类文档中词汇 “篮球 ”出现的次数取个平均值,再把 “裁判 ”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为 “质心 ”, 质心就成了这个类别 最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质 心有多么相似(判断他们之间 的距离)就可以确定新文档属不属于这个类。 改进的 Rocchio算法不仅考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本 。Rocchio算法的局限性是它做了两个很 致命的假设,使得它的 性能不佳。 一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上 可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值 。首先对于每一个样本中的元素要计算先验概率。其次要计算一个样本对于每个分类的概率,概率最大的分类将被采纳。 所以其 中 P(d| Ci)=P(w1|Ci) P(w2|Ci) P(wi|Ci) P(w1|Ci) P(wm|Ci) (式 1)P(w|C)=元素 w在分类为 C的样本中出现次数 /数据整理后的样本中元素的总数 (式 2)文本分类的核心挖掘 算法(续)第 44页支持 向量 机 (Support Vector Machine)是 Cortes和 Vapnik于 1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量 机算法 (Support Vector Machine) 支持向量机方法是建立在统计学习理论的 VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度, Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。 SVM 方法有很坚实的理论基础, SVM 训练的本质是解决一个二次规划问题( Quadruple Programming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。 SVM 分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将 原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外 SVM 训练速度极大地受到训练集规模的影响,计算开销比较 大。 SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关, 在查准和查全率方面都略优于一般算法。多类型数据集成第 45页非实时的结构化和非结构化数据集成12 流数据集成流数据的特点第 46页流数据是一组顺序、大量、快速、连续到达的数据序列 ,一般情况下 ,数据流可被视为一个随时间延续而无限增长的动态数据集合。实时到达次序独立规模宏大很难 二次处理流数据主流技术有开源 S4分布式流计算 平台, Sybase提供的 Alteri事件流处理器,Streambase的 CEP系统。流数据处理的关键技术 S4 分布式流计算平台第 47页S4是一个通用的、可扩展性良好、具有部分容错能力、支持插件的分布式流计算平台,在该平台上程序员可以很方便地开发处理流数据的应用。编键 的数据事件被分类、路由到各处理单元( Processing Elements, PEs), 处理单元处理这些 事件,做出如下事情之一或全部: ( 1)发出一个或多个可能被其他 PE处理的事件。( 2)发布结果 。这种架构类似提供了封装和地 址透明语义的 Actor模式,因此允许应用在大规模并发的同时暴露简单的编程接口给应用开发者。² S4是一个低延迟 ,弹性流数据处理引擎 。² S4是 MapReduce 和 Actors模型衍生的结合体。S4的特点第 48页S4是一个通用的、可扩展性良好、具有部分容错能力、支持插件的分布式流计算 平台,其设计特点有以下几项:u Actor 模型 S4架构采用了 Actor模式,这种模式提供了封装和地址透明语义,因此在允许应用大规模并发的同时,也提供了简单的编程接口 。u 分布式对称结构 S4参照 了 MapReduce模式。为了简化部署和运维,从而达到更好地稳定性和扩展性, S4采用了对等架构,集群中的所有处理节点都是等同的,没有中心控制。这种架构将使得集群的扩展性很好,处理节点的总数理论上无上限;同时, S4将没有单点容错的问题。 u可插入式架构 S4系统使用 Java开发,采用了极富层次的模块化编程,每个通用功能点都尽量抽象出来作为通用模块,而且尽可能让各模块实现可定制化。u部分容错能力设计 基于 Zookeeper服务的集群管理层将会自动路由事件从失效节点到其他节点。除非显式保存到持久性存储,否则节点故障时,节点上处理事件的状态会丢失。u面对对象型 节点间通信采用 “Plain Old Java Objects”( POJOs)模式,应用开发者不需要写 Schemas 或用哈希表来在节点间发送 Tuples。技术原理第 49页系统组成之 Processing Nodes( PNs) : PN是逻辑节点 负责事件监听、输入事件处理、发射输出事件 使用基于键值的哈希函数发送事件(一个事件可能发给多个 PE) PN使用 PEC( Processing element container)根据 event调用对应的 PE 特殊的 PE对象:无属性值的 PE prototype,用作初始化和 PE的克隆 每个 keyed PE传给有且仅有一个 PN通信层 : 集群管理:进行 failover、逻辑节点到物理节点的映射、硬件失败管理等 提供 JavaC+等的 API、支持部分网络协议 使用 ZooKeeper进行协同( coordinate)管理系统组成之 Precessing Elemens( PEs):基本计算单元 ;一个计算单元实例由四个部分标识:功能 functionality、 接受 (消耗)的事件 Types of vents(键值)属性 Keyed attributes、 ( 属性)值 Value( of the ekyed attributes)特殊的 keyless PE无属性 PE,接受所有满足类型限制的的事件,通常处于输入层Standard PE: 完成 count、 join、 aggregate等功能。 PE的生存使用 TTL控制。流数据处理的其它商用产品 IBM StreamBase CEP第 50页StreamBase复杂时间处理系统( CEP) ,使用 管理 高速、实时数据 流新技术 ,是 一个流数据处理引擎。StreamBase应用 Java开辟, IDE是基于 Eclipse进行二次开辟,功能很是强大。 StreamBase也供给了相当多的 Operator、 Functor以及其他组 件来帮助构建应用流程规则。Heartbeats Monitoring流数据处理的其它商用产品 Sybase Aleri Event Stream Processor第 51页响应快,延迟低 实时处理并 分析高速的事件流事件处 理延迟介于数毫秒或数秒之间风险管理人员可以实时评估风险 、利润和损失支持流分析和提醒本地的 C/C+ 引擎、适配器和分析可提供极低的延迟和高吞吐量发 布 -订阅体系结构可在整个集群节点中进行扩展针对现代的 多核、多线程 64 位硬件进行了优化集成速度更快 最有效地利用开发资源,并实现新的资本市场应用,即最大限度地节省开发时间和资源业界最类似于 SQL 的事件处理语言大量的现成适配器可扩展性完整的 SDK,包括 C/C+、 C#、 Java、 Perl 和 Python可扩展的用户定义函数 (UDF)快速测试和配置团队商机 流数据集成的应用场景 信令数据处理第 52页信令数据采集S4流数据处理平台位置信息捕捉开关机行为捕捉通话行为捕捉短信行为捕捉手机上网行为捕捉静态分析模型用户特征 、 网络状况动态触发规则管理 、 渠道选择 、 反馈捕捉 .实时分析实时营销网络优化.信令数据由于数据量巨大,尽管蕴含巨大的价值,在传统的平台上难以实时处理,并且硬件成本高昂。通过流数据处理平台可以充分捕捉用户的实时行为,并进行实时的处理,以支持实时营销和分析等多种业务场景。议题第 53页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案 VDC虚拟数据中心的 IT合理化思路Spare BaySpare Pool更少的服务器数量更少的机房占用更少的机柜占用更少网络端口占用无需高可用集群软件跨平台高可用统一平台管理,大量节约学习管理成本利用更节能的高密度服务器替换原有的高能耗的PC服务器和小型机服务器记外围设备大量减少,降低整体设备机空调能耗。利用一套统一的云平台管理系统管理所有的服务器,取代了原有多种系统多种平台高可用软件利用简单方便的 WEB进行本地及远程管理。利用云平台管理系统主动到侦测故障服务器自动关闭 /隔离故障服务器自动迁移故障服务器特征文件自动恢复故障服务器应用节约成本 超低能耗简化管理 自动切换第 54页资源供给IaaS架构相对于传统 IT架构的优势第 55页资 源管理平台资源需求IaaS 架构低成本 :使用高密度低能耗的云服务器自动化工具降低管理和运维成本资源共享 :动态、异构、共享的资源池打破应用孤岛更高的资源利用率,节能减排易于部署和管理自动化的资源部署和调度引擎异构资源统一的管理平台高伸缩性和高可扩展性资源动态伸缩,削峰填谷,满足高峰期的资源请求能够处理大规模业务高可用性虚拟机迁移和 HA等特性在减少传统高可用投资的同时保证系统可靠性自动的故障检测、告警与恢复通过 IaaS架构实现 IT资源合理化运营 成本大幅减低,每台服务器每年减少 1000美金 部署 周期缩小,新系统部署时间提高 240倍可靠性提高,故障恢复速度提高 24倍,减少 43小时宕机时间IDC 建设APP 业务 服务存储阵列VDC 建设VPS 服务存储虚拟化资源分配调度能力提高服务器利用率虚拟化的蔓延因素 1.版权 2.空间 3.时间 4.管理150台虚拟机因为虚拟机的泛滥浪费50000到 15000美元的成本服务目录管理资源抢占与回收虚拟机存储 网络应用系统 中间件物理机报表与计费服务实例监控资源分配自动部署第 56页IaaS架构的实现:资源管理平台和基础设施云化第 57页资源管理平台简化管理,自动切换基础设施云化节约成本,超低能耗Spare BaySpare Pool+1、资源管理平台第 58页资源管理平台可以 整合数据中心的计算资源、存储资源和网络资源,为 IT资源的统一整合、管理与分配提供有力的技术支持 ,为各种业务提供所需资源的 快速部署 、 动态调度 和 弹性伸缩 能力,并针对业务系统的用户提供 自服务 机制,实现资源的最大化利用与服务的最快交付。资源管理平台 致力于帮助企业构建安全可靠、资源共享的云数据中心,实现业务计算能力与 IT资源的剥离,让底层的 IT基础设施以服务的方式按需提供,从而 满足业务的多变性并促进业务的高速发展 。资源管理平台的逻辑结构第 59页资源管理平台资源管理平台的功能模块第 60页资源管理平台虚拟化功能模块安全功能模块模板管理功能模块监控功能模块运营管理功能模块资源管理功能模块存储功能模块网络功能模块资源管理平台的特点第 61页资源实例全 生命周期管理层级的多租户架构与用户自服务快速自动部署与自动弹性伸缩多数据中心异构资源的支持各种虚拟化系统+ 物理系 统+ 小型机系统 +为各种业务提供基础设施资源的自动部署配置资源管理平台的端到端工作流程第 62页普通用户1、申请服务实例自服 务门户服 务 目 录4、服务实例的操作(使用、更改、监控、管理)2、审 批流程 3、资 源分配 / 自 动 部署资 源分配策略:选择 最 优资源+资 源 实 例 全生命周期管理5、资 源到期回收6、报 表与 计费计费账单 统计报 表资源 管理员1、添加 资源 2、创建服务模板虚拟机存储 网络小型