大数据技术应用实践解决方案|免费下载.pptx
《大数据技术应用实践解决方案|免费下载.pptx》由会员分享,可在线阅读,更多相关《大数据技术应用实践解决方案|免费下载.pptx(77页珍藏版)》请在悟道方案网上搜索。
1、大数据技术应用实践解决方案,目录,什么是大数据,1,大数据各行业需求和应用,2,大数据需要哪些支撑技术,3,大数据架构和具体实践,4,1,大数据定义 - 不同行业的不同声音,大量数据管理,大量用户,数据分析,群体,海量计算,2,专业咨询公司 IDC 对大数据特征的定义 -4V,Velocity- 速 度,Variety- 多样性,Value- 价值密度,Volume- 巨 量,数据量巨大,结构化数据、半结构化,沙里淘金,价值密度低,实时获取需要的信息,数据和非结构化数据,大数据区分于传统数,一部数小时的视频,可,全球在 2010 年正式,据最显著的特征。如,如今的数据类型早已不,能有用的数据仅
2、仅只有,进入 ZB 时代,今已是 ZB 时代,在,是单一的文本形式,订,一两秒。如何迅速“提,IDC 预计到 2020 年,,如此海量的数据面前,,单、日志、音频,能力,全球将总共拥有 40ZB,纯”是大数据亟待解决,提出了更高的要求,处理数据的效率就是,的数据量,的难题,企业的生命,3,大数据为什么这么热,4,大数据带来技术变革 - 技术驱动,? 全球技术研究和咨询公司 Gartner 将“大数据”技术列入 2012 年对众多公司和组织机构具有战略,意义的十大技术与趋势之一,大数据,? Gartner 在其新兴技术成熟度曲线中将“大数据”技术视为转型技术,分析处理,? 传统技术升级已满足不了
3、大数据处理的需求,“大数据” 技术将在未来 3 5 年内进入主流。其,技术形态也会产生较大的变化,计算瓶颈,数据库瓶颈,存储瓶颈,网络瓶颈,5,大数据带来哪些技术变革 - 技术驱动,单机,集群,计算,横向扩展,单机,块存储,块级虚拟化,存储,横向扩展,文件存储,分布式文件系统,设备间连接,10GE FC IB,网络,10GE SAS IB,设备内连接,分布式数据库,数据库,关系型数据库,非关系型数据库,6,大数据带来哪些技术变革 - 商业驱动,?,2008 年马云通过阿里巴巴平台的询盘数,据统计结果提前半年成功预测了经济危,机的发生,?,数据驱动的决策 : 大数据分析意味着企,业能够从这些新的
4、数据中获取新的洞察,力,并将其与已知业务的各个细节相融,合,用数据创造价值,7,目录,什么是大数据,1,大数据需要哪些支撑技术,2,3,大数据各行业需求和应用,大数据架构和具体实践,4,8,大数据的技术概念,9,大数据的技术概念,当数据量变大只能通过升级船的大小来解决(升级 CPU, 内,存,磁盘容量)但受限于硬件本身这种方式升级已达到极限,10,大数据的技术概念,?,11,大数据的技术概念,? Bi,数据采集,数据存储,数据管理,数据分析,BI 分析工具,大数据时代采用新的方式来处理(分布式并行处理)其组件,扩展灵活,数据承载能力强,管理统一,但管理起来相对复,杂(统一架构,统一管理),12
5、,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,廉价货物:普通船(廉价存储不带任何增值特性),对存储无特殊要求 ( 可以是服务器,可以是存储,硬件的损坏是常态。,13,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,中高价值货物:专业船,对存储有要求,需要专业含有多种保护机制及增,值特性的存储,14,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,BI 分析工具,数据直来只去数据运载过程中不做任何处理,15,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,BI 分析工具,数据运载过程中做粗加工处理,16,大数据的技术概念,数据采集,数据存储,数据管理,
6、数据分析,BI 分析工具,数据运载过程中做细加工处理,17,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,河流:分布式文件系统,,决定河流的最大利用率。,这条河流上同时可以并发,跑多少条船,跑什么船,即横向扩展能力,18,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,船:存储系统,决定数据,的运载能力和处理速度。,不同的船型,功能上会有,较大的差异(数据的保护,级别,处理性能,增值特,性等),19,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,BI 分析工具,数据运载过程中的加工处理,20,大数据的结构特征,内容( ITEM ,图像、视频、文本 ) 数据,
7、23%,? 互联网:,(,例 非,用户行为轨迹(个体),Google, 百度,10 %,互 结,5 %,User Profile,Facebook ,联 构,Twitter , 新浪.,网 化,社交网络数据(群体) 21 个,公 为,数据以非结构化处,平均 1 个 P 数据中,历史详单查询,35%,Web Page & Log,27%,司 主,理为主,),结构化,25 %,网络 XDR ( 探针俘获后,含历史),半结构化,15%,计费 CDR( 含历史),(,非结构化,互联网 Web Page & Log( 含历史),13%,例,结,? 在企业大数据中,,社交网络数据 3%,电
8、 构,信 化,内容(图像、视频、文本 ) 数据,7%,仍然是以结构化,12%,运 为,主数据(三户 + 订购 + 接触 等 含历史),数据处理为主,营 主,分析汇总数据(含历史),18%,商,7%,),CUBE 和统一视图,21,HADOOP 大数据解决方案 - 互联网,分析平台,Hbase,MapReduce,- 非关系型数据库,- 分布式并行处理架构,HDFS- 分布式文件系统,22,Hadoop 大数据解决方案 - 互联网,数据采集,数据存储,数据管理,数据分析,廉价货物:普通船(廉价,存储不带任何增值特性),业界通常使用 HADOOP 架,构,对存储无特殊要求 ( 可,以是服务器,可以
9、是存储,,硬件的损坏是常态,每次,存储三份数据,用多份数,据存储来保证数据的可靠,性(通常应用于互联网数,据,以大文件为主),分析平台,HBase,MapReduce,HDFS,23,Hadoop-HBase- 非关系型数据库,“ NoSQL 是一项运动,这个运动,推动了广义定义的非关系型数据,储存系统的发展,并破除了长久,以来关系型数据库一家独大的局,面” - 维基百科,24,Hadoop-HBase- 非关系型数据库,数据采集,数据存储,数据管理,数据分析,非关系型数据库:把混杂,的数据进行( HASH) 分类,排序,分析平台,HBase,MapReduce,HDFS,25,数据采集,数据
10、存储,数据管理,数据分析,MapReduce 是 Google 提,出的一种大规模分布式数,据处理的编程模型,也代,表一种数据处理平台或实,现。最具有代表性的开源,实现是 Apache 的 Hadoop,MapReduce ,其中,HBASE 做在线数据整理排,序, MapReduce 做线下,BI 分析工具,数据删减,分析平台,HBase,MapReduce,HDFS,26,NoSQL 代表性的产品,产品,类型,CAP,Cassandra,Columnfamily,AP (性能 可靠性),CouchDB,Document,AP (性能 可靠性),Riak,Document,AP (性能 可靠
11、性),Hypertable,Columnfamily,CP (一致性 可靠性),MogoDB,Docmument,CP (一致性 可靠性),Neo4J,Graph,CP (一致性 可靠性),Redis,Key/Value,CP (一致性 可靠性),HBase,Columnfamily,CP (一致性 可靠性),27,大数据的结构特征,内容( ITEM ,图像、视频、文本 ) 数据, 23%,? 互联网:,(,例 非,用户行为轨迹(个体),Google, 百度,10 %,互 结,5 %,User Profile,Facebook ,联 构,Twitter , 新浪.,网 化,社交网络数据(群体)
12、 21 个,公 为,数据以非结构化处,平均 1 个 P 数据中,历史详单查询,35%,Web Page & Log,27%,司 主,理为主,),结构化,25 %,网络 XDR ( 探针俘获后,含历史),半结构化,15%,计费 CDR( 含历史),(,非结构化,互联网 Web Page & Log( 含历史),13%,例,结,? 在企业大数据中,,社交网络数据 3%,电 构,信 化,内容(图像、视频、文本 ) 数据,7%,仍然是以结构化,12%,运 为,主数据(三户 + 订购 + 接触 等 含历史),数据处理为主,营 主,分析汇总数据(含历史),18%,商,7%,),CUBE 和
13、统一视图,28,大数据解决方案 - 企业,分析平台,MPP-DB,- 分布式数据库(关系型),HDFS- 分布式文件系统,29,大数据的技术概念,数据采集,数据存储,数据管理,数据分析,中高价值货物:专业船,,对存储有要求,需要专,业含有多种保护机制及,增值特性的存储,分析平台,MPP-DB- 分布式数据库,HDFS- 专用分布式文件系统,30,并行数据库 企业数据分析,传统的关系数据库部署难以处理 TB 级数据,不能很好的支持高级别的数据分析。,理想的满足海量数据管理和实时性处理要求的数据,库服务器拥有无限快的处理器、无限容量和无,限带宽的存储,并且相对的便宜,我们能够拥有这样的机器吗 ?
14、NO,有限快的处理器 * ”无限”数量=“无限”快的处理能力,有限带宽和容量的存储单元 * ”无限”数量=“无限”容,量和”无限”带宽的存储能力,31,MPP DB- 并行数据库 - 企业数据分析,数据采集,数据存储,数据管理,数据分析,赵,11,8 25,我,14 6,1,8,20,王张 李,8,张,72 赵,08 钱,11,钱,3 6,1 2,9 14,张 李,2,BI 分析工具,88 5 刘 15,孙 14 李 26,分析平台,MPP-DB,HDFS,32,并行数据库代表性的产品,产品,厂家,Sybase IQ,SAP,Teradata,Teradata,Greenplum,EMC,Gr
15、idSQL,GridSQL,Aster Data,Teradata,Vertica,HP,33,NoSQL& MPR 可以代替关系数据库吗?,比较内容,模式的支持,索引,编程模型,数据分布,性能 PDBMSs MR systems,执行策略,灵活性,容错,34,取长补短,共赢未来,分析平台,MapReduce,HBase,HDFS,NoSQL MapReduce 和关系型数据库,不是互相取代,而是互相补充,需要互,相学习取长补短。,分析平台,MPP-DB,HDFS,35,企业大数据应用模式 - 混合架构,架构模式: Hadoop + MPP RDB /SMP RDB ;,处理方式: H
16、adoop 处理非结构化,为辅; RDB 处理结构化,为主;,非结构化: Hadoop 方案,对服务器和存储无特殊要求,廉价为主;,结构化: MPP RDB /SMP RDB +Hadoop (只负责存储计算需做重大修改)或用新分布式文件,系统来替代,对计算和存储有要求(可靠性,高性能,增值应用等),MPP-DB,MPP-DB,36,企业大数据应用模式 - 混合架构,分析平台,MapReduce,HBase,HDFS,分析平台,MPP-DB,HDFS,37,各厂家大数据产品,EMC,HP,Oracle,EMC,Net App,IBM,38,各厂家大数据产品,MS,SAP,DELL,SAS,Te
17、raData,39,目录,什么是大数据,1,大数据需要哪些支撑技术,2,大数据各行业需求和应用,3,大数据架构和具体实践,4,40,中国大数据各行业市场规模,100,150%,138%,2011-2016 中国大数据市场规模,80,120%,107% 110%,?,计世资讯认为: 2011 年是中国大数据市场元年,一些大数,92%,60,90%,81%,据产品已经推出,部分行业大数据应用案例的产生 2012-,市场规模,40,60%,2016 年将迎来大数据市场的飞速发展,增长率,20,30%,?,计世资讯预测: 2012 年中国大数据市场将迎来增速为,0,0%,0%,138.3 的飞跃到 2
18、016 年整个市场规模逼近百亿,CCW Research 2012/04,其他,4%,互联网,2012 年各行业大数据市场规模,15%,政府,15%,?,2012 年政府、互联网、电信、金融的大数据市场规模较,电信,交通,11%,大,四个行业将占据一半市场份额为 138.3 的飞跃到 2016,4%,年整个市场规模逼近百亿,能源,流通,8%,4%,?,由于各个行业都存在大数据应用需求,潜在市场空间非常,教育,金融,4%,11%,可观,零售,医疗,6%,制造,CCW Research 2012/04,9%,9%,41,企业大数据需求分析,企业数据架构存在的问题,企业分析数据处理的问题,39%,4



- 温馨提示:
建议用WPS软件(.pptx、.docx)打开文档,少量文档使用Microsoft(.ppt、.doc)打开易出错。
- 配套讲稿:
如PPT文件的首页显示word图标打开文档,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 应用 利用 运用 实践 解决方案
