智慧银行业大数据解决方案.pptx
《智慧银行业大数据解决方案.pptx》由会员分享,可在线阅读,更多相关《智慧银行业大数据解决方案.pptx(44页珍藏版)》请在悟道方案网上搜索。
1、智慧银行业大数据解决方案,目录,大数据分析挑战,解决方案介绍,大数据案例分享,大数据就是资本 但究竟什么是大数据?,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7ZB(1ZB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。“大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”维基百科,大数据的挑战,大数据的4V特点: Volume, Variety, Velocity, Value传统DW系统不适用于大数据的分析数据量过
2、于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”-批量分布式并行计算Hadoop海量数据“灵活多变”-实时分布式高吞吐高并发数据存取处理NoSQL海量数据“实时响应”-大数据流计算模型,我们希望从大数据获得什么?,更高一层数据层面整合企业内外部,大数据改变数据分析思维 过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的 精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。但当前数据处理思维方式正逐步向全体性、混沌性以及相关性演变,以适应数据量的爆发式增长。,10,大数据改变数据分析思维,全体数
3、据,混杂数据,精确数据,抽样数据,因果关系,相关关系,采样的目的在于用最少的数据得到最多的信息, 但在样本分析过程中不可避免会有一部分信息 丢失。在可以获得海量数据的情况下,对全体 数据进行挖掘和分析可以获得更多信息,。,只有15%的数据是结构化且能适用于传统数据化 的,接受不精确性能使更多的非结构化数据得 到利用。,建立在相关关系分析法上基础上的预测是大数据的核心。,传统,大数据,大数据分析不同于传统BI分析,11,如果业务需求是分析多种来源的数据。,来源:Forrester Research,2012 年 6 月全球大数据在线调查,数据仓库与大数据的整合,超越传统数据仓库概念的大数据分析,
4、流,Internet级别,传统数据仓库,In-Motion Analytics,Data Analytics, Data Operations & Model Building,Results,Internet Scale,Database &Warehouse,At-Rest Data Analytics,Results,Ultra Low Latency Results,传统/关系型数据源,非传统/非关系型数据源,传统/关系型数据源,非传统/非关系型数据源,STREAMING,大数据分析平台,大数据技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据
5、进行综合的商业智能应用,包括数据分析与数据挖掘等。,目录,大数据分析挑战,解决方案介绍,大数据案例分享,的大数据分析视角面向业务分析的愿景,非结构化数据,大数据中结构化与非结构化数据的整合,建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key),数据获取,结构化数据,数据集市,数据集市,EDW,结构化元数据,Hadoop,建立非结构化信息的标签、摘要、索引、日志、内容等,提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合,ODS,SQL,声誉度分析,品牌分析,服务质量分析,竞争产品分析,产品评价,市场动态跟踪,数据分析路径,Information F
6、low Semi-structured data to BI,Information Flow Search,数据分析路径,建设大数据BI系统的思考,17,常见架构,+,PB,TB,传统的BI系统架构并非一无是处,同样值得我们学习借鉴,+,+,MS大数据解决方案总体架构,大数据产品架构,Volume,Velocity,Variety,管理几乎来自任意来源的数据,横向扩展,大规模并行处理引擎 Massively Parallel Processing (MPP) PDW作为SQL Server的横向扩展解决方案,MPP 提供线性横向扩展能力Massively Parallel Processin
7、g (MPP) 大规模并行处理架构横向扩展: 按需添加硬件实现线性扩展无共享架构最小 (0TB) 到最大 (6PB) 从几个TB的小型数据仓库开始扩展到 6 PB,比SMP DW快10倍,复杂作业计算,线性扩展,扩展灵活方便 (No forklift),聚沙成塔 成长无限,容量最大 随需扩容PB,宕机为零高枕无忧,Hadoop的典型应用场景,用户行为分析跟踪用户在网站上的点击路径,分析其购买习惯根据用户属性,猜测用户感兴趣的商品,定向推广根据N度客户,发掘潜在的客户群体日志存储、分析日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性能分析等上传文件存储各业务系统上传的文件、图片统一
8、保存,MS与Hadoop,基于Apache Hadoop的Windows Server和Windows Azure,以及AD的支持HDInsight ServerHDInsight ServiceHive ODBC Driver 和 Add-in for ExcelJavaScript Framework for HadoopSQL Server and SQL Server Parallel 数据 Warehouse connections for HadoopSharepoint, Powerpivot和Powerview作为前端展示,数据生命周期& 数据规模,HDP在hadoop上增加了
9、:集群管理能力,工作流,安全管理,并融入了数据分析,机器学习技术以及文本数据分析挖掘。所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。HDP是对传统数据仓库的一种补充和延伸,整体构成一个更广义的海量数据仓库。,HDP 海量大数据仓库,Hive、Sqoop,当前大数据分析面临的挑战,Warehouse,要求学习和掌握Map-Reduce技术,需要IT人员将 HDFS 中的数据倒入数据仓库或集市中,才能用于后继的分析,HDFS (Hadoop),HDFS (Hadoop),大量新技术需要学习掌握、周期长、见效慢,传统BI,EDW Connector for HadoopETL
10、/ELT,Hadoop:成本低、扩展性好、数据加载快、并发处理强EDW:SQL查询执行性能高,包括Ad-hoc、OLAP、报表等,Hive ODBC Driver,基于PolyBase的全方位数据整合能力,穿越结构化和非结构化数据的访问数据库和Hadoop的混合分析支持透明的应用访问,非结构化数据,结构化数据,数据库,文件系统HDFS,关系型数据库,通过统一的查询,同时访问结构化和非结构化数据沿用标准的SQL语句进行访问Select, From Where,低延迟可扩展流数据计算平台StreamInsight,用于大数据领域实时高频数据分析处理一个处理流数据的低延迟平台毫秒级,甚至微妙级端到端
11、的延迟一个可高度扩展的,用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个节点扩展一个灵活的、动态的平台Streams应用灵活部署支持动态部署新的分析应用,每秒数以百万计的事件,微秒级延迟,传统/非传统数据源,实时决策,强大分析,算法交易,Telco churnpredict,SmartGrid,网络安全入侵监测Cyber Security,Government /Law enforcement,ICUMonitoring,环境监控,27,使用熟悉工具来分析结构化和非结构化数据,MicrosoftSpeech SDK,Microsoft Speech SDK是公司提供
12、在Windows平台上开发语音识别和语音合成应用程序的开发包,简称为SAPI,内含SR(Speech Recognition)和SS(Speechsynthesis)引擎,因此可以很方便地在自己的应用程序中添加这些功能。该语音引擎支持多种语音的识别和朗读,包括英文、日文、中文等。推出的应用编程接口API,虽然现在不是业界标准,但是应用比较广泛。识别基本流程:从音频输入设备获取原始音频并编码或直接调用音频文件。设定语音引擎和识别上下文等内容,配置本地访问属性。分析处理得到的文本结果请求接口请求方式:本地访问请求数据:编码后的音频数据音频编码格式:wav音频采样频率:8000Hz、11025Hz、
13、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz主要优点基于COM组件,便于与DirectShow中的组件整合。语音识别引擎位于本地,便于访问,识别速度较快。待识别音频的大小、时长无限制。,MAVIS“研究院音视频索引系统,目录,大数据分析挑战,解决方案介绍,大数据案例分享,银行面临大数据时代的业务挑战,小微企业贷款市场逐渐被侵蚀,电子商务公司和第三方支付厂商紧贴最终用户,依靠市场优势,对银行的议价能力极 强,比如:银行的支付交易手续费被支付宝压到 3甚至更低,侵蚀银行信用卡的收入。第三方支付企业使得客户和银行的关系进一步疏远:本来是银行自己的持卡
- 温馨提示:
建议用WPS软件(.pptx、.docx)打开文档,少量文档使用Microsoft(.ppt、.doc)打开易出错。
- 配套讲稿:
如PPT文件的首页显示word图标打开文档,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 智慧 银行 业大 数据 解决方案
