数据预处理与清理数据方案.pptx
《数据预处理与清理数据方案.pptx》由会员分享,可在线阅读,更多相关《数据预处理与清理数据方案.pptx(36页珍藏版)》请在悟道方案网上搜索。
1、1,数据预处理与清理数据方案,2,1 为什么需要数据预处理? 2 数据清洗 3 数据集成与转换 4 数据归约 5 数据离散化,3,1 为什么需要数据预处理 ?,在现实社会中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员) 缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输) 数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员) 数据结构的不一致性 Label的不一致性 数据值的不一致性,4,数据挖掘的数据源可能是多个互相独立的数据源 关系数
2、据库 多维数据库(Data Cube) 文件、文档数据库 数据转换 为了数据挖掘的方便 海量数据的处理 数据归约(在获得相同或者相似结果的前提下),5,没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须基于高质量的数据基础上 数据仓库是在高质量数据上的集成,6,数据预处理的主要任务,数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 数据归约 在可能获得相同或相似结果的前提下,对数据容量进行有效的缩减 数据离散化 对于一个特定连续属性,尤其是连续数字属性,可以把属性值划分成若干区间,以
3、区间值来代替实际数据值,以减少属性值的个数.,7,数据预处理的形式,数据清理,数据集成,数据转换,数据归约,8,使用属性的平均值填充空缺数值 简单方便、挖掘结果容易产生不精确的结果 使用与给定元组同一个类别的所有样本的平均值 分类非常重要,尤其是分类指标的选择 使用最有可能的值予以填充 利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定 利用属性之间的关系进行推断,保持了属性之间的联系,缺失数据的处理方法,9,噪音数据,噪音数据:一个度量(指标)变量中的随机错误或者偏差 主要原因 数据采集设备的错误 数据录入问题 数据传输问题 部分技术的限制 数据转换中的不一致 数据清理中所需
4、要处理的其它问题 重复的记录 不完整的数据 不一致的数据,10,噪音数据的处理,分箱(Binning)的方法 聚类方法 检测并消除异常点 线性回归 对不符合回归的数据进行平滑处理 人机结合共同检测 由计算机检测可疑的点,然后由用户确认,2020/3/28,11,分箱方法,基本思想: 通过考察相邻数据的值,来平滑存储数据的值 基本步骤 首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中。 其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理。,12,分箱(Binning) 方法举例,对数据进行排序: 4, 8, 9, 15, 21, 21, 24
5、, 25, 26, 28, 29, 34 对数据进行分割(相同深度) : - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 根据bin中的平均值进行离散化: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29,13,基于聚类分析的平滑处理,14,通过线性回归的平滑处理,x,y,y = x + 1,X1,Y1,Y1,15,数据集成,数据集成的概
6、念 将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据源包括:多个数据库、多维数据库和一般的文件 数据集成也是数据仓库建设中的一个重要问题 数据集成的内容 模式集成 利用数据库和数据仓库的元数据信息 主要工作是识别现实世界中的实体定义 冗余数据的处理 检测和解决数值冲突 对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 主要原因:不同的数据表示、度量单位、编码方式以及语义的不同,16,模式集成,数据类型冲突 性别:string(Male、Female)、Char(M、F)、Interger(0、1) 日期:Date、DateTime、String 数据标签冲突:解决同名异义
7、、异名同义 学生成绩、分数 度量单位冲突 学生成绩 百分制:100 0 五分制: A 、B、C、D、E 字符表示:优、良、及格、不及格 概念不清 最近交易额:前一个小时、昨天、本周、本月? 聚集冲突:根源在于表结构的设计,17,冗余数据的处理,从多个数据源中抽取不同的数据,容易导致数据的冗余 不同的属性在不同的数据源中是不同的命名方式 有些属性可以从其它属性中导出, 例如:销售额单价销售量 有些冗余可以通过相关分析检测到 其中:n是元组的个数, 和 分别是A和B的平均值, 和 分别是A和B的标准差 元组级的“重复
8、”,也是数据冗余的一个重要方面 减少冗余数据,可以大大提高数据挖掘的性能,18,数据转换,平滑处理: 从数据中消除噪音数据 聚集操作: 对数据进行综合,类似于Data Cube的构建 数据概化:构建概念层次 数据规范化: 将数据集中到一个较小的范围之中 最大-最小规范化 z-score(零均值)规范化 小数范围规范化(01规范化) 属性构造 构造新的属性并添加到属性集中,以帮助数据挖掘,19,最大-最小规范化 对原始数据进行线性变换 保持了原始数据值之间的关系 当有新的输入,落在原数据区之外,该方法将面临“越界”错误 受到孤立点的影响可能会比较大,20,z-score(零均值)规范化 属性基于
- 温馨提示:
建议用WPS软件(.pptx、.docx)打开文档,少量文档使用Microsoft(.ppt、.doc)打开易出错。
- 配套讲稿:
如PPT文件的首页显示word图标打开文档,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 清理 清算 方案