数据预处理流程
数据清理
数据集成
数据变换
数据归约
数据清理:通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性来清理数据。目标:格式标准化,异常数据清理,错误纠正,重复数据的清除。
数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于的形式。如把数据压缩到0.0-1.0数值区间。
数据归约:往往数据量非常大,得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性,结果与归约前结果相同或几乎相同。
数据预处理流程:数据清理
预处理流程
预处理流程
数据清理:
什么是数据预处理