数据挖掘是指在大量的数据中挖掘出信息,通过认真分析来揭示数据之间有意义的联系、趋势和模式。而数据挖掘技术就是指为了完成数据挖掘任务所需要的全部技术。金融、零售等企业已广泛采用数据挖掘技术,分析用户的可信度和购物偏好等。大数据研究采用数据挖掘技术,但是数据挖掘中的短期行为较多,多数是为某个具体问题研究应用技术,还无统一的理论。传统的数据挖掘技术在数据维度和规模增大时,所需资源呈现指数级增长,所以对PB级以上的大数据还需研究新的方法。
数据挖掘概述
数据挖掘是近年来伴随数据库系统的大量建立和万维网的广泛应用而发展起来的一门技术。数据挖掘是交叉性学科,它是数据库技术、机器学习、统计学、人工智能、可视化分析、模式识别等多门学科的融合,如下图所示。
数据挖掘是多学科的融合
数据挖掘的几个概念
数据挖掘
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含其内的、人们实现所不知的,但又是有潜在价值的信息和知识的过程。几点说明如下。
数据挖掘涉及数据融合、数据分析和决策支持等内容。
数据源必须是真实的、大量的、含有噪声的、用户感兴趣的数据。
发现的知识要可接受、可理解、可运用,并不要求发现放之四海而皆准的知识,仅支持特定的问题。
数据是知识的源泉,将概念、规则、模式、规律和约束等视为知识,这就好像从矿石中采矿或淘金一样,从数据中获取知识。
原始数据可以是结构化数据,如关系型数据库中的数据等,也可以是非结构化数据,如文本、图形和图像等,还可以是半结构化数据,如网页等。
挖掘知识的方法可以是数学的方法,也可以是非数学的方法;可以是演绎的方法,也可以是归纳的方法。
挖掘的知识具有应用的价值,可以用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护。
数据挖掘是一门交叉学科,将人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在需求推动下,不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的知识融合后,形成新的研究热点。
数据的挖掘首先是搜集数据,数据越丰富越好,数据量越大越好,只有获得足够的高质量的数据,才能获得确定的判断,才能产生认知模型,这是量变到质变的过程。由此产生经验,经验的积累就能产生有价值的判断。认知模型是渐进发展的模型,当认识深入以后,将长生更加抽象的模型与许多猜想,通过猜想再扩展模型,从而达到深度学习和深度挖掘。
2. 数据挖掘分类
数据挖掘可以分为两类:直接数据挖掘和间接数据挖掘。
(1)直接数据挖掘
直接数据挖掘的目标是利用可用的数据建立一个模型,利用这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中标的属性,即列)进行描述。分类、估值、预测属于直接数据挖掘。
(2)间接数据挖掘
间接数据挖掘目标中没有选出某一具体的变量,用模型进行描述,而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚类、描述和可视化以及复杂数据类型挖掘。
3. 数据挖掘技术
数据挖掘技术是数据挖掘方法的集合,数据挖掘方法众多。根据挖掘任务可将数据挖掘技术分为预测模型发现、聚类分析、分类与回归、关联分析、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现、离群点检测等。根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web。根据挖掘方法可分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法中,可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别和非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
数据挖掘应用了来自其他一些领域的思想与算法,主要包括:
统计学的抽样、估计和假设检验。
人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。
最优化、进化计算、信息论、信号处理、可视化和信息检索。
其他一些领域的技术也起到重要的支撑作用,需要数据库系统提供有效的存储、索引和查询处理支持。高性能计算技术、并行计算技术、分布式技术也能帮助处理数据,当数据不能集中到一起处理时更是至关重要。
作者:Alukar
链接:https://www.jianshu.com/p/e8fdfcf20b92