近几年,“数据”的概念,在不同的场合,被不同领域的人一次又一次地说起。就像是人们感觉上的一样,数据在当代生活中所扮演的角色,确实是非常重要的。事实上,数据在历史上一直都有不可取代的位置,从历代帝王将相的史书、户籍册,再到寻常百姓家的家谱、计数工具,无一不体现着数据在历史上的重要意义。而近几年,互联网技术的迅猛发展,不仅打通了由于天然的地理阻隔,让数据和信息可以流畅传播,而且产生了属于互联网时代的数以亿计的极多的新数据,成了这个时代独有的标志性概念。数据的概念被得到了传播和发展,也就诞生了众多的衍生概念。接下来,让我们将这些概念简单进行整理与区分。
数据与信息
数据是对客观世界详尽的观察与记录,而信息则是在一定目的下的,基于数据的结论性表述。从这个角度来说,数据是信息的载体,信息是数据的表现和描述。所有的数据中,在特定的目的下,一部分数据是可以提取出信息的,而另一部分(或许是大部分)是不能提取信息的,这些不能提取信息的部分就是数据冗余。注意这里的“特定的目的下”,也就是说,不同的目的,数据相对于信息的关系可能也会有变化。
数据与数据
这里没有打错,这两个“数据”都是简称。前者,我们暂且称之为狭义数据,后者,我们暂且称为广义数据。这两个概念是数据科学发展后形成的区分,狭义数据的概念指传统基于单纯统计学的数据集合与处理方法,广义数据的概念指“所有”数据及属性数据的“所有”处理方法。这两个数据概念的区别表现,我们马上就会接触到。
数据与大数据
我们先来看看大数据的特点:
A、数据量非常大(Volume);
B、数据种类特别多,即维度大(Variety);
C、处理速度要求特别快(Velocity);
D、价值密度低(Value):即 提取信息需要的数据/数据总量 这个值很小。
如果数据的概念不同(或广义,或狭义),数据与大数据的关系也就不一样了。如果数据是狭义的,以上提到的四点大数据的基本特点,就是大数据相对于数据的区别,对应的狭义数据的特点即:数据量不是非常巨大、数据种类不是很多、处理速度不要求很快、价值密度很有可能会很高。如果数据的概念是广义的,那么大数据就仅是广义数据中的一个子集,是一种特殊的数据形式。
数据分析与数据挖掘
前文我们把数据分为了狭义数据和广义数据,如果说到数据处理方法,也自然会有狭义处理方法和广义处理方法,即狭义上的数据分析与广义上的数据分析,狭义上的数据分析仅指数据的统计分析方法,我们这里的数据分析,也仅指统计分析方法。
数据分析的对象,即数据,在体量上相对来说是比较小的。通常,数据分析前,我们需要有一些默认的假设和模型,而我们分析的最重要的目的之一,是验证我们假设的、观察到的模型与数据是否契合。此外,数据分析的每一步骤,使用到的特征量和数据量不会很大。数据分析的过程中,人的参与、推理、演译占据主导作用。
数据挖掘的对象,可以延伸到整个广义数据集合。数据挖掘前,我们不需要有假设,我们的目的,就是在数据中挖掘有用的信息,而整个驱动过程,是”让数据说话“,力求不让人参与,让机器自动完成。
数据分析与数据挖掘的目的,都是从数据中提取信息的过程。数据分析提取维度较少,层次较浅;数据挖掘相对提取信息的维度较大,层次较深(即,数据挖掘除了直接从数据提取信息外,还可能从已提取的信息中再提取新的信息)。
虽然数据挖掘看上去似乎更强大一些,但这不意味着数据分析没什么用处。如果数据量达不到”巨大“的标准,很有可能数据分析会得到比数据挖掘更精准的结论;同时,数据分析的结论,是容易被人理解的,方便与人进行交互的,这对团队协作来说,也是有着很重要的作用的;用数据分析的思路去观察数据,用数据挖掘的思路去发现规则,二者配合使用,才能真正了解数据。
数据挖掘与机器学习
机器学习是指使用已有数据的特征和对应关系,构建一个映射关系(这个映射关系可以认为是函数,也可以叫作模型),从而实现对数据的判别、分类、回归等任务。
最初的意义上,数据挖掘可以认为仅挖掘出某结论与哪些特征或者特征组合有关,而结论与特征间究竟是什么关系,这个交给机器学习去完成。如今,数据挖掘业务不断丰富,其挖掘过程中也使用了许多关于分类、回归等原本属于“机器学习”的方法。所以,在方法上,如今的数据挖掘与机器学习并没有什么非常严格的界线,区分这两个概念的,仅存在于它们的驱动目的上:数据挖掘力求在巨大的数据中找出符合某些目的的特征和关系;机器学习力求用某些方法,建立对于已有数据与已有结论的映射规则。
数据分析、数据挖掘、机器学习 与 人工智能
人工智能近些年来可谓是炙手可热。当前,人工智能我们现阶段可以分为强人工智能和弱人工智能。强人工智能,指的是让人工智能的主体能像人一样进行思考,并具备心智、意识、自我等当前我们以为的人类等某些生物体具备的高级内在要素与心理活动。现在,人类还无法制造出这么一个主体。弱人工智能,是制造一种像人一样,以类似推理、归纳等方式,解决某些领域内特定的问题的机器。
人工智能(仅指弱人工智能)相较于之前提到的数据分析、数据挖掘和机器学习,有以下的一些特点:人工智能研究的数据领域得到了极大的扩展,它可以直接将图片、视频、声音、文字等最原始信息进行分析处理,弱化了特征预处理的流程,不轻易损失这些复杂数据中的东西(这得多亏深度神经网络);同时,人工智能非常广泛地用到了最优化的处理思想,它没有损失原始数据,同时有效整理“目标”,达到一种目标与数据的深度交互与完全反馈;人工智能也不局限于数据分析、挖掘、机器学习取并集的方法,它广泛涉及众多数学方面的知识,如概率论、矩阵理论等,这也是由于数据本身更为复杂的特点所决定的。
似乎人工智能可以完成以上所有数据处理方法可以达到的效果,但人工智能的处理思路,对数据量、对数据维度、数据处理速度的要求会更高。所以,并非全能的方法才是最好的方法,结合“数据环境”使用的方法,才能起到最大的作用。
热门评论
《Python3数据分析与挖掘建模实战》https://coding.imooc.com/class/185.html
数据分析与挖掘行业火爆,人才稀缺。本课程基于Python3全程以真实案例驱动,带你科学系统地学习数据分析与挖掘建模领域的科学思维、必会知识、常用工具、完整流程以及老师多年的经验技巧。让你轻松转行,快速胜任数据分析师岗位,逆袭成为数据掘金时代的抢手人才!
途索老师您好,请问您有兴趣写书吗?