陪伴而非守候
数据量大是大数据的必要而非充分条件。所谓的大数据,是一种技术高度发展下衍生的概念,指原本没有能力处理也被认为没有价值的大量非结构化的数据,比如用户的访问记录、聊天记录、购买记录等等,由于谷歌三驾马车论文发表后分布式计算技术被普及而变得可以方便地存储和处理,而另一方面通过原有只能运用在小数据样本上的统计学习方法,反而得到了一些传统的数据分析方法(强调因果)不能获得或与人类直觉相反(比如典型的啤酒与尿布问题)的知识。引用Coursera数据科学专项课程的一个定义:Big data = now possible to collect data cheap, but not necessarily all useful (need the right data)