什么是大数据？-原创手记-慕课网

大数据是超出传统数据库系统处理能力的数据。数据太大，移动得太快，或不适合数据库体系结构的限制。要从这些数据中获得价值，您必须选择一种替代方法来处理它。

由于成本效益的方法已经出现，以驯服海量数据的数量，速度和可变性，2012年热门IT术语大数据已经成为可行。在这些数据中蕴藏着宝贵的模式和信息，这些模式和信息之前因为提取它们所需的工作量而隐藏起来对于像沃尔玛或谷歌这样的领先企业而言，这种力量已经达到了一段时间，但成本很高。当今的商品硬件，云架构和开源软件将大数据处理带入资源不足的范围。大数据处理即使是小型车库初创公司也是非常可行的，他们可以在云中廉价租用服务器时间。

大数据对组织的价值分为两类：分析使用和启用新产品。大数据分析可以揭示先前隐藏的数据，这些数据的处理成本太高，例如通过分析购物者的交易，社交和地理数据揭示的客户间的同侪影响。能够在合理的时间内处理每一项数据消除了抽样的麻烦需求，并促进了对数据的调查方法，这与运行预定报告的某种静态性质形成对比。

过去十年成功的网络初创公司是用作新产品和服务推动者的大数据的主要例子。例如，通过结合用户行为和他们朋友的大量信号，Facebook已经能够制作出高度个性化的用户体验，并创造出一种新的广告业务。从谷歌，雅虎，亚马逊和Facebook出现大量数据支撑大数据的想法和工具并非巧合。

大数据涌入企业带来了必要的对应：灵活性。成功地利用大数据的价值需要实验和探索。无论是创造新产品还是寻求获得竞争优势的方式，这项工作都需要好奇心和创业观。

大数据的样子是什么？

作为一个全面的术语，“大数据”可能非常模糊，与“云”这个术语涵盖多种技术的方式一样。大数据系统的输入数据可能来自社交网络，Web服务器日志，流量传感器，卫星图像，广播音频流，银行交易，摇滚音乐MP3，网页内容，政府文件扫描，GPS追踪，汽车遥测，金融市场数据等等。这些都是真的一样的东西吗？

为了澄清问题，容量，速度和变化的三个V 通常用于描述大数据的不同方面。它们是一个有用的镜头，通过它可以查看和了解数据的性质以及可用于利用它们的软件平台。很有可能你会在某种程度上与每一个V对抗。
从处理大量信息的能力中获得的收益是大数据分析的主要吸引力。拥有更多的数据会获得更好的模型：在给定大量数据的情况下，简单的数学运算可能会产生不合理的效果。如果您可以在考虑300个因素而不是6个因素的情况下进行预测，您是否可以更好地预测需求？

本卷是传统IT结构面临的最直接挑战。它要求可扩展存储和分布式查询方法。许多公司已经拥有大量的归档数据，可能是日志的形式，但没有处理它的能力。

假设数据量大于常规关系数据库基础架构可以处理的数据量，那么处理选项可以广泛分解为大规模并行处理架构 - 数据仓库或数据库（如Greenplum和Apache Hadoop解决方案）之间的选择。这种选择通常取决于其他“V”之一 - 多样性 - 发挥的程度。通常情况下，数据仓库方法涉及预定的模式，适合规则和缓慢演变的数据集。另一方面，Apache Hadoop对它可以处理的数据结构没有任何条件。

Hadoop的核心是一个用于在多个服务器上分配计算问题的平台。最初由雅虎开发并发布的开源代码，它实现了Google在编译其搜索索引时率先采用的MapReduce方法。Hadoop的MapReduce涉及在多个服务器之间分发数据集并对数据进行操作：“地图”阶段。部分结果然后重新组合：“减少”阶段。

为了存储数据，Hadoop使用自己的分布式文件系统HDFS，它使数据可用于多个计算节点。典型的Hadoop使用模式涉及三个阶段：

将数据加载到HDFS中，
MapReduce操作和
从HDFS中检索结果。
这个过程本质上是批处理操作，适用于分析或非交互式计算任务。正因为如此，Hadoop本身并不是一个数据库或数据仓库解决方案，但可以充当其中的一个分析附件。

最着名的Hadoop用户之一是Facebook，其模型遵循这种模式。MySQL数据库存储核心数据。然后，这反映到计算发生的Hadoop中，例如根据您的朋友的兴趣为您创建推荐。然后，Facebook将结果传回MySQL，供用户使用的页面使用。

速度

数据速度的重要性 - 数据流入组织的速度越来越快 - 其数据量也与之类似。以前仅限于工业领域的问题现在呈现在更广泛的范围内。金融交易商等专业化公司长期以来一直致力于将快速移动数据应对于其优势的系统。现在轮到我们了。

为什么？互联网和移动时代意味着我们交付和使用产品和服务的方式越来越成熟，产生了一个数据流回供应商。网上零售商能够编制客户每次点击和互动的大型历史记录，而不仅仅是最终销售。那些能够快速利用这些信息的人，例如通过推荐额外购买，就可以获得竞争优势。随着消费者携带地理定位图像和音频数据的流式来源，智能手机时代又一次增加了数据流入的速度。

例如，传入数据的速度不仅仅是问题所在：例如，可以将快速移动的数据传输到大容量存储中以供后续批处理使用。重要性在于反馈循环的速度，从输入到决策都需要数据。IBM的一份商业广告表明，如果您只有5分钟的流量位置快照，您就不会过马路。有些时候您无法等待报表运行或Hadoop作业完成。

这种快速移动数据的行业术语往往是“流式数据”或“复杂事件处理”。在流式处理数据获得更广泛的相关性之前，后一个术语在产品类别中更加明确，并且似乎可能会减少，流。

考虑流处理有两个主要原因。第一种情况是输入数据太快而无法完整存储：为了保持实际存储需求，数据流入时需要进行一定程度的分析。在极端情况下，CERN的大型强子对撞机产生如此多的数据以至于科学家必须抛弃绝大多数数据 - 希望他们不会丢掉任何有用的东西。考虑流式传输的第二个原因是应用程序强制立即响应数据的地方。由于移动应用和在线游戏的兴起，这种情况越来越普遍。

处理流式传输数据的产品类别分为既定的专有产品，如IBM的InfoSphere Streams，以及源自网络行业的较少抛光和仍在涌现的开源框架：Twitter的Storm和Yahoo S4。

如上所述，这不仅仅是输入数据。系统输出的速度也很重要。反馈回路越紧密，竞争优势就越大。结果可能会直接转化为产品，例如Facebook的建议，或直接导入用于推动决策的仪表板。

正是这种对速度的需求，特别是在网络上，促进了键值存储和列式数据库的开发，并针对预先计算的信息的快速检索进行了优化。这些数据库构成了被称为NoSQL的伞类别的一部分，在关系模型不适合时使用。

品种

数据很少呈现完美排列并准备好处理的形式。大数据系统的一个共同主题是源数据是多样的，并不属于纯粹的关系结构。它可以是来自社交网络的文本，图像数据，直接来自传感器源的原始数据。这些东西都没有准备好集成到应用程序中。

即使在网络上，计算机与计算机之间的通信也应该带来一些保证，但数据的真实性却很混乱。不同的浏览器发送不同的数据，用户隐藏信息，他们可能使用不同的软件版本或供应商与您进行通信。而且你可以打赌，如果这个过程的一部分涉及到人，就会出现错误和不一致。

大数据处理的一个常见用途是采用非结构化数据并提取有序含义，供人类消费或作为应用程序的结构化输入。一个这样的例子是实体解析，即确定名称所指的名称的过程。这个城市是伦敦，英国还是伦敦，德克萨斯？当你的业务逻辑到达它时，你不想猜测。

从源数据移动到已处理的应用程序数据的过程涉及信息的丢失。当你收拾时，你最终会扔掉东西。这强调了大数据的原则：尽可能保持一切。你扔掉的位上可能会有有用的信号。如果你失去了源数据，就不会回头。

尽管关系数据库的普及程度和易于理解的性质，但即使在整理好之后，它们也不应该始终是数据的目的地。某些数据类型更适合某些类别的数据库。例如，编码为XML的文档在存储在专用XML存储（如MarkLogic）中时功能最多。社交网络关系本质上是图形，而像Neo4J这样的图形数据库使它们的操作更简单和更高效。

即使没有激进的数据类型不匹配，关系数据库的一个缺点就是它的模式的静态特性。在敏捷的探索环境中，计算结果将随着检测和提取更多信号而发展。半结构化的NoSQL数据库满足了这种灵活性需求：它们提供了足够的结构来组织数据，但在存储数据之前不需要确切的数据模式。

在实践中
我们已经探索了大数据的性质，并从高层次调查了大数据的景观。像往常一样，当涉及到部署时，除了工具选择之外，还有一些维度需要考虑。

云或内部？
现在大多数大数据解决方案都以三种形式提供：纯软件，作为设备或基于云的。决定采取何种途径取决于数据地点，隐私和法规，人力资源和项目要求等问题。许多组织选择混合解决方案：使用按需云资源来补充内部部署。

大数据很大
这是一个根本性的事实，数据太大，无法处理传统的数据也太大，无法在任何地方传输。IT正在经历一个倒退的优先事项：这是需要移动的程序，而不是数据。如果你想分析来自美国人口普查的数据，那么在亚马逊的网络服务平台上运行你的代码要容易得多，它在本地托管这样的数据，并且不花你时间或金钱来传输它。

即使数据不是太大而无法移动，地区仍然是个问题，尤其是在数据快速更新的情况下。金融交易系统集中到数据中心以获得与源数据的最快连接，因为处理时间的毫秒差异等同于竞争优势。

大数据很混乱
这不是全部关于基础设施。大数据从业人员一致地报告说，处理数据所涉及的工作中的80％首先将其清理干净，正如Pete Warden在其大数据词汇表中所述：“我可能花费更多时间将凌乱的源数据转换为可用的数据，而不是我将其余的数据分析过程结合起来。“

由于数据采集和清洗的成本很高，因此值得考虑您实际需要采集的数据。数据市场是获取公共数据的一种手段，而且您经常能够回馈改进。质量当然可以是可变的，但会越来越成为数据市场竞争的基准。

文化

大数据现象与数据科学的出现息息相关，数据科学是数学，编程和科学本能的结合。受益于大数据意味着投资于拥有该技能的团队，并且围绕他们组织愿意理解和使用数据以获取优势。

DJ Patil 在他的报告“ 建设数据科学团队 ”中指出，数据科学家具有以下特质：

技术专长：最好的数据科学家通常在某些科学领域拥有深厚的专业知识。
好奇心：渴望走到表面之下，发现和提炼出一个可以测试的非常明确的假设。
讲故事：使用数据讲故事并能够有效地传达故事的能力。
聪明：以不同的，创造性的方式来看问题的能力。
大数据分析项目的深远性质可能会带来令人不舒服的地方：数据必须打破孤岛才能被挖掘，组织必须学习如何沟通和分析结果。

讲故事和聪明的技巧是最终决定分析劳动力的好处是否被组织吸收的关键因素。数据可视化的艺术和实践在弥合人机差距以有意义的方式调解分析洞察力方面变得越来越重要。

知道你想去的地方

最后，请记住，大数据不是万能的。你可以在你的数据中找到模式和线索，但那又如何？IBM在北美的高级分析领域的领导者克里斯特约翰逊（Christer Johnson）为从大数据开始的企业提供了这样的建议：首先，决定你想解决什么问题。

如果您选择真正的业务问题，例如如何改变广告策略以增加每位客户的支出，它将指导您的实施。虽然大数据工作从创业精神中受益，但它也从具体目标中受益匪浅。