从大数据入坑到流数据处理，Kafka学习的几点经验分享-原创手记-慕课网

Kafka是什么

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。在流式计算和实时处理方面有着广泛的应用。

Kafka的4个主要优点

随着公司从不同来源（例如网站，用户交互，金融交易）向各种目标系统（例如数据库，分析，电子邮件系统）提供越来越多的数据，开发人员必须为每个系统编写集成。例如，如果您有4个源系统和6个目标系统，那么您的IT团队开发人员必须编写24个集成代码。这是一个繁琐的过程，更不用说，一种缓慢且容易出错的数据传输方式。以下是使用Kafka的四个主要优点。

webp

充当缓冲区

以前，外部源系统的数据转换通常在晚上分批进行。Kafka通过充当从源系统接收数据的中介，然后实时地将这些数据提供给目标系统来解决这个缓慢的多步骤过程。更重要的是，您的系统不会崩溃，因为 Kafka是它自己独立的一组服务器（称为 Kafka集群）。

推荐阅读：大数据开发必备技能：https://www.imooc.com/article/259721

减少对多个集成的需求

从本质上讲， Kafka减少了对多个集成的需求 - 因为所有数据都通过 Kafka。您可以为每个生产系统和每个消耗系统创建一个与Apache Kafka的集成，而不是您的开发人员编写多个集成以便您可以从不同系统中获取数据。

低延迟和高吞吐量

通过解耦数据流， Kafka允许您在需要时使用数据。在不需要缓慢集成的情况下，Kafka将延迟（或每个数据点加载所需的时间）减少到仅仅10毫秒（与其他集成相比减少约10倍或更多）。这意味着您可以快速，实时地提供数据。 Kafka还可以横向扩展到群集中的数百个代理（或服务器）来管理大数据。

有些公司每秒通过Kafka拥有数百万个数据点的高负载。例如，优步使用Kafka实时将汽车位置数据提供给他们的激增定价计算模型。

每个人都可以访问数据

由于您的所有数据都集中在 Kafka中，因此任何团队的数据访问都变得更加容易。例如，在过去，您的欺诈团队可能不得不与网络团队互动以获取特定类型的用户数据，因为它们在不同的目标系统上运行。现在，您的欺诈团队将能够通过Kafka直接访问用户数据，以及其他提要，例如财务数据或网站交互。简单吧？

Kafka与大数据工程师

Kafka是大数据工程师必会的一项基本技能，kafka在公司大数据集群中充当着数据管道的作用，通过kafka收集流式数据存储到hdfs集群。无论是在广告电商还是游戏等互联网大数据业务应用中，kafka都起到关键作用。