常用数据采集框架:DataX Gonlbblin Flume
数据采集系统的基本需求
//TODO
如何设计支持多种数据源的数据抽取方案
如何构建数据采集的元数据信息
如何通过元数据信息建立数据的血缘关系
常见数据采集框架
1)Apache Flume:分布式、可靠的、高可用的日志收集系统,支持多种数据来源,
配置灵活。
2)Gobblin:用来整合各种数据源的通用型ETL框架,理论上各种数据都可以在这里
“一站式”解决整个ETL整个过程
3)DataX:阿里开源的异构数据源同步工具,致力于实现关系数据库、HDFS、Hive、
HBase、FTP等异构数据源的稳定数据同步。
流程示意图:
数据采集框架图