核心概念之并行度
Flink 是由多个任务组成(source、transformation和sink)。一个任务由多个并行的实例(线程)来执行,一个任务的并行实例(线程)数目就被称为该任务的并行度。
并行度的级别,4种
合理设置并行度能极大的提高运行速度
(1)算子级别 设置flink的编程API修改,通过调用方法的方式
(2)运行环境级别 设置executionEnvironmentk的方法修改并行度
(3)客户端级别 $FINK_HOME/bin/flink的-p参数,
(4)系统级别 修改$FLINK_HOME/conf/flink-conf.yaml文件
并行度的优先级:算子>运行环境>客户端>系统
注意:并行度不能大于Slot个数
TaskManager为了对资源进行隔离和增加允许的task数,引入了slot的概念,这个slot对资源的隔离仅仅是对内存进行隔离,策略是均分,比如taskmanager的管理内存是3GB,假如有两个个slot,那么每个slot就仅仅有1.5GB内存可用
核心概念之时间
事件时间:是事件创建的事件。它通常由事件中的时间戳描述,例如kafka消息中的生成的时间戳
摄入时间:是事件进入Flink数据流运算符的时间
处理时间:是每一个执行时间操作的算符的本地时间
核心概念之并行度
◆算子级别设置flink的编程API修改
◆运行环境级别设置executionEnvironmentk的方法修改并行度
◆客户端级别$FLINK_HOME/bin/flink的-p参数
◆系统级别修改$轩LINK_HOME/conf/flink-confyaml文件