Map的局部聚合虽然是可选项,执行局部聚合与不执行局部聚合,对于全局数据的清洗到聚合的全流程来说,性能有影响嘛?
提前进行map的局部聚合,会提高性能,因为聚合后map端通过shuffle发送到reduce端的数据就少了,对应的就减少了网络传输的时间