设置地图任务数量和减少任务

首页课程实战体系课手记专栏慕课教程

设置地图任务数量和减少任务

我目前正在从事一项工作，我将地图任务的数量固定为20，但数量有所增加。我也将reduce任务设置为零，但是我仍然得到一个非零的数字。MapReduce作业完成的总时间也不会显示。有人可以告诉我我在做什么错。我正在使用此命令

hadoop jar Test_Parallel_for.jar Test_Parallel_for Matrix/test4.txt Result 3 \ -D mapred.map.tasks = 20 \ -D mapred.reduce.tasks =0

输出：

11/07/30 19:48:56 INFO mapred.JobClient: Job complete: job_201107291018_0164

11/07/30 19:48:56 INFO mapred.JobClient: Counters: 18

11/07/30 19:48:56 INFO mapred.JobClient: Job Counters

11/07/30 19:48:56 INFO mapred.JobClient: Launched reduce tasks=13

11/07/30 19:48:56 INFO mapred.JobClient: Rack-local map tasks=12

11/07/30 19:48:56 INFO mapred.JobClient: Launched map tasks=24

11/07/30 19:48:56 INFO mapred.JobClient: Data-local map tasks=12

11/07/30 19:48:56 INFO mapred.JobClient: FileSystemCounters

11/07/30 19:48:56 INFO mapred.JobClient: FILE_BYTES_READ=4020792636

11/07/30 19:48:56 INFO mapred.JobClient: HDFS_BYTES_READ=1556534680

11/07/30 19:48:56 INFO mapred.JobClient: FILE_BYTES_WRITTEN=6026699058

11/07/30 19:48:56 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=1928893942

11/07/30 19:48:56 INFO mapred.JobClient: Map-Reduce Framework

11/07/30 19:48:56 INFO mapred.JobClient: Reduce input groups=40000000

11/07/30 19:48:56 INFO mapred.JobClient: Combine output records=0

11/07/30 19:48:56 INFO mapred.JobClient: Map input records=40000000

11/07/30 19:48:56 INFO mapred.JobClient: Reduce shuffle bytes=1974162269

11/07/30 19:48:56 INFO mapred.JobClient: Reduce output records=40000000

11/07/30 19:48:56 INFO mapred.JobClient: Spilled Records=120000000

11/07/30 19:48:56 INFO mapred.JobClient: Map output bytes=1928893942

11/07/30 19:48:56 INFO mapred.JobClient: Combine input records=0

11/07/30 19:48:56 INFO mapred.JobClient: Map output records=40000000

11/07/30 19:48:56 INFO mapred.JobClient: Reduce input records=40000000

[hcrc1425n30]s0907855:

紫衣仙女

浏览 635回答 3

3回答

收到一只叮咚

举例说明：假设您的hadoop输入文件大小为2 GB，并且将块大小设置为64 MB，因此将设置运行32个Mappers任务，而每个映射器将处理64 MB块以完成Hadoop作业的Mapper作业。==>设置要运行的映射器的数量完全取决于1）文件大小和2）块大小假设您在4个集群大小上运行hadoop：假设您将conf文件中的mapred.map.tasks和mapred.reduce.tasks参数设置为节点，如下所示：Node 1: mapred.map.tasks = 4 and mapred.reduce.tasks = 4Node 2: mapred.map.tasks = 2 and mapred.reduce.tasks = 2Node 3: mapred.map.tasks = 4 and mapred.reduce.tasks = 4Node 4: mapred.map.tasks = 1 and mapred.reduce.tasks = 1假设您为该集群中的4个节点设置了上述参数。如果您注意到节点2分别只设置了2和2，因为节点2的处理资源可能较少，例如（2个处理器，2个内核），而节点4甚至分别设置为分别低到1和1，可能是由于处理资源该节点上有1个处理器，2个内核，因此不能运行超过1个mapper和1个reducer任务。因此，当您运行作业时，将节点1，节点2，节点3，节点4配置为运行最大作业。在作业需要完成的42个映射器任务中，总共（4 + 2 + 4 + 1）11个映射器任务同时进行。每个节点完成其映射任务后，它将处理42个映射器任务中剩余的其余映射器任务。现在开始使用reducers，因为将mapred.reduce.tasks设置为0，所以我们仅将mapper输出输出到42个文件中（每个mapper任务1个文件），而没有reducer输出。

0 0

随时随地看视频慕课网APP

相关分类

算法与数据结构: 数据结构中，与所使用的计算机无关的数据是什么？ 1 回答; 学完C语言之后是先学数据结构还是先学JAVA好呢？ 1 回答