Hadoop基本使用
查看集群基本信息
hdfs dfsadmin -report [-live] [-dead] [-decommissioning]
-report 输出文件系统基本信息及相关数据统计
-report -live 输出文件系统中在线节点的基本信息及相关数据统计
-report -dead 输出文件系统中失效节点的基本信息及相关数据统计
-report -decommissioning 输出文件系统中停用节点的基本信息及相关数据统计
命令
网页版
服务 | WEB接口 | 默认端口 |
---|---|---|
NameNode | http://namenode_host:port | 50070 |
ResourceManager | http://resourcemanager_host:port/ | 8088 |
MapReduce JobHistory Server | http://jobhistoryserver_host:port/ | 19888 |
查询集群计算资源信息
HDFS基本操作
命令 | 解释 |
---|---|
hdfs dfs [-copyToLocal [-p] [-ignoreCrc] [-crc] <src>...<localdst> ] | 将文件从HDFS文件系统复制到本地文件系统,主要参数<src>为HDFS文件系统路径,<localdst>为本地文件系统路径 |
hdfs dfs [-get [-p] [-ignoreCrc] [-crc] <src>...<localdst>] | 获取HDFS文件系统上指定路径的文件到本地文件系统,主要参数<src>为HDFS文件系统路径,<localdst>为本地文件系统路径 |
命令 | 解释 |
---|---|
hdfs dfs [-cat [-ignoreCrc] <src>...] | 查看HDFS文件内容,主要参数<src>指定文件路径 |
hdfs dfs [-tail [-f] <file>] | 输出HDFS文件最后1024字节,主要参数<file>指定文件 |
命令 | 解释 |
---|---|
hdfs dfs [-rm [-f] [-r/-R] [-skipTrash] <src>...] | 删除HDFS上的文件,主要参数-r用于递归删除,<src>指定删除文件的路径 |
hdfs dfs [-rmdir [--ignore-fail-on-non-empty] <dir>...] | 如果删除的是一个目录,则可以使用该方法,主要参数<dir>指定目录路径 |
删除文件或目录
查看文件内容
文件页面
HDFS下创建目录
hdfs dfs -mkdir -p <path>
上传文件
命令 解释 hdfs dfs [-copyFromLocal [-f] [-p] [-l]] <localsrc>...<dst>] 将文件从本地文件系统复制到HDFS文件系统,主要参数<localsrc>为本地文件路径,<dst>为复制的目标路径 hdfs dfs [-moveFromLocal <localsrc>...<dst>] 将文件从本地文件系统移动到HDFS文件系统,主要参数<localsrc>为本地文件路径,<dst>为移动的目标路径 hdfs dfs [-put [-f] [-p] [-l]] <localsrc>...<dst>] 将文件从本地文件上传到HDFS文件系统,主要参数<localsrc>为本地文件路径,<dst>为移动的目标路径 下载文件
MapReduce任务
模块名称 | 内容 |
---|---|
multifilewc | 统计多个文件中单词的数量 |
pi | 应用quasi-Monte Carlo算法来估算圆周率π的值 |
randomtextwriter | 在每个数据节点随机生成一个10G的文本文件 |
wordcount | 对输入文件中的单词进行频数统计 |
wordmean | 计算输入文件中单词的平均长度 |
wordmedian | 计算输入文件中单词长度的中位数 |
wordstandarddeviation | 计算输入文件中单词长度的标准差 |
命令
hadoop jar <jar> [mainClass] args
结果解释
job_1496827344397_0001:该形式表示此任务ID,通常也叫业务号
18/04/26 19:39:45 INFO mapreduce.Job: map 100% reduce 68%:map表示map操作进度,reduce表示reduce操作进度
Job job_1524672518157_0001 completed successfully:表示此作业成功完成
Map input records=8000000:表示输入的记录数量
Reduce output recordds=3896706:表示输出的结果数量
提交MapReduce任务给集群运行
Hadoop官方示例包测试模块
作者:腊月小星星
链接:https://www.jianshu.com/p/65f6ac0d6374