快速入门Hadoop3.0大数据处理_技术问答

慕盖茨8737730

关于主从问题: 2025-01-13 0回答·98浏览

慕尼黑7287496

有没有什么好的方法造大量数据的: 如果想要构造某种格式的大量数据，可以自己写一个代码循环进行迭代即可，在循环内部按照一定格式组装数据，最后通过输出日志或者直接写文件的方式就可以得到对应的大量数据了。; 2023-02-14 1回答·376浏览

慕的地2103031

上课会给相关的软件安装包吗

课程中需要用到的软件安装包、以及相关代码都在网盘中了：

链接：https://pan.baidu.com/s/1LaTqzY5NR9pv5-Xg5sWWOA

提取码：1234

2022-12-23 1回答·354浏览

徐老师

此案例中的测试数据在这里

json数据的资料、sqoop相关的资料已经上传到这个网盘链接中了

链接：https://pan.baidu.com/s/1AhKOkvsob_ugADZaQc6RlQ

提取码：dy6j

2022-12-12 1回答·382浏览

慕虎5584530

namenode启动失败: 这个课程中的问题无法实时推送给我这个账号，所以回复的比较晚，一般我会隔几天来看一下大家提的问题，最近比较忙，中间耽搁的时间就长了一些，抱歉; 2022-11-07 2回答·405浏览

慕沐1209291

hadoop可以有多个主节点吗？

Hadoop里面其实包含了HDFS集群和YARN集群。

根据你的意思来看应该是说的HDFS的主节点NameNode把，如果NameNode节点对应的内存满了，可以考虑使用federation联邦机制（需要用到多个NameNode节点），这样可以提高NameNode节点的存储能力。

此时每个NameNode负责维护一个命名空间，命名空间简单理解就是一个HDFS目录，这个HDFS目录下文件的元数据信息就存储在对应的这个NameNode内存中。其他的NameNode负责维护其他的命名空间，这样整个HDFS集群的存储能力就提高了。

2022-09-07 1回答·565浏览

慕虎5584530

请问启动后 jps为啥只显示了一个datanode进程: 2022-08-04 0回答·263浏览

qq_北辰元凰_0

老师，hadoop jps 从服务器只有jps ，主服务器 data 目录下没有文件，但显示success

看起来像是没有格式化成功。

最直接的定位方法是查看/data/hadoop_repo目录下的日志文件，进程没有成功启动的话在对应的日志文件中会有报错信息

2022-03-18 1回答·477浏览

酱汁怪兽

导入失败，失败的原因会是哪些呢？

已采纳徐老师的回答

sqoop底层会生成mapreduce任务，所以在控制台看不到错误的具体信息，需要到YARN界面中查看任务的具体报错信息。

根据你这个业务来分析的话，是从hdfs中将数据导出到mysql中，大概率是由于hdfs中数据的mysql中表的字段个数、或者字段类型不匹配导致的问题，想要定位到具体问题，还是要到YARN上查看这个任务的具体错误日志才能真正定位

2022-02-07 1回答·612浏览

大俊PUPPY

任务提交成功，但是一直没有执行结果: 不好意思，刚看到，解决了就好，这种情况基本上都是集群配置层面的问题; 2021-11-05 1回答·1509浏览

努力学习啊啊

jps后namenode和secondrynamenode

已采纳徐老师的回答

核心错误日志是这一句：

Caused by: java.net.UnknownHostException: hadoop100

表示不认识hadoop100这个主机名，需要配置hostname以及/etc/hosts

2021-10-24 3回答·710浏览

qq_慕哥0479702

ConnectException

重启机器就好了

2021-07-01 1回答·581浏览

Lemuel

客户端如何安装？

客户端机器的配置和集群机器的配置保持完全一样即可，唯一的区别是，客户端节点上不需要启动任何进程。

其实最简单的做法就是把集群中修改好配置的hadoop安装包直接拷贝到客户端节点即可

2021-05-10 1回答·489浏览

帝国大学

Error: java.lang.ClassNotFoundException: com.alibaba.fastjson.JSON: 需要使用 WordCount-1.0-SNAPSHOT-jar-with-dependencies.jar包; 2021-04-22 1回答·909浏览

fz放逐

jps可以，浏览器连接超时: 应该是防火墙没关导致的; 2021-04-10 2回答·612浏览

qq_慕码人8451087

在服务器上安装的，启动后，web ui界面打不开

9870端口无法打开

https://blog.csdn.net/weixin_45094136/article/details/115349017

另外要查看防火墙是否真的关闭了

我安装的时候9870,8088这2个端口都打不开就是这2个问题造成的

2021-03-17 1回答·906浏览

失眠的小绵羊

课程资料发一下吧

课程代码在这

链接：https://pan.baidu.com/s/1JJ5AHDOd3gIXJmo6g08Btg

提取码：ghbt

2021-01-23 2回答·597浏览

慕仙2544840

key value之间的分隔符

空格和制表符直接看起来不好区分，在videoinfowritable的tostring方法中使用的制表符

你要是想验证的话，可以把tostring方法中的制表符改为逗号，再跑一下代码就会发现结果中是用逗号分割的了

2020-12-29 1回答·598浏览

慕瓜8068663

本地测试代码: mapreduce代码默认不支持直接在本地调试; 2020-12-29 1回答·537浏览

珏山

提交到jar包到hadoop集群后没有任何反应，也不报错，代码和老师的对了好几遍应该没错。应该是什么问题呢？非常感谢老师解决

你到8088界面中查看了吗，能不能看到任务信息

很奇怪，没有任何输出信息

你这样执行一下试试，使用hadoop内置的wordcount案例

hadoop jar hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /input /output

你可以加一下慕课的大数据学习qun 938632081 方便沟通

2020-12-12 3回答·1168浏览

weidong_伟东

老师求救啊

已采纳徐老师的回答

核心日志在这

File /README.txt._COPYING_ could only be written to 0 of the 1 minReplication nodes. There are 0 datanode(s) running and 0 node(s) are excluded in this operatio

意思是说从节点没有启动成功，现在没有正常的datanode

2020-11-13 2回答·700浏览

weidong_伟东

老师这个上传时候报错了,啥情况

禁用selinux:

编辑 /etc/selinux/config文件，设置“SELINUX=disabled”

2020-11-13 1回答·525浏览

weidong_伟东

客户端节点怎么和集群配套用呢: 已采纳慕粉1232246429 的回答; 客户端通过命令比如hdfs，访问、提交相关任务到集群; 2020-11-12 3回答·575浏览

weidong_伟东

这个安装包在哪里给我呢官网太慢了下载

已采纳徐老师的回答

使用这个国内源下载会快

https://mirrors.tuna.tsinghua.edu.cn/apache

2020-11-12 2回答·720浏览

qq_慕码人8451087

我没有改那4个脚本文件，就正常启动了，jps和浏览器查看的都正常，是怎么回事？

一样的效果，你在/etc/profile里面设置也是可以的

/etc/profile里面是设置的全局的环境变量，在执行那4个脚本的时候就可以识别到那些配置了

2020-10-28 1回答·621浏览

EarlyDoctor

hdfs dfs 和 hadoop fs

是一样的，

hadoop fs这种用法是在hadoop1.x的时候提供的

在hadoop2.x的时候提供了新的用法，hdfs dfs，同时也兼容了hadoop1.x中的写法，所以两个效果是一样的。

2020-10-27 1回答·594浏览

WHU20163025803504180544

namenode节点数

针对你提的这个疑问：

【如果集群规模比较大时，要在每一个节点上面启动 jobhistorysever岂不是很麻烦？】

在生产环境下搭建大数据集群的时候，建议使用CDH或者HDP进行搭建，方便运维管理，主需要通过页面操作就可以实现hadoop集群的搭建，这些进程也都会自动启动，不需要单独手工操作。

2020-10-26 3回答·744浏览

WHU20163025803504180544

数据倾斜问题

针对你说的这种场景，会出现这种结果：

有2个节点读取本地节点中的数据进行本地计算，另外2个节点上没有数据的，则会跨节点拉取数据进行计算。

默认情况下会优先读取本节点的数据，这是最优的策略，如果由于各种原因无法满足这种策略，会退而求其次，进行跨节点数据传输

2020-10-26 1回答·606浏览

慕村5180283

hadoop jar 提交任务没有反应: 看下你代码的第32行，错误信息提示的是数组角标越界了; 2020-09-29 1回答·1395浏览

慕村5180283

能发一下源码吗

代码已上传至网盘?

链接：https://pan.baidu.com/s/1JJ5AHDOd3gIXJmo6g08Btg

提取码：ghbt

2020-09-29 1回答·635浏览