如果需要的话,那么我的系统中岂不是会存储两份?

我有500G的数据,分别存储在机器A、B上,为了快速分析数据,我使用A,B,C,D四台机器做了一个hadoop集群。A是master。请问我是否需要将这500G的数据先上传到hadoop中?

慕神8447489
浏览 115回答 1
1回答

芜湖不芜

是必须把这500G上传到你Hadoop的文件系统(HDFS)中HDFS中,默认是会存储3份(为了数据高可用和就近访问)的,也就是会在你的BCD三个节点中共占用1500G空间,你可以手工设置冗余的份数。你通过hdfs的命令只看到一个500G的文件,实际上它们被拆成64m大小的块了(块大小也可以设),每块都有3份最后,再次建议你找相关的文档阅读、实践,反复钻研了百思不得其解的问题再来求助。你要做项目的,这点学习成本是应该付出的。你这一下就发了两个这么入门级的问题,虽然我都耐心回答了,但对你对我效率都太低了。
打开App,查看更多内容
随时随地看视频慕课网APP