快速入门Hadoop3.0大数据处理_技术笔记

qq_羽悦_03291187 2025-03-17

项目启动命令

0赞 · 0采集
qq_羽悦_03291187 2025-03-17

目录创建与文件上传命令

0赞 · 0采集
qq_羽悦_03291187 2025-03-17

数据清洗作业代码实现

0赞 · 0采集
qq_羽悦_03291187 2025-03-17

数据清洗作业

0赞 · 0采集
qq_羽悦_03291187 2025-03-17

原始数据清洗原因

0赞 · 0采集
大肾哥 2024-08-21

原始数据代码清洗步骤

0赞 · 0采集
大肾哥 2024-08-21

原始数据代码清洗步骤

0赞 · 0采集

zrey 2022-03-22

数据清洗

//json格式数据提取
//需要fastjson对数据解析
//不需要聚合不需要reduce
//k1,v1段固定<LongWritable, Text>
//k2,v2类型<Text, Text>k2主播id, v2核心字段，用\t分割

public class DataCleanMap extend Mapper<LongWritable,Text,Text,Text>{
    @Override
    protected void map(LongWritable k1, Text v1, Context context){
        String line =v1.toString();
        JSONObject jsonObj= JSON.parseObject(line);
        String id= jsonObj.getString("uid");
        int gold= jsonObj.getString("gold");
        int watchnumpv= jsonObj.getString("watchnumpv");
        
        if(gold>=0 && watchnumpv >= 0){
            Text k2 = new Text();
            k2.set(id);
            Text v2 = new Text();
            v2.set(gold+ "\t" + watchnumpv);
            context.write(k2, v2);
        }
    }
}


public class DataCleanJob{
}

0赞 · 0采集

时间的痕迹 2020-12-13

提交任务到hadoop：hadoop jar demo.jar com.example.Demo hdfs://input hdfs://output

截图
0赞 · 1采集
ALEXuer 2020-03-06

flom日志采集工具？

截图
0赞 · 0采集
gongwanyi 2020-03-01

原始数据清洗代码实现
1、由于原始数据是通过日志方式进行记录的，在使用日志采集工具采集到HDFS之后，还需要对数据进行清洗过滤，丢弃缺失字段的数据，针对异常字段进行标准化处理

截图
0赞 · 0采集

数据加载中...