本课介绍数据预处理过程体系,包括数据类型与采集、文本转化与抽取、数据集成与规约、中文分词、数据清洗、特征提取与变换、特征向量化、特征降维、特征选择、可视化、词典模型、TF-IDF向量模型、主题模型等。
1、本课程面向一定编程基础的计算机专业、软件工程专业、通信专业、电子技术专业和自动化专业的学生。
2、本课程也适用于大数据从业者及人工智能相关工程人员。
3、任何有兴趣的同学均适合学习。
1、掌握数据缺失值、偏态数据等处理技巧
2、手工打造词袋模型与TF-IDF向量化技术
3、掌握Gensim实现特征向量化