课程章节
课程/Python/后端开发
Python数据预处理(二)- 清洗文本数据
介绍
章节
问答
笔记
第1章 清洗文本信息
30万条数据准备情况
yield生成器实现斐波那契数列
递归遍历读取30万新闻数据
高效读取30万新闻数据
正则表达式介绍与常见使用场景(1)
正则表达式清洗文本数据(2)
清洗HTML网页数据
简繁字体转换
批量清洗30万新闻文本数据
第2章 文本特征提取
jieba分词精讲(1)
jieba分词精讲(2)
HanLP分词精讲
自定义去停用词
NLTK词频统计(1)
NLTK词频统计(2)
自定义选择高低词频
命名实体的提取
slearn计算多分类下的TFIDF
实战案例:30万新闻文本特征提取