Python数据预处理（二）- 清洗文本数据-慕课网技术问答-课程问答

weixin_慕尼黑7100639 2022-07-11

HandLP包谁有

已解决

http://nlp.hankcs.com/download.php?file=data

1回答·658浏览

weixin_慕慕7264533 2021-03-20

去停用词为什么要逆序遍历？: 0回答·590浏览

weixin_慕慕7264533 2021-03-17

跑出来后原数据还是没有被清洗是怎么回事: 是写回的; 0回答·748浏览

weixin_慕慕7264533 2021-03-08

HanLP包文件: 0回答·728浏览

一陀牛屎 2020-06-14

不完整啊，想看后面的结果

把这里的 loadFolders 改成 loadFiles 就可以了,

1回答·845浏览

慕小小小小小鱼 2020-04-24

后面的yield和close能否跟前面的for对齐?: 看一下结果是不是一样的就可以了呀; 1回答·1024浏览

慕小小小小小鱼 2020-04-16

有没有大神考虑一下放在一起应该怎么写呢，虽然我知道这样更好啊。。但是有没有大神会的。。自己写不明白。。: 0回答·956浏览

jack_lee 2020-04-10

原始的word，pdf文件有吗？: 有的，去gethub上去下https://github.com/bainingchao/DataProcess; 1回答·1029浏览

慕圣5597559 2020-03-05

作者编译器输出结果在右面是怎么设置的，我的都是在下面，看起来很不方便: 0回答·944浏览

初来乍到请多关照2333 2020-02-19

没有说明isfile的情况: 0回答·858浏览

_Griffith 2020-02-15

tfidf.tocarry() 数据很大的时候，会memoryerror,怎么处理？: 0回答·1773浏览

weixin_慕UI3285801 2019-12-06

你这个应该没有做读操作吧: 0回答·858浏览

jiminie125 2019-12-04

Deprecated: convertStrings was not specified when starting the JVM.: 0回答·2285浏览

慕村1348781 2019-11-27

调用yield生成器问题: yield用法可参见廖雪峰的教程https://www.liaoxuefeng.com/wiki/1016959663602400/1017318207388128; 1回答·843浏览

慕妹6056579 2019-11-16

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x86 in position 27: invalid start byte: 可能是因为你的代码是复制进入的编码方式不对; 2回答·1928浏览

冰忆1996 2019-11-13

源码能分享下吗

https://github.com/bainingchao/DataProcess

2回答·1190浏览

qq_慕娘1462895 2019-10-27

老师，代码有吗

https://github.com/bainingchao/DataProcess/tree/master/ClearText

点开就能看见源码

1回答·941浏览

qq_Ordinary_8 2019-09-17

停用词列表从哪儿下载？: 2回答·1462浏览

慕设计7585634 2019-09-16

30万条新闻数据

老师给了一个这个链接

1 复旦新闻语料下载：

链接: https://pan.baidu.com/s/1U3CtXRl-2mH24PNEzTcy8w 提取码: bxtj

1回答·1079浏览

精武门大少 2019-09-16

输出无结果: 你是怎么写的输出呢？看一下代码; 1回答·677浏览

qq_慕的地4421799 2019-08-25

分词并发去除停用词

这个是列表解析式，这个part是从后面那个part过来的，比如 a = [1,2,3]

b = [x for x in a]，则b也等于[1,2,3]

1回答·988浏览

Jazz_Qi 2019-08-25

老师，最后一集没有了一部分，怕错时突然没有了？: 修改之后时间还是0.00; 2回答·1009浏览

qq_哈哈哈虎三_0 2019-08-12

在运行时出现这个ExceptionInInitializerError错误，是因为什么呢？: 我的问题解决方法是路径中的\符号改为/符号即可。; 3回答·6547浏览

兔哒 2019-08-09

结果打印不出来

print('{t} *** {i} \t docs has been dealed'

.format(i=i, t=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime())),'\n',catg,':\t',file[:20])

file???

2回答·887浏览

兔哒 2019-08-08

工具包下载: https://github.com/bainingchao/DataProcess; 2回答·608浏览

慕仙3805527 2019-08-04

怎么没有源代码: https://github.com/bainingchao/DataProcess; 1回答·1033浏览

威威12123 2019-07-25

求源码下载: https://github.com/bainingchao/PyDataPreprocessing; 3回答·894浏览

慕慕4214327 2019-07-23

sklearn中tf-idf中结果的（0，10）的10是什么意思？: 表示该文档类别下某个词的概率。其中10代表这个特征词的所在位置的序号; 1回答·1116浏览

慕慕4214327 2019-07-22

正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

# 正则对字符串清洗

def textParse(str_doc):

# 正则过滤掉特殊符号、标点、英文、数字等。

r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./:：;；|<=>?@，—。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'

# 去除空格

r2 = '\s+'

# 去除换行符

str_doc=re.sub(r1, ' ', str_doc)

# 多个空格成1个

str_doc=re.sub(r2, ' ', str_doc)

# 去除换行符

# str_doc = str_doc.replace('\n',' ')

return str_doc

1回答·1862浏览

慕仙9501834 2019-07-17

NLP 分词NLPTokenizer运行报错，其他的正常: 你可以借助jiagu或者jieba分词，性能都差不多。; 1回答·2043浏览