Python数据预处理（二）- 清洗文本数据_技术问答

weixin_慕尼黑7100639

HandLP包谁有

已解决

http://nlp.hankcs.com/download.php?file=data

2022-07-11 1回答·563浏览

weixin_慕慕7264533

去停用词为什么要逆序遍历？: 2021-03-20 0回答·540浏览

weixin_慕慕7264533

跑出来后原数据还是没有被清洗是怎么回事: 是写回的; 2021-03-17 0回答·692浏览

weixin_慕慕7264533

HanLP包文件: 2021-03-08 0回答·667浏览

一陀牛屎

不完整啊，想看后面的结果

把这里的 loadFolders 改成 loadFiles 就可以了,

2020-06-14 1回答·781浏览

慕小小小小小鱼

后面的yield和close能否跟前面的for对齐?: 看一下结果是不是一样的就可以了呀; 2020-04-24 1回答·952浏览

慕小小小小小鱼

有没有大神考虑一下放在一起应该怎么写呢，虽然我知道这样更好啊。。但是有没有大神会的。。自己写不明白。。: 2020-04-16 0回答·894浏览

jack_lee

原始的word，pdf文件有吗？: 有的，去gethub上去下https://github.com/bainingchao/DataProcess; 2020-04-10 1回答·975浏览

慕圣5597559

作者编译器输出结果在右面是怎么设置的，我的都是在下面，看起来很不方便: 2020-03-05 0回答·900浏览

初来乍到请多关照2333

没有说明isfile的情况: 2020-02-19 0回答·812浏览

_Griffith

tfidf.tocarry() 数据很大的时候，会memoryerror,怎么处理？: 2020-02-15 0回答·1707浏览

weixin_慕UI3285801

你这个应该没有做读操作吧: 2019-12-06 0回答·814浏览

jiminie125

Deprecated: convertStrings was not specified when starting the JVM.: 2019-12-04 0回答·2223浏览

慕村1348781

调用yield生成器问题: yield用法可参见廖雪峰的教程https://www.liaoxuefeng.com/wiki/1016959663602400/1017318207388128; 2019-11-27 1回答·783浏览

慕妹6056579

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x86 in position 27: invalid start byte: 可能是因为你的代码是复制进入的编码方式不对; 2019-11-16 2回答·1877浏览

冰忆1996

源码能分享下吗

https://github.com/bainingchao/DataProcess

2019-11-13 2回答·1120浏览

qq_慕娘1462895

老师，代码有吗

https://github.com/bainingchao/DataProcess/tree/master/ClearText

点开就能看见源码

2019-10-27 1回答·878浏览

qq_Ordinary_8

停用词列表从哪儿下载？: 2019-09-17 2回答·1407浏览

慕设计7585634

30万条新闻数据

老师给了一个这个链接

1 复旦新闻语料下载：

链接: https://pan.baidu.com/s/1U3CtXRl-2mH24PNEzTcy8w 提取码: bxtj

2019-09-16 1回答·1016浏览

精武门大少

输出无结果: 你是怎么写的输出呢？看一下代码; 2019-09-16 1回答·649浏览

qq_慕的地4421799

分词并发去除停用词

这个是列表解析式，这个part是从后面那个part过来的，比如 a = [1,2,3]

b = [x for x in a]，则b也等于[1,2,3]

2019-08-25 1回答·922浏览

Jazz_Qi

老师，最后一集没有了一部分，怕错时突然没有了？: 修改之后时间还是0.00; 2019-08-25 2回答·947浏览

qq_哈哈哈虎三_0

在运行时出现这个ExceptionInInitializerError错误，是因为什么呢？: 我的问题解决方法是路径中的\符号改为/符号即可。; 2019-08-12 3回答·6482浏览

兔哒

结果打印不出来

print('{t} *** {i} \t docs has been dealed'

.format(i=i, t=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime())),'\n',catg,':\t',file[:20])

file???

2019-08-09 2回答·829浏览

兔哒

工具包下载: https://github.com/bainingchao/DataProcess; 2019-08-08 2回答·547浏览

慕仙3805527

怎么没有源代码: https://github.com/bainingchao/DataProcess; 2019-08-04 1回答·944浏览

威威12123

求源码下载: https://github.com/bainingchao/PyDataPreprocessing; 2019-07-25 3回答·848浏览

慕慕4214327

sklearn中tf-idf中结果的（0，10）的10是什么意思？: 表示该文档类别下某个词的概率。其中10代表这个特征词的所在位置的序号; 2019-07-23 1回答·1062浏览

慕慕4214327

正则过滤掉特殊符号、标点、英文、数字等这段代码可以提供一下吗

# 正则对字符串清洗

def textParse(str_doc):

# 正则过滤掉特殊符号、标点、英文、数字等。

r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./:：;；|<=>?@，—。?★、…【】《》？“”‘’！[\\]^_`{|}~]+'

# 去除空格

r2 = '\s+'

# 去除换行符

str_doc=re.sub(r1, ' ', str_doc)

# 多个空格成1个

str_doc=re.sub(r2, ' ', str_doc)

# 去除换行符

# str_doc = str_doc.replace('\n',' ')

return str_doc

2019-07-22 1回答·1790浏览

慕仙9501834

NLP 分词NLPTokenizer运行报错，其他的正常: 你可以借助jiagu或者jieba分词，性能都差不多。; 2019-07-17 1回答·1984浏览