weixin_慕尼黑7100639
2022-07-11
已解决
http://nlp.hankcs.com/download.php?file=data
weixin_慕慕7264533
2021-03-20
weixin_慕慕7264533
2021-03-17
是写回的
weixin_慕慕7264533
2021-03-08
一陀牛屎
2020-06-14

把这里的 loadFolders 改成 loadFiles 就可以了,
慕小小小小小鱼
2020-04-24
看一下结果是不是一样的就可以了呀
慕小小小小小鱼
2020-04-16
jack_lee
2020-04-10
有的,去gethub上去下https://github.com/bainingchao/DataProcess
慕圣5597559
2020-03-05
初来乍到请多关照2333
2020-02-19
_Griffith
2020-02-15
weixin_慕UI3285801
2019-12-06
jiminie125
2019-12-04
慕村1348781
2019-11-27
yield用法可参见廖雪峰的教程https://www.liaoxuefeng.com/wiki/1016959663602400/1017318207388128
慕妹6056579
2019-11-16
可能是因为你的代码是复制进入的 编码方式不对
冰忆1996
2019-11-13
https://github.com/bainingchao/DataProcess
qq_慕娘1462895
2019-10-27
https://github.com/bainingchao/DataProcess/tree/master/ClearText
点开就能看见源码
qq_Ordinary_8
2019-09-17
慕设计7585634
2019-09-16
老师给了一个这个链接
1 复旦新闻语料下载:
链接: https://pan.baidu.com/s/1U3CtXRl-2mH24PNEzTcy8w 提取码: bxtj
精武门大少
2019-09-16
你是怎么写的输出呢?看一下代码
qq_慕的地4421799
2019-08-25
这个是列表解析式,这个part是从后面那个part过来的,比如 a = [1,2,3]
b = [x for x in a],则b也等于[1,2,3]
Jazz_Qi
2019-08-25
修改之后 时间还是0.00
qq_哈哈哈虎三_0
2019-08-12
我的问题解决方法是路径中的\符号改为/符号即可。
兔哒
2019-08-09
print('{t} *** {i} \t docs has been dealed'
.format(i=i, t=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime())),'\n',catg,':\t',file[:20])
file???
兔哒
2019-08-08
慕仙3805527
2019-08-04
威威12123
2019-07-25
https://github.com/bainingchao/PyDataPreprocessing
慕慕4214327
2019-07-23
表示该文档类别下某个词的概率。其中10代表这个特征词的所在位置的序号
慕慕4214327
2019-07-22
# 正则对字符串清洗
def textParse(str_doc):
# 正则过滤掉特殊符号、标点、英文、数字等。
r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'
# 去除空格
r2 = '\s+'
# 去除换行符
str_doc=re.sub(r1, ' ', str_doc)
# 多个空格成1个
str_doc=re.sub(r2, ' ', str_doc)
# 去除换行符
# str_doc = str_doc.replace('\n',' ')
return str_doc
慕仙9501834
2019-07-17
你可以借助jiagu或者jieba分词,性能都差不多。