已解决
http://nlp.hankcs.com/download.php?file=data
是写回的
把这里的 loadFolders 改成 loadFiles 就可以了,
看一下结果是不是一样的就可以了呀
有的,去gethub上去下https://github.com/bainingchao/DataProcess
yield用法可参见廖雪峰的教程https://www.liaoxuefeng.com/wiki/1016959663602400/1017318207388128
可能是因为你的代码是复制进入的 编码方式不对
https://github.com/bainingchao/DataProcess
https://github.com/bainingchao/DataProcess/tree/master/ClearText
点开就能看见源码
老师给了一个这个链接
1 复旦新闻语料下载:
链接: https://pan.baidu.com/s/1U3CtXRl-2mH24PNEzTcy8w 提取码: bxtj
你是怎么写的输出呢?看一下代码
这个是列表解析式,这个part是从后面那个part过来的,比如 a = [1,2,3]
b = [x for x in a],则b也等于[1,2,3]
修改之后 时间还是0.00
我的问题解决方法是路径中的\符号改为/符号即可。
print('{t} *** {i} \t docs has been dealed'
.format(i=i, t=time.strftime('%Y-%m-%d %H:%M:%S',time.localtime())),'\n',catg,':\t',file[:20])
file???
https://github.com/bainingchao/PyDataPreprocessing
表示该文档类别下某个词的概率。其中10代表这个特征词的所在位置的序号
# 正则对字符串清洗
def textParse(str_doc):
# 正则过滤掉特殊符号、标点、英文、数字等。
r1 = '[a-zA-Z0-9’!"#$%&\'()*+,-./::;;|<=>?@,—。?★、…【】《》?“”‘’![\\]^_`{|}~]+'
# 去除空格
r2 = '\s+'
# 去除换行符
str_doc=re.sub(r1, ' ', str_doc)
# 多个空格成1个
str_doc=re.sub(r2, ' ', str_doc)
# 去除换行符
# str_doc = str_doc.replace('\n',' ')
return str_doc
你可以借助jiagu或者jieba分词,性能都差不多。