递归读取30万新闻
算法思路:
·实现文件遍历递归算法回顾
·遍历读取30万新闻
·每万条读取打印一次屏幕
·完成30万新闻遍历读取
import os,time
"""
功能描述:遍历目录,对子文件单独处理
"""
# 2 遍历目录文件
def TraversalDir(rootDir):
#返回指定目录包含的文件或文件夹的名字的列表
for i,list in enumerate(os.listdir(rootDir)):
# 待处理文件夹名字列表
path = os.path.join(rootDir,lists)
# 核心算法,对文件具体操作
if os.path.isfile(path):
if i%10000 == 0:
print('{t}***{i} \t {f} docs has been read'.format(i=i,t=time.
strftime('%Y-%m-%d %H:%M:%S',time.localtime())))
# 递归遍历文件目录
if os.path.isdir(path):
TraversalDir(path)
if __name__=='__main__':
t1=time.time()
rootDir = r' /dataSet/CSC'
TraversalDir(rootDir)
t2 = time.time()
print('Total Cost Time %.2f' %(t2-t1)+'s')