Python数据预处理（二）- 清洗文本数据_技术笔记

扶云归 2023-09-03

递归读取30万新闻

算法思路：

·实现文件遍历递归算法回顾

·遍历读取30万新闻

·每万条读取打印一次屏幕

·完成30万新闻遍历读取

import os,time
"""
功能描述：遍历目录，对子文件单独处理
"""
# 2 遍历目录文件
def TraversalDir(rootDir):
    #返回指定目录包含的文件或文件夹的名字的列表
    for i,list in enumerate(os.listdir(rootDir)):
        # 待处理文件夹名字列表
        path = os.path.join(rootDir,lists)
        # 核心算法，对文件具体操作
        if os.path.isfile(path):
            if i%10000 == 0:
                print('{t}***{i} \t {f} docs has been read'.format(i=i,t=time.
                    strftime('%Y-%m-%d %H:%M:%S',time.localtime())))
        # 递归遍历文件目录
        if os.path.isdir(path):
            TraversalDir(path)
if __name__=='__main__':
    t1=time.time()
    rootDir = r'  /dataSet/CSC'
    TraversalDir(rootDir)
    t2 = time.time()
    print('Total Cost Time %.2f' %(t2-t1)+'s')

0赞 · 0采集

数据加载中...