猿问

如何使用大型数据集在python中查找和替换字符串

我正在尝试更改大约 4GB 的大文件的分隔符。分隔符当前为“#|#”,我希望分隔符为“|”。


我尝试进行替换和查找,但由于文件很大,我的计算机没有足够的内存来完成代码。我想知道是否有一种方法可以逐行读取文件以节省内存。


text = open("C:\\test.txt", "r")

text = ''.join([i for i in text]).replace("#|#", "|")

x = open("C:\\test.txt","w")

x.writelines(text)

x.close()

这是文件当前的样子:


场#|#场#|#场#|#


我希望它看起来像


领域 | 领域 | 领域 |


慕后森
浏览 139回答 2
2回答

12345678_0001

当然,您可以逐行编写。事实上,一般来说,文件处理在使用文件对象作为上下文管理器和行迭代器的更惯用的方式中更实用:import shutilwith open("C:\\test.txt", "r") as long_file, \     open("C:\\test_replaced.tmp", "w") as replacement:    for line in long_file:        replacement.write(line.replace("#|#", "|"))shutil.move("C:\\test_replaced.tmp", "C:\\test.txt")只要您可以将临时文件写入磁盘而不会造成麻烦,这就会起作用。我没有一个好的、简洁的解决方案,使用标准库对文件进行就地更改,但这应该比迭代同一个文件两次并将整个内容读入内存要快得多,内存效率也更高。

一只甜甜圈

尝试使用生成器而不是将整个文件读入内存:text = open("C:\\test.txt", "r")text = ''.join((i for i in text)).replace("#|#", "|")x = open("C:\\test.txt","w")x.writelines(text)x.close()(i for i in text)语法允许延迟生成行,而不是将[i for i in text]所有行加载到内存
随时随地看视频慕课网APP

相关分类

Python
我要回答