我有几个文件夹,其中包含名称略有不同的重复文件(例如 file_abc.jpg、file_abc(1).jpg)或末尾带有“(1) 的后缀。我正在尝试开发一种相对简单的搜索方法通过文件夹,找出重复项,然后删除它们。重复项的标准是文件末尾的“(1)”,只要原始文件还存在即可。
我可以识别重复项,但是我无法以正确的格式创建文本字符串以删除它们。它需要是"C:\Data\temp\file_abc(1).jpg",但是使用下面的代码我最终得到r"C:\Data\temp''file_abc(1).jpg".
我查看了答案 [查找重复文件并删除它们,但这似乎比我需要的要复杂得多。
如果有更好(+简单)的方法来做到这一点,那么我会告诉我,但是我在 50 个奇数文件夹中总共只有大约 10,000 个文件,因此没有大量数据需要处理。
到目前为止我的代码是:
import os
file_path = r"C:\Data\temp"
file_list = os.listdir(file_path)
print (file_list)
for file in file_list:
if ("(1)" in file):
index_no = file_list.index(file)
print("!! Duplicate file, number in list: "+str(file_list.index(file)))
file_remove = ('r"%s' %file_path+"'\'"+file+'"')
print ("The text string is: " + file_remove)
os.remove(file_remove)
呼唤远方
相关分类