哇古语
2018-07-11 14:41
['img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg' 'img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg']
#listurl = re.findall(r'//img.+?\.jpg', buf) 这样的贪婪模式下会下载两次一样的图片,改成下方那种
listurl = re.findall(r'src=".+?\.jpg', buf)
#前面没有了http:,手动加上
for index,app_id in enumerate(listurl):
listurl[index] = str(app_id).replace('src="', 'http:')
print(index, listurl[index])
print(listurl)
从你的正则表达式可以看出你可以将data_original和src里边的都可以匹配到,而这两个是一样的,所以你就会重复
可能就是你爬取到的网站本来就有两个重复的图片地址链接,你可以使用去重的方法set()或者使用一个判断,判断是否已经存在,若不存在就将他添加到一个列表中。
python正则表达式
80575 学习 · 174 问题
相似问题