问答详情
源自:4-2 python正则表达式练习

我的图片抓取后每张图片都有两张是怎么回事啊?urlist里面也是重复的

https://img3.mukewang.com/5b45a64a0001d20b09860555.jpg

['img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg' 'img3.mukewang.com/5b33637d00016cbe05400300-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img2.mukewang.com/5b20d7dd000124da06000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b14f0d3000189d206000338-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img4.mukewang.com/5b39ca9100014d8605400300-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img2.mukewang.com/5b39cfff0001a2ed06000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b1e49640001904606000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b3061210001550306000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img4.mukewang.com/5b289bbe0001fc4906000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img1.mukewang.com/5b14e8310001197706000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img3.mukewang.com/5b28da010001930906000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img4.mukewang.com/5b2218750001370806000338-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img2.mukewang.com/5b1f61150001a20905400300-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1e0cfc0001ef7b06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img4.mukewang.com/5b1dd1fa0001b70d06000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img3.mukewang.com/5b14d44b00014f9606000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img.mukewang.com/5b14b0480001672706000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b14c8690001f5b406000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img4.mukewang.com/5b0248080001dcc306000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img3.mukewang.com/5b052bca000137c006000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img.mukewang.com/5b025dbd00015d1a06000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img4.mukewang.com/5b03eead0001196606000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img3.mukewang.com/5afe7ffa00018fff06000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img1.mukewang.com/5b03c68a000159b506000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img2.mukewang.com/5afbe5b30001007e06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img1.mukewang.com/5afd3bee0001afdc06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img4.mukewang.com/5ae96be40001e24e06000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img3.mukewang.com/5af553c300015fb806000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5adfee7f0001cbb906000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img2.mukewang.com/5ae3e5b80001818c06000338-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg', 'img1.mukewang.com/5ae4458000016dfe05400300-240-135.jpg']

提问者:哇古语 2018-07-11 14:41

个回答

  • qq_雙子_04312075
    2018-11-27 20:58:24

    #listurl = re.findall(r'//img.+?\.jpg', buf)      这样的贪婪模式下会下载两次一样的图片,改成下方那种

    listurl = re.findall(r'src=".+?\.jpg', buf) 


    #前面没有了http:,手动加上

    for index,app_id in enumerate(listurl):

        listurl[index] = str(app_id).replace('src="', 'http:')

        print(index, listurl[index])

        print(listurl)


  • 阿德罗斯
    2018-07-29 09:54:36

    https://img2.mukewang.com/5b5d1e140001dba704810072.jpg从你的正则表达式可以看出你可以将data_original和src里边的都可以匹配到,而这两个是一样的,所以你就会重复

  • nunu卿
    2018-07-11 16:08:54

    可能就是你爬取到的网站本来就有两个重复的图片地址链接,你可以使用去重的方法set()或者使用一个判断,判断是否已经存在,若不存在就将他添加到一个列表中。