问答详情
源自:4-2 python正则表达式练习

神了个奇,我抓到的图片竟然和目标网址的图片不一样,跪求解答

5718c4840001ae5005000359.jpg

5718c48f0001e12e05000260.jpg

5718c48f000114d305000413.jpg

如图所示,为什么会这样子?

提问者:MiroslavKlose 2016-04-21 20:17

个回答

  • 龙德梦
    2016-05-04 17:01:23
    已采纳

    去测试了一下,果不其然。相信你和我的做法一样。

    当你登录慕课账号时和没有登录账号时 看到 的课程是不一样的。我们的test爬虫没有登录,但是我们打开页面的时候我们的账号是登录的。

    解决办法:

        1、在检查爬去的图片是否正确时,可以先把自己的账号退出,再去核对,就会发现爬去的图片是正确的了。

        2、在爬虫中加入模拟登陆,具体的操作可以看看 python爬虫 的那一节课程

  • 念小東
    2017-08-18 17:50:07

    请问我文件中的图片都是有2张相同的,什么原因呢?亲

    下面是我的代码:

    import urllib2
    import re
    req = urllib2.urlopen('http://www.imooc.com/course/list')
    buf = req.read()
    listurl = re.findall(r'http:.+?\.jpg', buf)
    print listurl

    i = 0
    for url in listurl:
       f = open(str(i)+'.jpg', 'wb')
       req = urllib2.urlopen(url)
       buf = req.read()
       f.write(buf)
       i += 1
       f.close()


  • 龙德梦
    2016-05-04 16:39:57

    和你一样

  • hemin110
    2016-04-24 21:23:12

    url没匹配对吧