如图所示,为什么会这样子?
去测试了一下,果不其然。相信你和我的做法一样。
当你登录慕课账号时和没有登录账号时 看到 的课程是不一样的。我们的test爬虫没有登录,但是我们打开页面的时候我们的账号是登录的。
解决办法:
1、在检查爬去的图片是否正确时,可以先把自己的账号退出,再去核对,就会发现爬去的图片是正确的了。
2、在爬虫中加入模拟登陆,具体的操作可以看看 python爬虫 的那一节课程
请问我文件中的图片都是有2张相同的,什么原因呢?亲
下面是我的代码:
import urllib2
import re
req = urllib2.urlopen('http://www.imooc.com/course/list')
buf = req.read()
listurl = re.findall(r'http:.+?\.jpg', buf)
print listurl
i = 0
for url in listurl:
f = open(str(i)+'.jpg', 'wb')
req = urllib2.urlopen(url)
buf = req.read()
f.write(buf)
i += 1
f.close()
和你一样
url没匹配对吧