关于爬取到的图片

来源:4-1 python正则表达式之re模块方法介绍

xxx3683148

2017-09-04 16:58

为什么爬下来的图片是原网页中按照最热排序的,而手动打开原网页却是自动按最新排序的

#  Python 3.6.1
#                         ----By  Wang
import re
import urllib.request

req=urllib.request.urlopen('http://www.imooc.com/course/list')
buf=req.read()
buf=buf.decode('utf-8')
listurl=re.findall(r'src=.+?\.jpg',buf)

i=0
for url in listurl:
      url=re.search(r'http:.+?\.jpg',url)
      f=open(str(i)+'.jpg','wb')
      req=urllib.request.urlopen(url.group())
      buf=req.read()
      f.write(buf)
      f.close()
      i+=1


写回答 关注

1回答

  • 赖lai
    2017-09-05 22:41:12
    已采纳

    我猜,打开最新的链接是这样的http://www.imooc.com/course/list?sort=last,如果链接没有参数sort=last的话,慕课网就默认返回的是最热的显示内容吧,毕竟通过最热,可以让用户更好的找到当前热门的自己喜欢的课程吧

    xxx368...

    非常感谢!

    2017-09-09 18:52:15

    共 1 条回复 >

python正则表达式

如何使用正则处理文本,带你对python正则有个全面了解

80575 学习 · 174 问题

查看课程

相似问题