def req_url():
    req = urllib2.urlopen(url="https://coding.imooc.com/")  # 打开图片列表页面
    buf = req.read()  # 读取图片列表页面
    buf = buf.decode("utf-8")  # 将Unicode 转换为字符串 python3中返回的是unicode
    url_list = re.findall(r"//.+szimg.+\.jpg", buf)  # 提取图片url信息列表
    return url_list


def image_save():
    i = 1
    for url in req_url():
        url = "http:" + url  # 图片url拼接
        # print(url + "\n")   # 打印图片url
        f = open("album/" + str(i) + ".jpg", "wb")  # 打开图片存放地址  以二进制格式打开，因为是图片
        try:
            req = urllib2.urlopen(url)  # 打开图片url
            buf = req.read()  # 读取图片信息
            f.write(buf)  # 保存图片
            i += 1
        finally:
            if f:
                f.close()

2020-07-17 2回答·950浏览

慕容4002396

为何下载下来的图片是错位失真的: 打开方式用wb试一下; 2020-02-06 1回答·1456浏览

qq_晨曦_104

print(re.findall(r'http:.+\.jpg', 'http://123.jpg,http://234.jpg')) # 为啥打印出的是['http:123.jpg,http:234.jpg']，不是['http:123.jpg', 'http:234.jpg']: +默认是贪心匹配，可以加?让它变成非贪心匹配，就能够满足你的需求了
print(re.findall(r'http:.+?\.jpg', 'http://123.jpg,http://234.jpg')); 2020-02-05 2回答·1141浏览

大龙猫_

NICE 敢敢单单: 厉害了我的同学; 2019-12-24 1回答·866浏览

慕仰2907144

对着老师的代码搜索r'src=.+\.jpg' , buf 无法搜出，但网页明明是有这种形式的语句的，为什么呢？

网页更新了,你可以这样写:

r'src=//.+\.jpg' , buf

先把//双斜杠打头的这些给抓出来,再在前面加上 added_str = 'http:'

再操作就行了

2019-09-27 2回答·1158浏览

慕圣1858384

尴尬的问抓取到的图片保存到哪里了呢，本地没找到: 程序在windows下运行需要写一个相对路径，如:把 str(i)+'\.jpg'变成'D:\\'+str(i)+'\.jpg'，图片就会生成在D盘根目录下:); 2019-04-21 2回答·1216浏览

whn9527

ValueError: unknown url type: '['

需要转成list.

2019-03-22 2回答·5667浏览

用故事换晚安

图片爬取下来之后，怎么保存在本地呢？: 2018-12-21 2回答·1520浏览

逐光

图片存储问题求解答: python里边结尾不用写分号; 2018-07-28 1回答·745浏览

逐光

爬取的地址写入问题: 已采纳阿德罗斯的回答; 直接写入，你保存的就是一个地址，打开在读取之后保存的才是图片; 2018-07-28 1回答·1217浏览

哇古语

我的图片抓取后每张图片都有两张是怎么回事啊？urlist里面也是重复的

#listurl = re.findall(r'//img.+?\.jpg', buf) 这样的贪婪模式下会下载两次一样的图片，改成下方那种

listurl = re.findall(r'src=".+?\.jpg', buf)

#前面没有了http：，手动加上

for index,app_id in enumerate(listurl):

listurl[index] = str(app_id).replace('src="', 'http:')

print(index, listurl[index])

print(listurl)

2018-07-11 3回答·1538浏览

qq_空城沉浮_0

大神们，帮看下在python3.6上运行出现这个错误帮解决下，谢谢了

上面buf = req.read()改成

buf = req.read().decode('utf-8')

2018-06-15 3回答·2373浏览

Hoictas

re.findall(r'src=.+\.jpg', buf) 中的 \ . 不是不发生转义嘛，干嘛还这样写？

.是匹配任意字符，如果不加\，就是用.匹配的.

举个例子：

图片后缀都是.jpg，如果不加\，用.去匹配，有可能是xxxxxjpg，而不是xxxxx.jpg，就不是图片了

2018-05-27 1回答·2833浏览

几秋

module 'urllib' has no attribute 'request'

import urllib.request

2018-04-23 2回答·2824浏览

逍遥华星

用的python3，出现这个问题，请问大神怎么解决

把20行去掉，18行改成

f = open(str(i)+'.jpg', 'wb+')

试试看

2018-04-10 3回答·1452浏览

团子wwwxxx

请问为什么会出现urllib2.HTTPError: HTTP Error 400: Bad Request错误？: 已采纳芳芳菲菲的回答; 可以在req = urllib2.urlopen('http:'+url)上面 print 'http:'+url, 就会发现问题所在。listurl = re.findall(r'//.+\.jpg*',buf)这个地方的正则错误，应该使用非贪婪匹配模式，改为listurl = re.findall(r'//.+？\.jpg',buf)，即可。; 2018-03-16 2回答·5752浏览

qq_夏威夷的晴空_0

为什么req = urllib2.urlopen(url)会报错啊？而且只生成了一个无效图片

已采纳慕尼黑8959533 的回答

listurl = re.sub(r'src="','http:',str(listurl))的这一步结果是一个str,还需要再将地址匹配出来，多写一步：

listurl = re.findall(r'http:.+?\.jpg'),这样得到的结果是list

2018-02-03 2回答·2438浏览

qq_鑫_4

其他格式的，相对地址的如何提取呢

values = re.findall(r"src.*? ", res)

values = [t[len("src="):len(t) - 1] for t in values]

2018-01-24 1回答·1212浏览

慕粉1625345616

图片爬到后存储文件，windows下，打开图片失败

import re

import urllib

req = urllib.request.urlopen('http://www.imooc.com/course/list')

#此处加上decode()，不然拿下来的数据都是乱码

buf = req.read().decode("utf-8")

#老师讲课的url地址已经发生改变，改一下正则匹配就好

# listurl = re.findall(r'src=.+\.jpg', buf)

listurl = re.findall(r'//img.+?\.jpg', buf)

# 改成非贪婪模式就行了

#前面没有了http：，那么这里手动加上

for index,app_id in enumerate(listurl):

listurl[index] = str(app_id).replace('//', 'http://')

print(index, listurl[index])

print(listurl)

i = 0

for url in listurl:

#写入模式修改为“wb+”，不然不支持将bytes写入，亲测

f = open(str(i)+".jpg", "wb+")

req = urllib.request.urlopen(url)

buf = req.read()

f.write(buf)

i+=1

2018-01-21 4回答·1742浏览

慕勒4252497

src下没有http

import re

import urllib

req = urllib.request.urlopen('http://www.imooc.com/course/list')

#此处加上decode()，不然拿下来的数据都是乱码

buf = req.read().decode("utf-8")

#老师讲课的url地址已经发生改变，改一下正则匹配就好

# listurl = re.findall(r'src=.+\.jpg', buf)

listurl = re.findall(r'//img.+?\.jpg', buf)

# 改成非贪婪模式就行了

#前面没有了http：，那么这里手动加上

for index,app_id in enumerate(listurl):

listurl[index] = str(app_id).replace('//', 'http://')

print(index, listurl[index])

print(listurl)

i = 0

for url in listurl:

#写入模式修改为“wb+”，不然不支持将bytes写入，亲测

f = open(str(i)+".jpg", "wb+")

req = urllib.request.urlopen(url)

buf = req.read()

f.write(buf)

i+=1

f.close()

2017-12-11 3回答·1653浏览

慕盖茨5251222

关于正则表达式中的\: 转义字符，因为 . 在正则中表示任意一个字符，但这段代码需要的是 (.jpg)，这里面的. 就是. 本身，并不需要它表示任意一个字符，所以需要转义它，\. 代表转义。; 2017-11-26 1回答·1447浏览

慕盖茨5251222

为什么爬不到网页的地址啊，显示列表是空的

我用的pycharm，今天才手写的代码，改了几个小地方，都写在注释里面，楼主看看注意到没有，谢谢。

import re

import urllib

req = urllib.request.urlopen('http://www.imooc.com/course/list')

#此处加上decode()，不然拿下来的数据都是乱码

buf = req.read().decode("utf-8")

#老师讲课的url地址已经发生改变，改一下正则匹配就好

# listurl = re.findall(r'src=.+\.jpg', buf)

listurl = re.findall(r'//img.+?\.jpg', buf)

# 改成非贪婪模式就行了

#前面没有了http：，那么这里手动加上

for index,app_id in enumerate(listurl):

listurl[index] = str(app_id).replace('//', 'http://')

print(index, listurl[index])

print(listurl)

i = 0

for url in listurl:

#写入模式修改为“wb+”，不然不支持将bytes写入，亲测

f = open(str(i)+".jpg", "wb+")

req = urllib.request.urlopen(url)

buf = req.read()

f.write(buf)

i+=1

2017-11-25 3回答·1679浏览

慕移动6447889

图片保存问题: cat命令是查看文件内容，你直接看图片，它就把图片内容转换成十六进制给你显示出来了。你应该是在linux下遇到的这个情况，我是直接在windows下做的，所以没这个脚本。你可以考虑使用共享文件夹，然后再在windows下查看，或者用老师那个xftp工具; 2017-10-31 1回答·1399浏览

慕移动6447889

URLLIB2报错

1.url地址必须是http://或者 https:// 这样才行啊

2.python 3.x中urllib库和urilib2库合并成了urllib库

2017-10-31 1回答·1195浏览

慕仙6054988

找不到生成的图片: 在用户本地文件下; 2017-10-29 1回答·1302浏览

xxx3683148

关于爬取到的图片: 已采纳慕斯卡5018863 的回答; 这个涉及写的时候URL重定向类似的问题，没影响的，是网页本身的问题，和你爬的没关系。; 2017-09-04 1回答·1540浏览

q銀蛇

尴尬的问一下，爬取图片后为什么找不到图片

已采纳 qq_AI小艾_0 的回答

应该是网页的代码有变化了。

我的参考代码是这样的！：

import re

import requests

import os

def geturl():

if not os.path.exists("D:\\IMMOC"):

os.makedirs("D:\\IMMOC")

count=1

res=requests.get('http://www.imooc.com/course/list')

re_search=re.findall(r'src=.*\.jpg',res.text)

for each_url in re_search:

jieguo=re.search(r'http:.*\.jpg',each_url)

jieguo.group()

with open('D:\\IMMOC\\'+str(count)+'.jpg','wb') as file:

req_get=requests.get(jieguo.group())

file.write(req_get.content)

print('NO '+str(count)+' picture download successfully')

count+=1

geturl()

2017-08-30 1回答·2475浏览

122138763238273

额,老师的代码,是不是没关文件: 2017-08-11 2回答·811浏览

qq_一口一个小朋友_0

代码运行后报错: 已采纳隔壁码农老唐的回答; listurl = re.findall(r'http.+?\.jpg', buf) 改成非贪婪模式就行了; 2017-08-02 2回答·1704浏览

清一色610

新手求解，谢谢

已采纳慕粉3606827 的回答

我自己试了一下，发现会读取出这种如图1的结果，我个人猜测是因为在正则表达式中使用了+这个贪婪模式的字符，所以会尽量匹配多的字符，所以看图中就知道，它把两个地址的字符串都匹配进去了，因为两个字符串连接在一起也是http开头，.jpg结尾的，把“listurl = re.findall(r'http:.+\.jpg',buf)”改成“listurl = re.findall(r'http:.+?\.jpg',buf)”，读取的结果就正确了。以上是个人观点，如有不足之处还望指出。

2017-08-01 3回答·1474浏览

python正则表达式

+默认是贪心匹配，可以加?让它变成非贪心匹配，就能够满足你的需求了

print(re.findall(r'http:.+?\.jpg', 'http://123.jpg,http://234.jpg'))

r'src=//.+\.jpg' , buf