python正则表达式_技术笔记

慕函数2106304 2020-05-30

基础知识特别有帮助

0赞 · 0采集

Fighting_大叔 2020-04-06

Python 3 代码，获取图片不在是src开头，另外图片结尾有jpg和npg。特别是下载重命名时不能都命名为jpg格式。

# get html 
req = urllib.request.urlopen('https://www.imooc.com/course/list')
buf_html = req.read().decode('utf-8')
images_tmp = re.findall(r'data-original=.*(?:jpg|png)', buf_html)


#get image url list
img_urls = []
for ins in images_tmp:
    t = re.split(r'//', ins)
    img_urls.append('http://' + t[1])

i = 1
for url in img_urls:
    fileName = open(str(i) + '.' + re.split(r'\.', url)[-1], 'wb')
    req1 = urllib.request.urlopen(url)
    buf_image = req1.read()
    fileName.write(buf_image)
    i += 1

1赞 · 0采集

weixin_慕雪6549448 2020-01-13

#环境python3.7
import re
import urllib.request

req=urllib.request.urlopen('https://www.imooc.com/course/list')#读取网站
buf=req.read().decode('utf-8')#读取网站中的字符串
listurl1=re.findall(r'//img.+\.jpg',buf)#找到匹配对象
str1=' '.join(listurl1)#在前面添加https：
subhttps=re.sub(r'//','https://',str1)
sht=re.split(r' ',subhttps)
#保存图片
i=0
for url in sht:
    f=open(str(i)+'.jpg','wb+')#打开一个文件（文件名，写入方式）若不存在就会创建，wb+才支持byte的写入
    req=urllib.request.urlopen(url)
    buf=req.read()
    f.write(buf)
    i+=1

1赞 · 1采集

歆沐 2019-10-22

构造句法规则，匹配字符，爬虫抓取

截图
0赞 · 0采集
kingdompeak 2019-10-18
抓取网页中的图片到本地：
1. 抓取网页
  import urllib2
  req=urllib2.urlopen(url)
  buf=req.read()
2. 获取图片地址
3. 抓取图片内容并保存到本地
0赞 · 0采集
慕仰2907144 2019-09-29

求解释每一步是什么意思？不明白
i = 0
for url in listurl:
file = open('D:/python/'+str(i)+'.jpg','w')
req = urllib2.urlopen(url)
buf = req.read()
file.write(buf)
i += 1
time.sleep(1)
第一步，初始化变量i=1。
第二步，遍历URL列表中的每一个图片的URL
        第三步，打开一个文件并返回一个文件对象file，如果文件不存在，则创建文件，w是以只写的方式打开
        第四步，用urlopen()方法远程请求url的数据并返回一个文件对象req
        第五步，读取文件对象的内容，保存到变量buf
        第六步，将内容写到file里面
        第七步，i 自增，也就是通过变量自增达到文件名不能相同的目的
        第八步，调用time模块的sleep()方法,可以将程序在这一步暂停1秒钟
        第九步，关闭文件对象，老师没有写，file.close()，这句尽量要写，否则文件可能有问题，具体自己了解吧
没了~。~

0赞 · 0采集
慕仰2907144 2019-09-28

程序在windows下运行需要写一个相对路径，如:把 str(i)+'\.jpg'变成'D:\\'+str(i)+'\.jpg'，图片就会生成在D盘根目录下:)

0赞 · 0采集

霜花似雪 2019-05-26

import re

from urllib import request


def spider_mm():
    #<img src="http://i1.whymtj.com/uploads/tu/201905/10220/z6cs1a6z.jpg" width="180" height="270" />
    req = request.urlopen('http://www.umei.cc/meinvtupian/')
    buf = req.read().decode('utf-8')
    #print(buf)
    list_url = re.findall(r'src=.+\.jpg', buf)
    #print(list_url)

    # 把src="去掉
    for i in range(len(list_url)):
        list_url[i] = re.sub(r'src="', '', list_url[i])
        print(list_url[i])


    i = 0
    for url in list_url:   #读取并保存到本地
        f = open('E:\\image\\' + str(i) + '.jpg', 'wb+')
        #req = request.urlopen('http:' + url)  # 必须要加上http:
        req = request.urlopen( url)  # 必须要加上http:
        buf = req.read()
        f.write(buf)
        f.close()
        i += 1



if __name__=="__main__":
    spider_mm()

0赞 · 0采集

Dianepure_ 2019-03-01

课程编译环境： python 2.7
简单爬取网页步骤：
        1）分析网页元素
      2）使用urllib2打开链接
        3）读取链接文本
        4）使用re匹配出期望文本内容并分条存入list
        5）创建文件定义文件名规则，并将list中的链接逐条用urllib2打开后写入


0赞 · 0采集
qq_E_71 2018-12-23

抓网页，抓图片地址，抓图片内容并保存本地

截图
0赞 · 0采集
钱好 2018-12-04

Urllib:
Python3中将Python2.7的urllib和urllib2两个包合并成了一个urllib库，其主要包括以下模块：
urllib.request 请求模块
urllib.request.urlopen(url)
from urllib import request
request.urlopen()
urlopen返回对象提供方法：
　　read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作。
　　info()：返回HTTPMessage对象，表示远程服务器返回的头信息。
　　getcode()：返回Http状态码。
　　geturl()：返回请求的url。
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块

0赞 · 1采集
渔船21 2018-09-09

末节练习可揣摩揣摩，正则表达式讲得真心好

截图
0赞 · 0采集
不喝奶茶w 2018-07-31

python3代码
import re
from urllib import request
url = 'https://www.imooc.com/course/list'
html = request.urlopen(url).read().decode('utf-8')
listurl = re.findall(r'src=.+\.jpg',html)
for i in range(len(listurl)):
listurl[i] = re.sub(r'src="','',listurl[i]) #把src="去掉
i = 1
for url in listurl:
f = open('E:\\test\\imooc\\scrap\\data\\'+str(i)+'.jpg','wb+')
html = request.urlopen('https:'+url).read() #必须要加上https:
f.write(html)
f.close()
i += 1

5赞 · 5采集
慕前端1089051 2018-03-08

爬呀爬，爬呀爬呀爬。

0赞 · 0采集
慕用8912214 2018-02-07

#coding:utf-8 import urllib.request req = urllib.request.urlopen('https://www.imooc.com/course/list') buf = req.read() buf = buf.decode('utf-8') import re urlInfo = re.findall(r'//img.+?\.jpg', buf) D = {} for url in urlInfo: D[url] = url i = 1 for (url,v) in D.items(): #print(url,i) f = open('E:\\Eclipse-py\\imooc\\src\\regular\\images\\'+str(i)+'.jpg', 'wb+') req = urllib.request.urlopen('https:'+url) buf = req.read() #buf = buf.encode('utf-8') f.write(buf) f.close() i += 1

0赞 · 0采集
慕用8912214 2018-02-06

#coding:utf-8 import urllib.request req = urllib.request.urlopen('https://www.imooc.com/course/list') buf = req.read() buf = buf.decode('utf-8') import re urlInfo = re.findall(r'//img.+?\.jpg', buf) i = 1 for url in urlInfo: f = open(str(i)+'.jpg', 'wb+') #print('https:'+url) req = urllib.request.urlopen('https:'+url) buf = req.read() #buf = buf.encode('utf-8') f.write(buf) f.close() i += 1

0赞 · 1采集
jhcj 2017-11-30

import urllib2,re pa = urllib2.urlopen('https://www.imooc.com/course/list?c=python') read = pa.read() fi = re.findall(r'src=.+?\.jpg',read) fi = str(fi) # 列表转字符串 ",".join(list) fi1 = re.findall(r'img.+?\.jpg',fi) #获取图片地址 i = 0 for url in fi1: f = open(str(i)+'.jpg','wb') req = urllib2.urlopen("https://"+url) buf = req.read() f.write(buf) i += 1 f.close() print "complete %s.jpg" %i

0赞 · 0采集
joymusic3420803 2017-11-27

listurl = re.findall(r'src.+jpg',buf) listurl = map( lambda x: x.replace('src="','http:'),listurl) for url in listurl: f = open(str(i)+'.jpg', 'w') req = urllib2.urlopen(url) buf = req.read() f.write(buf) i += 1

截图
0赞 · 0采集
慕少3238855 2017-10-10

import urllib3 import re http = urllib3.PoolManager() # 1: site url req = http.request('GET', 'http://www.imooc.com/course/list') content = req.data.decode('utf-8') # 2: picture urls listurl = re.findall(r'src=.+\.jpg', content) pic_url_list = map(lambda x : x[:4], listurl) # 3: write pictures i = 0 for url in pic_url_list: # open as a binary file f = open(str(i)+ '.jpg', 'wb') f.write(http.request('GET', url).data) f.close() i += 1

0赞 · 1采集
iPhiliph 2017-08-23

网页url:<img class="course-banner lazy" data-original="http://img.mukewang.com/57fb629000019d3d06000338-240-135.jpg" src="http://img.mukewang.com/57fb629000019d3d06000338-240-135.jpg" style="display: inline;">, 安照以前的匹配会出错，所以我才用的两次匹配 # -*- coding:utf-8 -*- import re, urllib2 request = urllib2.urlopen('http://www.imooc.com/course/list') buf = request.read() listurl = re.findall(r'src=.+\.jpg',buf) res=[] for url in listurl: a= re.findall(r'http:.+\.jpg',url) res.append(a[0]) for url in res: print url index = 0 for url in res: f = open(str(index)+'.jpg', 'rw') request = urllib2.urlopen(url) buf = request.read() f.write(buf) index = index + 1

0赞 · 1采集
许娜 2017-08-14

网页url:<img class="course-banner lazy" data-original="http://img.mukewang.com/57fb629000019d3d06000338-240-135.jpg" src="http://img.mukewang.com/57fb629000019d3d06000338-240-135.jpg" style="display: inline;">, 安照以前的匹配会出错，所以我才用的两次匹配 # -*- coding:utf-8 -*- import re, urllib2 request = urllib2.urlopen('http://www.imooc.com/course/list') buf = request.read() listurl = re.findall(r'src=.+\.jpg',buf) res=[] for url in listurl: a= re.findall(r'http:.+\.jpg',url) res.append(a[0]) for url in res: print url index = 0 for url in res: f = open(str(index)+'.jpg', 'rw') request = urllib2.urlopen(url) buf = request.read() f.write(buf) index = index + 1

0赞 · 0采集
龍_遇见彩虹 2017-08-01

Python 2.7.13 (v2.7.13:a06454b1afa1, Dec 17 2016, 20:42:59) [MSC v.1500 32 bit (Intel)] on win32 Type "copyright", "credits" or "license()" for more information. >>> print 1+2 3 >>> import urllib2 >>> req = urllib2.urlopen('http://www.imooc.com/course/list?c=python') >>> buf = req.read() >>> print buf >>> import re >>> urllist = re.findall(r'http:.+\.jpg', buf) >>> i = 0 >>> for url in urllist: f = open(str(i) + '.jpg', 'wb') req = urllib2.urlopen(url) buf = req.read() f.write(buf) i += 1

0赞 · 0采集
Uestc_L 2017-07-27

抓取网页上的图片 1.获取网页，打开网页 url （实际是向网站发出请求） 2.将获取的 html 文件读到本地中 3.将文件写入本地文件

截图
1赞 · 1采集
养猫人 2017-07-17

爬取网站图片过程： import urllib2 //导入urllib2包 req=urllib2.urlopen('http://www.XXXX.com') //对网页发出请求 buf=req.read() //将网页内容读取到buf缓存中 import re urllist = re.findall(r'http:.+\.jpg',buf) //获取图片地址列表 i=0 for url in urllist: f=open(str(i)+'.jpg','wb') //创建一个文件，命名为{str(i).jpg} ‘w’:采用写入方式，若无该文件则创建它 req = urllib2.urlopen(url) //请求该地址内容 buf = req.read() //读取请求信息 f.write(buf) //将buf内容写到文件f中 i+=1

1赞 · 0采集
诗赋 2017-07-17

import urllib2#导入模块 import re req = urllib2.urlopen('http://www.imooc.com/course/list') buf = req.read() listurl = re.findall(r'http：.+\.jpg',buf) i=0 for url in listurl: f = open(str(i)+'.jpg','w') req = urllib2.urlopen(url) buf = req.read() f.write(buf) i += 1

0赞 · 0采集
誉晓 2017-06-02

抓取图片

截图
0赞 · 0采集
兰陵萧萧笙 2017-05-21

#写入模式要用wb，如果用w，下载图片大部分是空的 import re import urllib2 req = urllib2.urlopen('http://www.imooc.com/course/list') buf = req.read() listurl = re.findall(r'http:.+\.jpg', buf) i = 0 for url in listurl: f = open(str(i) + '.jpg', 'wb') req = urllib2.urlopen(url) buf = req.read() f.write(buf) i += 1

0赞 · 1采集
慕侠9103198 2017-05-11

>>> import re >>> import urllib2 >>> req =urllib2.urlopen('http://www.mi.com/') >>> buf=req.read() >>> listurl=re.findall(r'src=.+\.jpg',buf) >>> listurl >>> i=0 >>> for url in listurl: f=open(str(i)+'.jpg','wb') req=urllib2.urlopen(url) buf=req.read() f.write(buf) i+=1

0赞 · 0采集
慕侠9103198 2017-05-11

>>> import re >>> import urllib2 >>> req =urllib2.urlopen('http://www.mi.com/') >>> buf=req.read() >>> listurl=re.findall(r'src=.+\.jpg',buf) >>> listurl 终端下

1赞 · 0采集
慕侠9103198 2017-05-11

Python 3.x 版本这么输入： In [1]: import re In [2]: import urllib.request In [3]: req = urllib.request.urlopen('http://www.imooc.com/course/list') In [4]: buf = req.read() In [5]: buf = buf.decode('utf-8') In [6]: listurl = re.findall(r'src=.+\.jpg', buf)

1赞 · 0采集

数据加载中...

python正则表达式

求解释每一步是什么意思？不明白