Python爬虫抓取当当网图片时,正则表达式没有匹配到链接地址

最近正在学Python爬虫,从最基础的学起,即用 urllib 和 re 这两个包学抓取。

用教材(韦玮《精通Python网络爬虫》)第77页的方法爬京东的图片完全没问题,但想照猫画个虎,爬一下当当网儿童图书版块的图片,却怎么也行不通,用正则表达式做的 pattern,死活就是没有匹配到任何链接地址。

当当网初始页面:http://category.dangdang.com/pg1-cp01.41.26.00.00.00.html

求大神指正!

https://img4.mukewang.com/5b72a60e0001746807060484.jpg

大话西游666
浏览 758回答 1
1回答

小怪兽爱吃肉

修改第4、5两行如下,貌似就解决问题了:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;s&nbsp;=&nbsp;str(urllib.request.urlopen(url).read().decode(encoding='gbk'))&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;p&nbsp;=&nbsp;re.compile("<img&nbsp;data-original='(.+?)'",&nbsp;re.S)编码真的是个麻烦的问题,正则表达式也是,看来得多练习才行!
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python