Python爬虫抓取当当网图片时，正则表达式没有匹配到链接地址

最近正在学Python爬虫，从最基础的学起，即用 urllib 和 re 这两个包学抓取。

用教材（韦玮《精通Python网络爬虫》）第77页的方法爬京东的图片完全没问题，但想照猫画个虎，爬一下当当网儿童图书版块的图片，却怎么也行不通，用正则表达式做的 pattern，死活就是没有匹配到任何链接地址。

当当网初始页面：http://category.dangdang.com/pg1-cp01.41.26.00.00.00.html

求大神指正！

大话西游666

浏览 869回答 1

1回答

小怪兽爱吃肉

修改第4、5两行如下，貌似就解决问题了：     s = str(urllib.request.urlopen(url).read().decode(encoding='gbk'))           p = re.compile("<img data-original='(.+?)'", re.S)编码真的是个麻烦的问题，正则表达式也是，看来得多练习才行！

0 0

随时随地看视频慕课网APP