python遇见数据采集_技术问答

Sky4480

读取不了wiki那个url链接,求助。。: 可以爬取wiki百科中文网; 2019-09-03 2回答·1151浏览

小小铁头娃

req = request.Request('https://search.bilibili.com/all?keyword=%E5%BE%90%E5%A4%A7SAO') 目前这样只能爬取一页的数据，如何把全部数据爬取下来，求教？: url修改成：https://api.bilibili.com/x/web-interface/search/type?search_type=video&highlight=1&keyword=%E5%BE%90%E5%A4%A7SAO&page=3&jsonp=jsonp&callback=__jp1直接设置page就可以了; 2019-08-10 1回答·1533浏览

xmlooh

爬不出来，求助

三个猪，真是笑死了，统一回复吧，

第一位的错误 if not re. search("\.(jpg|JPG)$", "url"): 改成这样 : if not re. search("\.(jpg|JPG)$", url["href"]):

主要改这里 "url"----->>>> url["href"]

第二位和第三位的错误一模一样，你两相互抄的吗？ if not re. search(\.(jpg|JPG$) ' aurl[' href'):改成这样 : if not re. search("\.(jpg|JPG)$", url["href"]):

主要改这里 (\.(jpg|JPG$)---------->>>>("\.(jpg|JPG)$

2019-03-16 3回答·1117浏览

孤僻成瘾

这节代码里的url["href"']: 列表里边是元组吧; 2018-12-16 1回答·710浏览

syso_Leon

python正则表达式匹配一字符串不匹配另一字符串，我要匹配http://example.webscraping.com/places/default/view/Antigua-and-Barbuda-10 不匹配http://example.webscraping.com/places/default/user/login?_next=/places/default/view/Antigua-and-Barbuda-10: re.complie("^http://example.webscraping.com/places/default/view"); 2018-08-04 2回答·3267浏览

慕斯卡4218631

运行结果是空: 解决了，原来是用错括号了，把[ ]看成（）了; 2018-06-24 1回答·1176浏览

Doubleneck

萌新询问....

已采纳 qq_邹冲_0 的回答

你试一下在anaconda里面导入看看会不会报错,我用的是pycharm在里面导入就不会报错

2018-04-05 2回答·645浏览

玖月思慕

import RE 无反馈

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import io
import sys
from urllib import request
from bs4 import BeautifulSoup
import re
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')  
resp = request.urlopen("http://news.baidu.com/").read().decode("utf-8")
soup =BeautifulSoup(resp,"html.parser")
listUrls=soup.find_all("a",href=re.compile(".*\/\/news\.baidu.*"))
for url in listUrls:
print (url.get_text(),"<------------>"+url["href"])

这个是我的，你可以参考一下

2017-11-15 2回答·3069浏览