lxml使用css时出现的问题求解决?

lxml使用css时出现的问题求解决


偶然的你
浏览 522回答 2
2回答

隔江千里

看你爬什么了,我推荐的最简单的就是用requests来获取响应网页,再用re或者bs4中的beautifulSoup来解析网页,其实网页爬取总的来说就是先获取网页,然后将网页的html代码进行解析,找到我们需要获取的数据,之后就再储存在文件里就可以了import requestsfrom bs4 import BeautifulSouplink = "https://.........."#需要用的网址headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'}#这是在构造请求头,在F12中的network可以找到r = requests.get(link, headers = headers)print(r.status_code, r.text)#这里得到的是网页的所有源代码html = r.textsoup = BeautifulSoup(html, 'lxml')#用bs4进行解析网页title = soup.find('div', class_=",,,,,,,,")#这里就是你需要用F12的element来定位你想要获取的信息with open('practise.txt','w') as file:#得到的结果写入文件file.write(title.text)file.close()
打开App,查看更多内容
随时随地看视频慕课网APP