我有这个问题:我想从此页面中提取每个项目的 URL,但我不知道该怎么做。我试图通过
projects = main_page.find_all_next('div', attrs={'class':'relative self-start'})
但我没有得到链接。我怎样才能度过难关?预先感谢您帮助我。
本网站动态加载内容。所以你需要一些可以运行 javascript 的东西。有一个使用 selenium 访问站点的简单示例。
from selenium import webdriver
from bs4 import BeautifulSoup
url = "https://www.kickstarter.com/discover/categories/music"
dr = webdriver.Chrome() # or PhantomJS,Firefox
try:
dr.get(url)
main_page = BeautifulSoup(dr.page_source,"lxml")
projects = main_page.find_all('div', {'class':'relative self-start'})
project_showed = main_page.find_all("div",class_="bg-white black relative border-grey-500 border")
print(len(projects))
except Exception as e:
raise e
finally:
dr.close()
但是如果你不能及时加载数据,你应该使用WebDriverWait或Implicit等待它加载完成。WebDriverWait 和隐式
相关分类