使用 Python 从网页中提取链接

我有这个问题:我想从此页面中提取每个项目的 URL,但我不知道该怎么做。我试图通过

projects = main_page.find_all_next('div', attrs={'class':'relative self-start'})

但我没有得到链接。我怎样才能度过难关?预先感谢您帮助我。

http://img.mukewang.com/6113bd3400018adc25381294.jpg

本网站动态加载内容。所以你需要一些可以运行 javascript 的东西。有一个使用 selenium 访问站点的简单示例。


from selenium import webdriver

from bs4 import BeautifulSoup


url = "https://www.kickstarter.com/discover/categories/music"


dr = webdriver.Chrome() # or PhantomJS,Firefox

try:

    dr.get(url)

    main_page = BeautifulSoup(dr.page_source,"lxml")

    projects = main_page.find_all('div', {'class':'relative self-start'})

    project_showed = main_page.find_all("div",class_="bg-white black relative border-grey-500 border")

    print(len(projects))

except Exception as e:

    raise e


finally:

    dr.close()

但是如果你不能及时加载数据,你应该使用WebDriverWait或Implicit等待它加载完成。WebDriverWait 和隐式


隔江千里
浏览 236回答 1
1回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python