我想知道如何从该网站提取年初的信息:
https://web.archive.org/details/www.stackoverflow.com
我有几个网站可以查看 pandas 专栏,例如:
URL Popularity
www.stackoverflow.com 8.5
www.web.archive.com 5.4
...
我需要在数据集中创建一个包含 URL 年龄的新列,即
URL Popularity Y
www.stackoverflow.com 8.5 2004
www.web.archive.com 5.4 2001
...
通过检查网页,我知道我需要查看 input min,如下所示:
<input min="2004" max="2020" class="form-control" name="year_end" type="number" value="2004">
我尝试如下:
from bs4 import BeautifulSoup
import requests
main_url = 'https://web.archive.org/details/www.stackoverflow.com'
response = requests.get(main_url)
soup = BeautifulSoup(response.text, "html.parser")
我应该使用 find_all 来查找我感兴趣的类:
my_list = soup.find_all(attrs={'input min','class':'form-control'})
但问题是它不刮年龄。
你能指出我正确的方向吗?谢谢
相关分类