使用美丽汤进行刮擦:找到类在pandas中添加信息

我想知道如何从该网站提取年初的信息:


https://web.archive.org/details/www.stackoverflow.com


我有几个网站可以查看 pandas 专栏,例如:


URL                                     Popularity

www.stackoverflow.com                       8.5

www.web.archive.com                         5.4

...

我需要在数据集中创建一个包含 URL 年龄的新列,即


URL                                     Popularity            Y

www.stackoverflow.com                       8.5             2004   

www.web.archive.com                         5.4             2001

...

通过检查网页,我知道我需要查看 input min,如下所示:


<input min="2004" max="2020" class="form-control" name="year_end" type="number" value="2004">

我尝试如下:


 from bs4 import BeautifulSoup

 import requests


 main_url = 'https://web.archive.org/details/www.stackoverflow.com'

 response = requests.get(main_url)

 soup = BeautifulSoup(response.text, "html.parser")

我应该使用 find_all 来查找我感兴趣的类:


my_list = soup.find_all(attrs={'input min','class':'form-control'})

但问题是它不刮年龄。


你能指出我正确的方向吗?谢谢


回首忆惘然
浏览 104回答 0
0回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python