我创建了一个脚本来从网页中获取不同产品的链接。我的目的是只有在产品有Ajouter au panier
标志时才抓取链接,意思是Add to Basket
。html 结构非常简单且易于使用,但获取所需链接的逻辑似乎很棘手。我使用了三个不同的链接来显示变化。
很少有网址指向所需的产品,但仍然有目录(如果我使用它们的链接)可以产生更多产品。查看图像链接以亲自查看。我在第一张图片中的目录周围画了圆圈,它仍然可以生产所需的产品,而在该页面中,几乎没有所需的产品。
这是我写的脚本:
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup
urls = (
"https://www.directmedical.fr/categorie/aspirateurs-de-mucosite.html",
"https://www.directmedical.fr/categorie/literie.html",
"https://www.directmedical.fr/categorie/vetement.html"
)
def get_links(link):
r = requests.get(link)
soup = BeautifulSoup(r.text,"lxml")
for item in soup.select(".browseCategoryName a"):
ilink = urljoin(link,item.get("href"))
print(ilink)
if __name__ == '__main__':
for url in urls:
get_links(url)
如何Ajouter au panier使用这些网址获取所有带有标志的产品链接?
相关分类