HTML代码:
<div>
<p class="title">
<a href="/news/123456">title_1</a>
</p>
</div>
<div>
<p class="title">
<a href="/news/789000">title_2</a>
</p>
</div>
我的代码:
def web(WebUrl):
site = urlparse(WebUrl)
code = requests.get(WebUrl)
plain = code.text
s = BeautifulSoup(plain, "html.parser")
p_containers = s.find('p', {'class':'title'})
for title in s.find_all('p', {'class':'title'}):
line = title.get_text()
print(line)
for link in p_containers.find_all('a'):
line2 = link.get('href')
print(site.netloc + str(line2))
嗨,大家好,我需要一些帮助,我的任务是从网页中提取标题和链接,我能够提取标题而不是链接。当我尝试抓取链接时,我只成功抓取了第一个链接,以下链接被忽略并替换为第一个抓取的链接。
HUX布斯
慕码人8056858
相关分类