我正在使用 Python 和 lxml 尝试抓取此 html 页面。我遇到的问题是试图从这个超链接文本“Chapter02a”中获取 URL。(请注意,我似乎无法在此处使用链接格式)。
<li><a href="[Chapter02A](https://www.math.wisc.edu/~mstemper2/Math/Pinter/Chapter02A)">Examples of Operations</a></li>
我试过了
//ol[@id="ProbList"]/li/a/@href
但这只会给我文本“Chapter02a”。
还:
//ol[@id="ProbList"]/li/a
这将返回一个 lxml.html.HtmlElement'object,并且我在文档中找到的所有属性都无法完成我想要做的事情。
from lxml import html
import requests
chapter_req = requests.get('https://www.math.wisc.edu/~mstemper2/Math/Pinter/Chapter02')
chapter_html = html.fromstring(chapter_req.content)
sections = chapter_html.xpath('//ol[@id="ProbList"]/li/a/@href')
print(sections[0])
我希望部分是小节的 URL 列表。
慕田峪7331174
摇曳的蔷薇
相关分类