我正在尝试解析Djinni的个人项目工作描述。我正在使用 Python 3.6、BeautifulSoup4 和 requests 库。当我使用 requests.get 获取职位空缺页面的 html 时,它返回的 html 没有最关键的部分 - 描述文本。例如,采用此页面的 url -示例和我编写的以下代码:
def scrape_job_desc(self, url):
job_desc_html = self._get_search_page_html(url)
soup = BeautifulSoup(job_desc_html, features='html.parser')
try:
short_desc = str(soup.find('p', {'class': 'job-teaser svelte-a3rpl2'}).getText())
full_desc = soup.find('div', {'class': 'job-description-wrapper svelte-a3rpl2'}).find('p').getText()
except AttributeError:
short_desc = None
full_desc = None
return short_desc, full_desc
def _get_search_page_html(self, url):
html = requests.get(url=url, headers={'User-Agent': 'Mozilla/5.0 CK={} (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko'})
return html.text
它将返回short_desc,但不返回full_desc。此外,所需的 <p> 标签的文本根本不存在于 html 中。但是当我使用浏览器下载页面时,一切都在那里。是什么原因造成的?
动漫人物
富国沪深
相关分类