requests 和 bs4 无法读取整个 html

我试图获取此网站列表中的所有 href:https://nihongonosei.net/?page_id =10246 。该网站非常简单干净。查看源代码后,我发现没有任何动态。


但是,如果我这样做


import requests


url = 'https://nihongonosensei.net/?page_id=10246'


r = requests.get(url)


r.text

r.text仅包含约20000个字符信息。超过一半的 html 丢失了。


我尝试从“查看页面源代码”复制整个 HTML 并直接加载到 Beautifulsoup:


from bs4 import BeautifulSoup


html = '' # too long to copy. Here is the link: view-source:https://nihongonosensei.net/?page_id=10246 


soup = BeautifulSoup(html, 'html.parser')

仍然只保留了大约 20000 个字符,并且 html 的上半部分丢失了。

这是我的问题:

  • requests和是否有字符限制BeautifulSoup

  • 如果是这样,我该如何取消限制?

  • 如果没有,为什么我无法获取完整的 html?

多谢!



呼啦一阵风
浏览 132回答 0
0回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Html5