我试图获取此网站列表中的所有 href:https://nihongonosei.net/?page_id =10246 。该网站非常简单干净。查看源代码后,我发现没有任何动态。
但是,如果我这样做
import requests
url = 'https://nihongonosensei.net/?page_id=10246'
r = requests.get(url)
r.text
r.text仅包含约20000个字符信息。超过一半的 html 丢失了。
我尝试从“查看页面源代码”复制整个 HTML 并直接加载到 Beautifulsoup:
from bs4 import BeautifulSoup
html = '' # too long to copy. Here is the link: view-source:https://nihongonosensei.net/?page_id=10246
soup = BeautifulSoup(html, 'html.parser')
仍然只保留了大约 20000 个字符,并且 html 的上半部分丢失了。
这是我的问题:
requests
和是否有字符限制BeautifulSoup
?
如果是这样,我该如何取消限制?
如果没有,为什么我无法获取完整的 html?
多谢!
相关分类