我正在尝试获取此网站列表中的所有href:https://nihongonosensei.net/?page_id=10246。该网站非常简单干净。在查看源代码后,我没有发现任何动态。
但是,如果我这样做
import requests
url = 'https://nihongonosensei.net/?page_id=10246'
r = requests.get(url)
r.text
r.text仅包含大约 20000 个字符的信息。超过一半的 html 缺失。
我试图从“查看页面源代码”复制整个HTML并直接加载到Beautifulsoup:
from bs4 import BeautifulSoup
html = '' # too long to copy. Here is the link: view-source:https://nihongonosensei.net/?page_id=10246
soup = BeautifulSoup(html, 'html.parser')
仍然只保留了大约20000个字符,并且缺少html的上半部分。
这是我的问题:
和 是否有任何字符限制?requests
BeautifulSoup
如果是这样,我该如何删除限制?
如果没有,为什么我无法获得完整的html?
多谢!
POPMUISE
相关分类