requests 和 bs4 无法读取整个 html

首页课程实战体系课手记专栏慕课教程

我试图获取此网站列表中的所有 href：https://nihongonosei.net/?page_id =10246 。该网站非常简单干净。查看源代码后，我发现没有任何动态。

但是，如果我这样做

import requests

url = 'https://nihongonosensei.net/?page_id=10246'

r = requests.get(url)

r.text

r.text仅包含约20000个字符信息。超过一半的 html 丢失了。

我尝试从“查看页面源代码”复制整个 HTML 并直接加载到 Beautifulsoup：

from bs4 import BeautifulSoup

html = '' # too long to copy. Here is the link: view-source:https://nihongonosensei.net/?page_id=10246

soup = BeautifulSoup(html, 'html.parser')

仍然只保留了大约 20000 个字符，并且 html 的上半部分丢失了。

这是我的问题：

多谢！

呼啦一阵风

浏览 151回答 0

随时随地看视频慕课网APP