requests获取到的网页内容与查看到的网页内容不一样，是有什么保护吗

抓取页面中评书下载地址，网页源码能看到每一个评书标题，href地址
但是requests获取的href全部为#，评书名全部为 请到pingshu8下载
请问哪位大神能指教一下？代码如下


import requests
from bs4 import BeautifulSoup
import lxml

if __name__=='__main__':
    url = 'http://www.pingshu8.com/MusicList/mmc_235_6576_1.Htm'
    r = requests.get(url, timeout=30)
    r.encoding = 'gb2312'
    bs = BeautifulSoup(r.text, 'lxml')
    pingshu_li = bs.find_all('li', class_='a1')
    print(pingshu_li.__len__())
    for i in range(0, pingshu_li.__len__() - 1):
        name = pingshu_li[i].find('a').text
        href = pingshu_li[i].find('a')['href']
        print(name, href)

ericguang

浏览 3167回答 3

3回答

Chasing_Cars

网页有动态渲染可以用pantomjs+selenium模拟浏览器进行爬取

拖鞋_

有JS 你直接读的文件只能获得文档 JS代码是无法执行的需要模拟浏览器环境执行JS

随时随地看视频慕课网APP