猿问

requests获取到的网页内容与查看到的网页内容不一样,是有什么保护吗

抓取页面中评书下载地址,网页源码能看到每一个评书标题,href地址
但是requests获取的href全部为#,评书名全部为 请到pingshu8下载
请问哪位大神能指教一下?代码如下


import requests
from bs4 import BeautifulSoup
import lxml

if __name__=='__main__':
    url = 'http://www.pingshu8.com/MusicList/mmc_235_6576_1.Htm'
    r = requests.get(url, timeout=30)
    r.encoding = 'gb2312'
    bs = BeautifulSoup(r.text, 'lxml')
    pingshu_li = bs.find_all('li', class_='a1')
    print(pingshu_li.__len__())
    for i in range(0, pingshu_li.__len__() - 1):
        name = pingshu_li[i].find('a').text
        href = pingshu_li[i].find('a')['href']
        print(name, href)
ericguang
浏览 3031回答 3
3回答

Chasing_Cars

网页有动态渲染可以用pantomjs+selenium模拟浏览器进行爬取

拖鞋_

有JS  你直接读的文件  只能获得文档  JS代码是无法执行的 需要模拟浏览器环境 执行JS
随时随地看视频慕课网APP

相关分类

Python
我要回答