继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

《python网络数据采集》--好书推荐

BluyeaSun
关注TA
已关注
手记 24
粉丝 77
获赞 3400

一个前辈推荐的一本新书,
书到后很快就觉得这是好书。

就想要系统的读这本书,
同时也想和大家分享一下。

下面是这本数的大致目录



第一部分 创建爬虫

第一章 复杂的HTML解析

    BeautifulSoup库   
    Lambda表达式       
    超越BeautifulSoup

第二章 开始采集

    遍历单个域名
    采集整个网站
    通过互联网采集
    用Scrapy采集

第三章 使用API

    API概述
    API通用规则
    服务器响应
    Echo Nest
    Twitter API
    Google API
    解析JSON数据

第四章 存储数据

    把数据存储到CSV
    把数据存储到MongoDB

第五章 读取文档

    文档编码
    纯文本
    CSV
    PDF
    微软Word和.docx

第二部分 高级数据清洗

第六章 数据清洗

    编写代码清洗数据
    数据存储后清洗数据

第七章 自然语言处理

    概括数据
    马尔代夫模型
    自然语言工具包
    其他资源

第八章 穿越网页表单与登录窗口进行采集

    Python Requests 库
    提交一个基本表单
    单选按钮.复选框和其他输入
    提交文件和图像
    处理登录和cookie
    其他表单问题

第九章 采集JavaScript

    Ajax和动态HTML
    处理重定向

第十章 图像识别与文字处理

    OCR库概述
    处理格式规范的文字
    读取验证码与训练Tessract
    获取验证码提交答案

第十一章 避免采集陷阱

    伪装爬虫
    常见表单安全措施
    问题检查表

第十二章 用爬虫测试网站

    测试简介
    Python测试单元
    Selenium单元测试
    Python单元测试与Selenium单元测试的选择

第十三章 远程采集

    Tor 代理服务器
    远程主机
打开App,阅读手记
19人推荐
发表评论
随时随地看视频慕课网APP

热门评论

This book is designed to serve not only as an introduction to web scraping, but as a

comprehensive guide to scraping almost every type of data from the modern Web.

Although it uses the Python programming language, and covers many Python basics,

it should not be used as an introduction to the language.

1112344532454

1111111111111

查看全部评论