Python工具 | 9个用来爬取网络站点的 Python 库@慕课网原创_慕课网

1️⃣Scrapy

一个开源和协作框架，用于从网站中提取所需的数据。以快速，简单，可扩展的方式。

官网

2️⃣cola

一个分布式爬虫框架。

GitHub

3️⃣Demiurge

基于 PyQuery 的爬虫微型框架。

官网

4️⃣feedparser

通用 feed 解析器。

官网

5️⃣Grab

Grab 是一个用于构建 Web scraper 的 python 框架。使用 Grab，您可以构建各种复杂性的 Web scraper，从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。与 HTML 文档的 DOM 树交互。

官网

6️⃣MechanicalSoup

用于自动和网络站点交互的 Python 库。

GitHub

7️⃣portia

Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。使用 Portia 可以注释一个网页以识别您想要提取的数据，Portia 将根据这些注释了解如何从类似页面中抓取数据。

GitHub

8️⃣pyspider

一个强大的爬虫系统。

官网

9️⃣RoboBrowser

一个简单的，Python 风格的库，用来浏览网站，而不需要一个独立安装的浏览器。

官网