专栏
下载APP
从 0 开始学爬虫
零基础开始到大规模爬虫实战
梁睿坤 · 19年资深架构师

已更新24节 · 共计31节

572人已订阅

有必要学习爬虫吗?我想,这已经是一个不需要讨论的问题了。爬虫,既“有用”,也“有趣”。无论是过去的“搜索引擎”,还是时下热门的“数据分析”,爬虫都是获取数据必不可少的手段。数据时代,不管你是什么技术方向,爬虫都是你应该掌握的技能。另外,我们写程序的人,都有天生的“好奇心”,相信我,掌握爬虫后,你看到很多“有趣”的东西!

现在学爬虫,当然是 Python 爬虫,这是当下的绝对主流。这次专栏我们将以 Python-Scrapy 框架学习爬虫。只要具备 Python 基础,这次专栏足以让你从完全不懂爬虫,到有能力在工作中实际开发爬虫、使用爬虫。

有别于其它的Python教程,这次我们全程以实际案例驱动教学。从最简单的爬虫小实验到大规模爬虫网络,所有知识讲解都落在实处,让你收获能实实在在用起来的技术,而不只是一堆理论概念。实践是最好的学习,在专栏中我们选取了几种非常有代表性的课题:

  • 新闻供稿专用爬虫——爬取 RSS 订阅数据
  • 网易新闻爬虫——泛爬网技术
  • 网易爬虫优化——大规模数据处理技术
  • 豆瓣读书爬虫——测试驱动设计与高级反爬技术实践
  • 蘑菇街采集——处理深度继承 Javascript 网站
  • 慢速爬虫的应用举例——知乎爬虫

除了实际案例课题外,这次专栏还会教你“ Python 爬虫的部署”,用 Docker 容器技术来部署持续运行的增量式爬虫、规模庞大的分布式爬虫,这是很多其它教程没有的内容,但却是让你的爬虫真正在互联网上跑起来必不可少的内容。我们实实在在,给你能用的干货。

我们专栏的主题是 Python 爬虫,教你掌握爬虫自然不在话下。但通过学习爬虫,你也可以掌握很多 Python 本身的知识,专栏中引用的相关知识点,都细心地为你标注了出处,方便你自行深入。希望这个专栏能成为打开你“全栈式开发”大门的钥匙,让你看到更广阔的技术世界。

我是梁睿坤,Ray , 广州增增智能科技有限公司联合创始人。从事软件行业 19 年,曾在多家软件公司担任技术总监。专栏的内容大多来自我在网络爬虫上的实践经验。“实实在在“是这个专栏的风格,希望我的“实实在在“能换来你的”踏踏实实“,让我们一起干点正事,整点”干货“。

适合人群
  • 学完 Python 基础语法,想在 Python 领域更进一步的同学
  • 对爬虫有兴趣,想系统学习爬虫的同学
  • 想加深自己的技术栈,向“全能”方面靠拢的同学
购买须知

1.本专栏为图文形式内容服务,共计 31 小节,上线时间为 2019 年 5 月 21 日,预计 2019 年 6 月 29 日更新完成;
2.本专栏更新时间为每周一,三,五更新 1 篇,形式为图文;
3.订阅成功后,用户即可通过慕课网 PC 端、App 端、WAP 端享有永久阅读的权限;
4.慕课专栏为虚拟内容服务,订阅成功后概不退款;
5.在专栏阅读过程中,如有任何问题,请邮件联系kf@imooc.com;
6.慕课专栏版权归本平台所有,任何机构、媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发布/发表,违者将依法追究责任。

— 造烛求明,读书求理 —
免费试读
订阅¥68.00