学习课程名称:0基础开发简单爬虫
章节名称:课程介绍
讲师姓名:大壮老师
课程内容:什么是爬虫
爬虫(又称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,是搜索引擎的重要组成。
爬虫的应用
- 搜索引擎
- 数据分析
- 人工智能
- 薅羊毛
我们不生产数据,我们是数据的搬运工
爬虫技术怎么学?
- 首先学会基本的 Python 语法知识
- 学习 Python 爬虫常用到的几个重要内置库 Requests,用于请求网页
- 学习一些正则表达式、Xpath(lxml) 等网页解析工具
- 开始一些简单的网站爬取,了解爬取数据过程
- 了解爬虫与数据库的结合,如何将爬取的数据进行储存
爬虫是什么呢?爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本。脚本就是粗糙的,但往往非常实用的小程序(一般来说不会超过几千行,有时候也就几百几十行罢了)。比如,你现在要从一个网站上读取信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。假如你去开网站,也切记防着这条。否则辛辛苦苦劳动,最后就是给他人做嫁衣裳。其实这种东西,一般来说都是前后端或者大数据的人顺便去做的。也就是,他是前后端或者大数据的一个很好的辅助技能,而不是拉出来独当一面的。你想靠这个找工作是不太现实的。
还有就是高级的爬虫了。高级的爬虫技术是非常难的。其实,类似谷歌Bing百度这种搜索引擎,本质上你也可以认为是一种爬虫。