【金秋打卡】第四天 0基础开发简单爬虫-原创手记-慕课网

学习课程名称：0基础开发简单爬虫
章节名称：课程介绍
讲师姓名：大壮老师

课程内容：什么是爬虫

爬虫（又称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本，是搜索引擎的重要组成。

爬虫的应用

搜索引擎
数据分析
人工智能
薅羊毛

我们不生产数据，我们是数据的搬运工

爬虫技术怎么学？

首先学会基本的 Python 语法知识
学习 Python 爬虫常用到的几个重要内置库 Requests，用于请求网页
学习一些正则表达式、Xpath(lxml) 等网页解析工具
开始一些简单的网站爬取，了解爬取数据过程
了解爬虫与数据库的结合，如何将爬取的数据进行储存

爬虫是什么呢？爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本。脚本就是粗糙的，但往往非常实用的小程序（一般来说不会超过几千行，有时候也就几百几十行罢了）。比如，你现在要从一个网站上读取信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。假如你去开网站，也切记防着这条。否则辛辛苦苦劳动，最后就是给他人做嫁衣裳。其实这种东西，一般来说都是前后端或者大数据的人顺便去做的。也就是，他是前后端或者大数据的一个很好的辅助技能，而不是拉出来独当一面的。你想靠这个找工作是不太现实的。

还有就是高级的爬虫了。高级的爬虫技术是非常难的。其实，类似谷歌Bing百度这种搜索引擎，本质上你也可以认为是一种爬虫。

图片描述