手记

【学习打卡】第6天 Scrapy打造搜索引擎 提取博客网详情页信息分析

课程名称:Scrapy打造搜索引擎(分布式爬虫)


课程章节:提取博客网详情页信息


主讲老师:bobby


课程内容:

今天学习的内容包括:Scrapy中为什么使用yield、提取博客网详情页信息分析


课程收获:

    1.Scrapy中为什么使用yield

        简单地讲,yield 的作用就是把一个函数变成一个 generator,通常运用在带有循环的函数中,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator,调用该函数时不会执行该函数,而是返回一个 iterable 对象!在 for 循环执行时,每次循环都会执行该函数内部的代码,执行到 yield时,该函数就返回一个迭代值,下次迭代时,代码从 yield的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。

        

        




    2.提取博客网详情页信息

        1.爬虫待爬取数据

            

            


    2.提取详情页的点赞数、评论数、查看数问题

        

        1.直接读取

            

        2.查看网页html代码

            

        3.查找返回评论数、点赞数等的js文件

                

            

0人推荐
随时随地看视频
慕课网APP