继续浏览精彩内容
慕课网APP
程序员的梦工厂
打开
继续
感谢您的支持,我会继续努力的
赞赏金额会直接到老师账户
将二维码发送给自己后长按识别
微信支付
支付宝支付

【学习打卡】第6天 Scrapy打造搜索引擎 提取博客网详情页信息分析

残梦ming
关注TA
已关注
手记 26
粉丝 2
获赞 0

课程名称:Scrapy打造搜索引擎(分布式爬虫)


课程章节:提取博客网详情页信息


主讲老师:bobby


课程内容:

今天学习的内容包括:Scrapy中为什么使用yield、提取博客网详情页信息分析


课程收获:

    1.Scrapy中为什么使用yield

        简单地讲,yield 的作用就是把一个函数变成一个 generator,通常运用在带有循环的函数中,带有 yield 的函数不再是一个普通函数,Python 解释器会将其视为一个 generator,调用该函数时不会执行该函数,而是返回一个 iterable 对象!在 for 循环执行时,每次循环都会执行该函数内部的代码,执行到 yield时,该函数就返回一个迭代值,下次迭代时,代码从 yield的下一条语句继续执行,而函数的本地变量看起来和上次中断执行前是完全一样的,于是函数继续执行,直到再次遇到 yield。

        http://img1.mukewang.com/62f319c4000158e414660901.jpg

        http://img4.mukewang.com/62f319cd0001718a13480456.jpg




    2.提取博客网详情页信息

        1.爬虫待爬取数据

            http://img2.mukewang.com/62f31a2c0001b82424001288.jpg

            http://img1.mukewang.com/62f31a3e0001229924001288.jpg


    2.提取详情页的点赞数、评论数、查看数问题

        http://img2.mukewang.com/62f31a700001d3ce23981173.jpg

        1.直接读取

            http://img2.mukewang.com/62f31a920001e3c424001288.jpg

        2.查看网页html代码

            http://img1.mukewang.com/62f31aaf0001709024001288.jpg

        3.查找返回评论数、点赞数等的js文件

            http://img3.mukewang.com/62f31ac600010cab23951168.jpg    

            http://img1.mukewang.com/62f31adb0001d35123981170.jpg

打开App,阅读手记
0人推荐
发表评论
随时随地看视频慕课网APP