01
怎么想到的
某天,看着自己的粉丝,2w多了耶。
2w多是个什么水平呢?不会是第一吧?
自恋的心情,紧张的双手,我决定来揭开这个谜底!
02
爬数据
https://www.imooc.com/t/4559066
最后一位是uid,自增的,从1开始遍历,不就能获取到所有用户的粉丝数了么。
从哪爬呢?
pc端是可以爬取的,粉丝数就在html源码里。
但是我强烈不建议!因为要解析html源码,正则处理。
像我这么懒的人,最喜欢的当然是返回json格式的接口。
通常来说,h5端,app端,都是返回json格式的接口。
but,找了一圈,没找到需要的接口,只能用pc端了,正则解析。
03
遇到了困难
慕课网用户数据量太大了。。。我开了10个线程,都没爬完
普通用户的粉丝量远低于慕课网讲师的粉丝,以下是我爬取部分数据排序后的结果
调整策略,只抓取实战课讲师的粉丝!
每一门实战课程页面都会有讲师的信息。
https://coding.imooc.com/class/117.html
遍历所有实战课 -> 讲师uid -> 粉丝数
04
数据整理
爬下来的数据是无序的
怎么排序呢,写入数据库?excel?
推荐使用linux下自带的sort或者awk命令,awk命令更加强大,这里sort命令已经满足需求了。
第2列从小到大排序
cat imoocFans.txt | sort -t, -k2 -n
我的妈耶,我居然能排在第2!第一是谁?
恭喜以下3位讲师(*^▽^*)
数据抓取时间:2019.08.16 14:39
热门评论
现在你已经被七月老师超过了,变成了第三了~。~
你把这个事情以一个程序猿的角度去完成。
不得不说有帅气有才气 有幽默!
?师兄。真逗。。。