online模式的破解
继续以国家企业信用信息公示系统为例。
补充一个完成度80%的项目和文档。代码实现主要参考 https://zhuanlan.zhihu.com/windev 的相关分析文章。
已实现以下功能:
1. 所有HTTP Request & Response协议
使用requests
库实现。
2. 验证码图片的拼图重组和识别
使用Pillow
库,实现滑块拼图位置的精确定位。
全局变量IMAGE_DEBUG
,实现不同精准度的图片本地临时文件存储,以便观察定位效果和改进。
3. GeeTest Javascript 加解密算法破解
使用PyExecJS
库,执行GeeTest Javascript方法,获得正确的明文和密文。
配合NodeJS
使用更佳。
4. 使用BeautifulSoup4
库,进行网页数据解析
未完成的20%包括2部分。
完善用户鼠标轨迹运行的数据仿真算法。
补全官网针对爬虫返回HTTP 521的处理,补全Cookie校验逻辑。
源码见GitHub
https://github.com/9468305/python-script/tree/master/geetest_online
Dependence
pip install requests pip install Pillow pip install PyExecJS pip install beautifulsoup4
作者:爱柚子的陈同学
链接:https://www.jianshu.com/p/49f48e96fdf1