基于scrapy技术开发完成的爬虫项目
部署scrapy项目的服务器,需要在服务器上安装准备
pip install scrapyd
项目部署工具,需要在项目所在客户端安装【命令:scrapyd-deploy】
pip install scrapyd-client
(注意:以上内外部环境都要安装)
修改爬虫项目配置
找到pycharm项目所在的虚拟环境的文件夹 ,文件夹下的scrapy-deploy 文件在windows下是不能被识被运行的,所以需要配置
在桌面新建文本文档,输入如下:
@echo off
"C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\python.exe" "E:\Django\Scripts\scrapyd-deploy" %*
(注意:第一个路径是pthon配置所在路径【可在环境变量中查看】,第二个是项目环境所在路径【可在pycharm—setting配置中查看】)
修改后缀重命名为:scrapyd-deploy.bat 放到环境所在文件夹下。
在此路径中输入cmd启动命令行输入:scrapyd-deploy ,显示以下则配置成功
测试远程运行服务器是否正常:创建一个scrapyd爬虫工作文件夹,在该文件夹路径下执行如下命令[文件夹中会初始化部署服务器相关信息]
输入 scrapyd 启动服务器
浏览器访问http://localhost:6800 查看服务器对应的web管理网站
进入pycharm 找到所要部署的爬虫项目,打开scrapy.cfg 修改配置 启动项目如下:
scrapyd-deploy 【服务器上的项目名称】 -p 【本地项目名称】
现在项目已部署到服务器,进页面可查看:
CMD 打开命令行 输入以下命名操作项目:
(注意:curl 需要安装,这里就不多说了)
查看服务器中所有的项目信息
curl http://localhost:6800/listprojects.json
查看某个特定项目的爬虫列表信息
curl http://localhost:6800/listspiders.json?project=myproject
远程启动爬虫项目
curl http://localhost:6800/schedule.json -d project=qidian -d spider=xiaoshuo
远程停止/删除爬虫项目-工作计划job
curl http://localhost:6800/cancel.json -d project=<PROJECT_NAME> -d job=<JOB_ID>
查看服务器负载状态
curl http://localhost:6800/daemonstatus.json
查看指定项目的任务列表
curl http://localhost:6800/listjobs.json
删除某个项目在服务器上的某个版本
curl http://localhost:6800/delversion.json -d project=myproject -d version=1543545055
删除项目在服务器上所有版本
curl http://localhost:6800/delproject.json -d project=myproject
===========================================
哈!是不是感觉很麻烦啊,界面也很low!其实你可以用django自己写套启动界面
不想写?不会?没关系!还有个简单美观的部署——gerapy 爬虫项目部署