NoSQL manager for mongodb freeware
将爬虫得到的item保存到CSV文件中
scrapy crawl spider -o test.csv
数据存储
json格式
scrapy crawl douban_spider -o teset.json
csv格式
scrapy crawl douban_spider -o teset.csv
mongodb
settings文件定义mongo变量
mongo_host = '192.168.186.129'
mongo_port = 27017
mongo_db_name = 'douban'
mongo_db_collection = 'douban_movie'
安装pymongo
yum -y install pymongo
编辑pipelines文件
开头增加代码
import pymongo
from douban.settings import mongo_host, mongo_port, mongo_db_name, mongo_db_collection
在类DouanPipeline下增加方法__init__
def __init__(self):
host = mongo_host
port = mongo_port
dbname = mongo_db_name
sheetname = mongo_db_colleciton
client = pymongo.MongoClient(host=host, port=port)
mydb = client[dbname]
self.post = mydb[sheetname]
在settings文件打开ITEM_PIPELINES
mongo查看数据
安装pymongo
保存问json和csv
编写itemPipeline保存数据
记得在setting中开启pipeline选项
导出数据
scrapy crawl douban_spider -o test.json
返回数据到数据库
datas=dict(item)中的item是spider文件yeild回来的,存储为字典数据
把字典数据insert就保存到数据库了
提取开启setting中的pipelines iteams
数据保存为CSV文件:
scrapy crawl douban_spider -o test.csv
pymongo1
pymongo
到处到csv
使用piplines要先在setting里开启
要把文件存入mongodb
1---setting文件里定义
mongo_host=' 数据库地址'
mongo_port=27017
mongo_db_name='数据库名'
mongo_db_collection='表名'
2 ---进入piplines设置
导入import pymongo
导入setting里的mongo设置上边的地址端口啥的全部导入
初次接触scrapy,没有看过文档直接接触视频,理解能力差点
scrapy crawl douban_spider -o test.json
scrapy crawl douban_spider -o test.csv
settings.py添加数据库信息
pip install pymongo
pipelines.py操作:
import pymongo
from douban.settings import 数据库字段
class DoubanPipeline(object):
def __init__(self):
host = mongo_host
port = mongo_port
dbname = mongo_db_name
sheetname = monge_db_collection
client = pymongo.MongoClient(host=host, port=port)
mydb = client[dbname]
self.post =mydb[sheetname]
def process_item(self, item, spider):
data = dict(item)
self.post.insert(data)
return item
settings.py打开ITEM_PIPELINES
打开item_pipelines才能写入数据库
scrapy crawl dou*** -o test.json