Python最火爬虫框架Scrapy入门与实践_技术问答

qq_MEGALOVANIA_0

为啥我的翻页请求,没响应: 2020-12-31 0回答·553浏览

慕田峪6093035

老师前面没提过xpass,就开始用了,mac还装不上: 在谷歌的扩展应用中直接搜索xpath就可以了; 2020-07-06 1回答·672浏览

刘向坡

main.py文件在ssh里面可以执行，但是到了pycharm就不行了: 你好，请问你这边解决了嘛; 2020-06-17 1回答·846浏览

刘向坡

main.py文件在ssh里面可以执行，但是到了pycharm就不行了

"C:\Program Files\Python38\python.exe" C:/Users/Administrator/Desktop/study_python/douban/douban/main.py

Traceback (most recent call last):

File "C:/Users/Administrator/Desktop/study_python/douban/douban/main.py", line 2, in <module>

cmdline.execute('scrapy crawl douban_sprider'.split())

File "C:\Program Files\Python38\lib\site-packages\scrapy\cmdline.py", line 112, in execute

settings = get_project_settings()

File "C:\Program Files\Python38\lib\site-packages\scrapy\utils\project.py", line 69, in get_project_settings

settings.setmodule(settings_module_path, priority='project')

File "C:\Program Files\Python38\lib\site-packages\scrapy\settings\__init__.py", line 287, in setmodule

module = import_module(module)

File "C:\Program Files\Python38\lib\importlib\__init__.py", line 127, in import_module

return _bootstrap._gcd_import(name[level:], package, level)

File "<frozen importlib._bootstrap>", line 1014, in _gcd_import

File "<frozen importlib._bootstrap>", line 991, in _find_and_load

File "<frozen importlib._bootstrap>", line 973, in _find_and_load_unlocked

ModuleNotFoundError: No module named 'douban.settings'

Process finished with exit code 1

2020-06-17 2回答·980浏览

刘向坡

ModuleNotFoundError: No module named 'douban.settings': 2020-06-17 0回答·1572浏览

慕姐2471796

您好，请问浏览器上的×图标是怎么装上的？

应该是个crx扩展，可以自行搜索一下。

在元素标签ctrl F 可以直接搜索xpath语法

2020-04-26 3回答·742浏览

weixin_慕仙

程序运行失败: 2020-04-06 2回答·619浏览

慕的地0226805

introduce 那个不是只取了最后一行吗？

对呢，确实是只取了一行，因为两行中间有个<br>换行，xpath提取之后每一行是一个元素为2的列表，但是视频循环一层默认就取了提取列表最后一项导致取得是后面一行，我加了一层循环好了，你可以试试

content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
for i_content in content:
    print(i_content)
    for i in i_content:
        content_s = "".join(i.split('\n'))
    douban_item['introduce'] = content_s
print(douban_item['introduce'])

2020-04-04 1回答·718浏览

慕丝3382866

请问这个xpath工具是什么: 浏览器里打开F12选中那一行右键copy，然后copy xpath也可以; 2020-02-21 2回答·734浏览

qq_慕勒1384084

上边那个黑色的框是什么工具呢，怎么打开: 谷歌浏览器插件：XPath Helper; 2020-02-20 1回答·787浏览

手刻CPU

编码问题，现在是unicode，没法用xpath

已解决，使用lxml的etree配合转码可以解决。

目前转码后发现，爬去的返回信息是JS和data，网页是动态生成的，这个怎么爬取呢

目标网页：

https://b2b.baidu.com/cc?q=%E4%BC%BA%E6%9C%8D%E9%A9%B1%E5%8A%A8%E5%99%A8&from=b2b_factory&srcid=5359&from_ver=v2&from_elem=title

2020-02-03 1回答·1074浏览

慕前端4274147

Unknown command: crawl 不知道为这个错误，我用 scrapy 查看命令，命令是存在的？求解

https://blog.csdn.net/yuhezheg/article/details/104404887

运行的目录不对

2020-01-26 1回答·3668浏览

qq_宁静致远_87

请教scrapy如何实现有PKIPMI数字证书登录的https的页面内容提取？: 2019-12-31 1回答·812浏览

慕粉5003681

start_url里输入本地文件为什么一直提示文件不存在呢？: 2019-12-19 0回答·389浏览

ZmeA

编写mian,py，然后运行会报错，这个怎么解决呢？

scrapy没安装成功吧

2019-12-10 1回答·906浏览

weixin_慕雪6363595

DEBUG: Redirecting (301): 2019-11-11 0回答·1482浏览

慕田峪2088838

douban包里还有一个douban包，结果在导入的时候写douban.douban.items提示找不到

from ..items import DoubanItem

已解决，导入的时候得这么写。。。附原链接

http://www.bubuko.com/infodetail-2724212.html

2019-10-27 1回答·838浏览

潇丶潇

报错ModuleNotFoundError: No module named 'douban.settings': 问题已解决; 2019-10-15 3回答·1719浏览

qq_陈国安_0

为什么输出格式不是中文呢？: 是cpcharm 控制台的输出Unicode编码如何解决; 2019-10-12 2回答·799浏览

狐狸啾啾

raise error.ReactorNotRestartable(): 2019-08-23 0回答·483浏览

海家上瘾

[scrapy.core.engine] DEBUG: Crawled (200): 返回200就说明是正常的啊; 2019-08-22 1回答·5247浏览

Jack_大卫

爬虫代码内容有疑问

content = i_item.xpath('.//div[@class="info"]/div/p[1]/text()').extract()
这样子写试试，xpath不要太依赖别人怎么写，试着自己简便下

2019-08-10 1回答·888浏览

人工智能小小白

运行main找不到指定文件怎么办: 会不会你的main.py放错地方了; 2019-07-19 1回答·699浏览

落落星散

为什么解析出来的中文显示不出来？: 下载文件的话，是文件的编码不对。数据库的话看是否数据库的编码有问题; 2019-07-15 1回答·787浏览

慕丝1525437

视频中使用的 xpath 解析插件是什么插件: xpath helper; 2019-07-12 1回答·935浏览

gongwanyi

代码可以提供一下么？: 可以，加我的微信获取：871994650; 2019-07-04 1回答·633浏览

weixin_慕仔6348623

老师浏览器中的X标志是什么插件?: XPath Helper; 2019-06-27 1回答·879浏览

傅_

xpath怎么取封面图片的URL: //div[@class='article']//ol//li//div[@class='pic']//a//img//@src; 2019-06-23 1回答·1591浏览

慕桂英8572775

没有报错，却没有抓取到任何内容，哪里的问题？: 找到问题了，url没有添加top250; 2019-06-22 1回答·1107浏览

慕前端4274147

ModuleNotFoundError: No module named 'win32api': 2019-06-11 1回答·833浏览