qq_MEGALOVANIA_0
慕田峪6093035
在谷歌的扩展应用中直接搜索xpath就可以了
刘向坡
你好,请问你这边解决了嘛
刘向坡
"C:\Program Files\Python38\python.exe" C:/Users/Administrator/Desktop/study_python/douban/douban/main.py
Traceback (most recent call last):
File "C:/Users/Administrator/Desktop/study_python/douban/douban/main.py", line 2, in <module>
cmdline.execute('scrapy crawl douban_sprider'.split())
File "C:\Program Files\Python38\lib\site-packages\scrapy\cmdline.py", line 112, in execute
settings = get_project_settings()
File "C:\Program Files\Python38\lib\site-packages\scrapy\utils\project.py", line 69, in get_project_settings
settings.setmodule(settings_module_path, priority='project')
File "C:\Program Files\Python38\lib\site-packages\scrapy\settings\__init__.py", line 287, in setmodule
module = import_module(module)
File "C:\Program Files\Python38\lib\importlib\__init__.py", line 127, in import_module
return _bootstrap._gcd_import(name[level:], package, level)
File "<frozen importlib._bootstrap>", line 1014, in _gcd_import
File "<frozen importlib._bootstrap>", line 991, in _find_and_load
File "<frozen importlib._bootstrap>", line 973, in _find_and_load_unlocked
ModuleNotFoundError: No module named 'douban.settings'
Process finished with exit code 1
刘向坡
慕姐2471796
应该是个crx扩展,可以自行搜索一下。
在元素标签ctrl F 可以直接搜索xpath语法
weixin_慕仙
慕的地0226805
对呢,确实是只取了一行,因为两行中间有个<br>换行,xpath提取之后每一行是一个元素为2的列表,但是视频循环一层默认就取了提取列表最后一项导致取得是后面一行,我加了一层循环好了,你可以试试
content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
for i_content in content:
print(i_content)
for i in i_content:
content_s = "".join(i.split('\n'))
douban_item['introduce'] = content_s
print(douban_item['introduce'])
慕丝3382866
浏览器里打开F12选中那一行右键copy,然后copy xpath也可以
qq_慕勒1384084
谷歌浏览器插件:XPath Helper
手刻CPU
已解决,使用lxml的etree配合转码可以解决。
目前转码后发现,爬去的返回信息是JS和data,网页是动态生成的,这个怎么爬取呢
目标网页:
慕前端4274147
https://blog.csdn.net/yuhezheg/article/details/104404887
运行的目录不对
qq_宁静致远_87
慕粉5003681
ZmeA
scrapy没安装成功吧
weixin_慕雪6363595
慕田峪2088838
from ..items import DoubanItem
已解决,导入的时候得这么写。。。附原链接
潇丶潇
问题已解决
qq_陈国安_0
是cpcharm 控制台的输出Unicode编码如何解决
狐狸啾啾
海家上瘾
返回200就说明是正常的啊
Jack_大卫
content = i_item.xpath('.//div[@class="info"]/div/p[1]/text()').extract()
这样子写试试,xpath不要太依赖别人怎么写,试着自己简便下
人工智能小小白
会不会你的main.py放错地方了
落落星散
下载文件的话,是文件的编码不对。数据库的话看是否数据库的编码有问题
慕丝1525437
xpath helper
gongwanyi
可以,加我的微信获取:871994650
weixin_慕仔6348623
XPath Helper
傅_
//div[@class='article']//ol//li//div[@class='pic']//a//img//@src
慕桂英8572775
找到问题了,url没有添加top250
慕前端4274147