如何抓取没有引用或名称属性的项目？

3回答

明月笑刀无情

尝试以下操作以获取所需的内容：import scrapyclass TeslamotorsclubSpider(scrapy.Spider):    name = "teslamotorsclub"    start_urls = ["https://teslamotorsclub.com/tmc/threads/tesla-tsla-the-investment-world-the-2019-investors-roundtable.139047/"]    def parse(self, response):        for item in response.css("[id^='fc-post-']"):            author = item.css(".author::text").get()            like = item.css(".fa-thumbs-o-up + strong::text").get()            love = item.css(".fa-heart-o + strong::text").get()            informative = item.css(".fa-info-circle + strong::text").get()            yield {"author":author,"like":like,"love":love,"informative":informative}部分输出：{'author': 'Unpilot', 'like': '1', 'love': '4', 'informative': '1'}{'author': 'UnknownSoldier', 'like': '7', 'love': '2', 'informative': '1'}{'author': 'SpaceCash', 'like': '2', 'love': '15', 'informative': '2'}{'author': 'gene', 'like': '45', 'love': '18', 'informative': '1'}{'author': 'engle', 'like': '31', 'love': '5', 'informative': '15'}{'author': 'Unpilot', 'like': '11', 'love': '3', 'informative': None}{'author': 'SebastianR', 'like': '3', 'love': None, 'informative': None}{'author': 'Buckminster', 'like': '1', 'love': '4', 'informative': None}

0 0

四季花海

您可以添加一些更具体的选择器来分隔“喜欢”和“信息量”数据。检查这个例子：>>> txt = """<ul class="dark_postrating_outputlist">...  <li>...  Informative x 1...  </li>...  <li> ...  Like x 2...  </li>...  </ul>""">>> from scrapy import Selector>>> sel = Selector(text=txt)>>> sel.css('ul.dark_postrating_outputlist li:contains("Informative") strong::text').get()u'1'>>> sel.css('ul.dark_postrating_outputlist li:contains("Like") strong::text').get()u'2'在这里您可以单独获取您的号码。

0 0

慕侠2389804

使用 XPath 而不是 CSS：response.xpath('//ul[@class="dark_postrating_outputlist"]/li[//i[contains()"fa-thumbs-o-up"]]/strong/text()').get()

0 0