猿问

使用python pandas和beautifulSoup刮分页网页表

我是python熊猫的初学者,我正在尝试使用漂亮的汤包刮掉分页的表,数据被刮掉,但是每个单元格的内容都在一行中,我无法获得一个连贯的csv文件


这是我的代码:


import urllib

import urllib.request

from bs4 import BeautifulSoup

import os


file=open(os.path.expanduser("sites_commerciaux.csv"), "wb")


def make_soup(url):

    thepage=urllib.request.urlopen(url)

    soupdata=BeautifulSoup(thepage,"html.parser")

    return soupdata



headers="Nom_commercial_du_Site,Ville,Etat,Surface_GLA,Nombre_de_boutique,Contact"

file.write(bytes(headers,encoding='ascii',errors='ignore'))

save=""

for num in range(0,22): 

    soup=make_soup("http://www.ceetrus.com/fr/implantations-sites-commerciaux?page="+str(num))

    for rec in soup.findAll('tr'):

        saverec=""

        for data in rec.findAll('td'):

            saverec=saverec+","+data.text

            if len(saverec)!=0:

             save=save+"\n"+saverec[1:]


file.write(bytes(save,encoding='ascii',errors='ignore'))

谁能帮我解决这个问题


当年话下
浏览 156回答 1
1回答
随时随地看视频慕课网APP

相关分类

Python
我要回答