导出到 .csv 或 .xslx 时如何翻译抓取文本的语言?

我正在尝试从各种公共政府网站抓取选举结果并将其放入 .csv 或 .xlsx 文件中。然而,当我将文本数据导出到任一类型的电子表格时,我会看到如下输出:

ÏÎ˲ÒÈ×ÍÀ ÏÀÐÒ²ß “ÓÊÐÀйÍÑÜÊÀ ÑÒÐÀÒÅÀÐÎÉÑÌÀÍÀ”

在网站上,文字如下:

“人民公仆”政党

但我试图让它看起来像:

“人民公仆”政党

我尝试将 .csv 文件导入到使用 UTF-8 和各种其他“文件来源”编码的新 Excel 文档中,但输出看起来相同。我什至尝试使用 Google 表格上的 Google 翻译来翻译文本,但这也不起作用。关于如何翻译/音译最初采用不同脚本(文本样式)的抄录文本有什么想法吗?

这是我的脚本:

import requests

from requests import get

from bs4 import BeautifulSoup

import pandas as pd


from time import sleep

from random import randint


partynames = []


for page in range(11,222):

    page = requests.get("https://www.cvk.gov.ua/pls/vnd2019/wp304pt001f01=919pf7331=" + str(page) + ".html", verify=False)


    soup = BeautifulSoup(page.text, 'html.parser')

    

    ukraine_tr = soup.find_all('tr')


    sleep(randint(2,10))


    for container in ukraine_tr:


        #### PARTY NAMES ####

        partyn = container.find('a',class_='a2')

        if partyn is not None:

            name = partyn.get_text()

        else:

            name = "N/A"

        partynames.append(name)


ukraine = pd.DataFrame({

'pty_n': partynames

})


ukraine.to_csv('ukraine.csv')


慕的地10843
浏览 47回答 0
0回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python