我正在尝试从各种公共政府网站抓取选举结果并将其放入 .csv 或 .xlsx 文件中。然而,当我将文本数据导出到任一类型的电子表格时,我会看到如下输出:
ÏÎ˲ÒÈ×ÍÀ ÏÀÐÒ²ß “ÓÊÐÀйÍÑÜÊÀ ÑÒÐÀÒÅÀÐÎÉÑÌÀÍÀ”
在网站上,文字如下:
“人民公仆”政党
但我试图让它看起来像:
“人民公仆”政党
我尝试将 .csv 文件导入到使用 UTF-8 和各种其他“文件来源”编码的新 Excel 文档中,但输出看起来相同。我什至尝试使用 Google 表格上的 Google 翻译来翻译文本,但这也不起作用。关于如何翻译/音译最初采用不同脚本(文本样式)的抄录文本有什么想法吗?
这是我的脚本:
import requests
from requests import get
from bs4 import BeautifulSoup
import pandas as pd
from time import sleep
from random import randint
partynames = []
for page in range(11,222):
page = requests.get("https://www.cvk.gov.ua/pls/vnd2019/wp304pt001f01=919pf7331=" + str(page) + ".html", verify=False)
soup = BeautifulSoup(page.text, 'html.parser')
ukraine_tr = soup.find_all('tr')
sleep(randint(2,10))
for container in ukraine_tr:
#### PARTY NAMES ####
partyn = container.find('a',class_='a2')
if partyn is not None:
name = partyn.get_text()
else:
name = "N/A"
partynames.append(name)
ukraine = pd.DataFrame({
'pty_n': partynames
})
ukraine.to_csv('ukraine.csv')
相关分类