我是 Python 初学者。我知道现在这是意大利面条代码。请忽略我野蛮地使用正则表达式来格式化一些数据,这将是我的下一篇文章的内容。
然而,我正在尝试从网站上抓取德州扑克手牌排名并将其输出到 Excel 文件,以便可以使用 ctrl F 轻松搜索它们。
网站上的表格未编码为 HTML,因此我决定使用 BeautifulSoup 来抓取此信息。
到目前为止,我已经成功地将数据从字符串转换为列表。当我将其导出到 Excel 时,它将整行放在同一列单元格中,而它应该由卡片、获胜概率等逐行分隔。
如何格式化这些数据以使每一行显示在它自己的单元格中?我有一个想法,使用 for 循环来迭代手牌列表及其所有信息,但我不知道如何区分不同的标头,例如牌、获胜概率等。到目前为止,我已经使用了正则表达式格式化数据,以便可以轻松拆分,这就是单独的变量。
网站表格是我希望如何在 Excel 中显示数据的一个很好的示例: https: //wizardofodds.com/games/texas-hold-em/6-player-game/
from bs4 import BeautifulSoup
import requests
import re
import xlsxwriter
url = "https://wizardofodds.com/games/texas-hold-em/6-player-game/"
page = requests.get(url)
soup = BeautifulSoup(page.text, "html.parser")
def getContent():
table_data = soup.find(class_ = "box-content has-data").get_text()
handRegex1 = re.sub("Pair of ", "", table_data)
handRegex2 = re.sub("'", "", handRegex1)
handRegex3 = re.sub("/", "", handRegex2)
handRegex4 = re.sub(" suited", "s", handRegex3)
handRegex5 = re.sub(" unsuited", "o", handRegex4)
handRegex6 = re.sub("""
""", " ", handRegex5)
handRegex7 = re.sub("\n", " ", handRegex6)
handRegex8 = re.sub("\s\s\s", ",", handRegex7)
separate = handRegex8.split(",")
print(handRegex7)
#using handRegex7 we can add each word to an individual cell. We have to separate the headers and sort those, the actual data should be easy to seperate by space charecter.
workbook = xlsxwriter.Workbook('/Users/colivart/Excel_Files/Texas_Hold_Em_6.xlsx')
worksheet = workbook.add_worksheet()
"""
We can use for loop to iterate through format variable.
This will allow us to add each hand
and it's values one by one.
"""
worksheet.write_column('A1', format)
workbook.close()
getContent()
慕尼黑8549860
HUX布斯
相关分类