html解析cricinfo记分卡
目标
我希望从Cricinfo网站上获取 20/20板球记分卡数据,理想情况下将其转换为CSV格式,以便在Excel中进行数据分析
例如,目前的澳大利亚Big Bash 2011/12记分卡可以从
游戏1:http://www.espncricinfo.com/big-bash-league-2011/engine/match/524915.html
上一场比赛:http://www.espncricinfo.com/big-bash-league-2011/engine/match/524935.html
背景
我精通使用VBA(自动化IE
或使用XMLHTTP
然后使用正则表达式)从网站上抓取数据,即 从HTML TD和Tr中提取值
在同一个问题中,发表了一条评论,建议使用html解析 - 我之前没有遇到过 - 所以我看了一些问题,比如除了XHTML自包含标签之外的RegEx匹配开放标签
询问
虽然我可以编写一个正则表达式来解析下面的板球数据,但我想知道如何通过html解析有效地检索这些结果。
请记住,我的偏好是可重复的CSV格式,包含:
比赛的日期/名称
第1组的名字
输出最多可以转移到第1组的11条记录(玩家没有击球的空白记录,即“没有击球”)
第2组的名字
输出最多可以转移到第2组的11条记录(玩家没有击球的空白记录)
Nirvana对我来说是一个可以使用VBA或VBscript部署的解决方案,所以我可以完全自动化我的分析,但我认为我将不得不使用一个单独的工具来进行HTML解析。
示例站点链接和要提取的数据
斯蒂芬大帝