html解析cricinfo记分卡

html解析cricinfo记分卡

目标

我希望从Cricinfo网站上获取 20/20板球记分卡数据,理想情况下将其转换为CSV格式,以便在Excel中进行数据分析

例如,目前的澳大利亚Big Bash 2011/12记分卡可以从

背景

我精通使用VBA(自动化IE或使用XMLHTTP然后使用正则表达式)从网站上抓取数据,即 从HTML TD和Tr中提取值

在同一个问题中,发表了一条评论,建议使用html解析 - 我之前没有遇到过 - 所以我看了一些问题,比如除了XHTML自包含标签之外的RegEx匹配开放标签

询问

虽然我可以编写一个正则表达式来解析下面的板球数据,但我想知道如何通过html解析有效地检索这些结果。

请记住,我的偏好是可重复的CSV格式,包含:

  • 比赛的日期/名称

  • 第1组的名字

  • 输出最多可以转移到第1组的11条记录(玩家没有击球的空白记录,即“没有击球

  • 第2组的名字

  • 输出最多可以转移到第2组的11条记录(玩家没有击球的空白记录)

Nirvana对我来说是一个可以使用VBA或VBscript部署的解决方案,所以我可以完全自动化我的分析,但我认为我将不得不使用一个单独的工具来进行HTML解析。

示例站点链接和要提取的数据


白衣非少年
浏览 870回答 3
3回答

斯蒂芬大帝

RegEx不是解析HTML的完整解决方案,因为它不能保证是常规的。您应该使用HtmlAgilityPack来查询HTML。这将允许您使用CSS选择器查询HTML,类似于使用jQuery执行此操作的方式。
打开App,查看更多内容
随时随地看视频慕课网APP