如何使用 re.findall 提取文本?

我想要

  • 从 HTML 文件中提取国家名称

  • 我从 HTML 源代码制作了一个 txt 文件

我试过的

import re


f = open('/Users/User/Programming/plotly.csv/country_name.txt')

data1 = f.read()

print(re.findall('data_country\=(\".+\")', data1))

print(re.findall('a(.*)b', 'axyzb'))

txt 文件如下所示: 在此处输入图像描述

但是代码只是给了我这个结果:

在此处输入图像描述

我认为这是正则表达式的问题。


三国纷争
浏览 98回答 2
2回答

冉冉说

试试看print(re.findall('data-country\=(\".+\")', strTmp))

慕桂英3389331

print(re.findall('data-country\=(\".+?\")', data1)) 正是我所需要的。print(re.findall('data-country\=(\".+\")', data1)) 给了我太长的文本,而我并不在寻找。下次我不会截图了。相反,我将复制并发送代码。谢谢你让我知道。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python