我是 Regex 的初学者,所以我通过解决我能找到的所有练习来继续练习。在其中之一中,我需要使用 Regex 和 Python 从 HTML 源代码中提取所有十六进制代码。根据练习,发现十六进制代码的规则是:
它以#开头
它有 3 或 6 位数字
每个数字都在 0-F 范围内(字符串不区分大小写)
示例输入是这样的:
#BED
{
color: #FfFdF8; background-color:#aef;
font-size: 123px;
background: -webkit-linear-gradient(top, #f9f9f9, #fff);
}
#Cab
{
background-color: #ABC;
border: 2px dashed #fff;
}
所需的输出是:
#FfFdF8
#aef
#f9f9f9
#fff
#ABC
#fff
#BED并且#Cab将被省略,因为它们不是十六进制颜色。
我尝试了这段代码,以解决问题:
import re
text = """
#BED
{
color: #FfFdF8; background-color:#aef;
font-size: 123px;
background: -webkit-linear-gradient(top, #f9f9f9, #fff);
}
#Cab
{
background-color: #ABC;
border: 2px dashed #fff;
} """
r = re.compile(r'#[0-9A-Fa-f]{3}|[0-9A-Fa-f]{6}')
a = r.findall(text)
print(a)
获得的输出:
['#BED', '#FfF', '#aef', '#f9f', '#fff', '#Cab', '#ABC', '#fff']
它工作正常,除了它没有捕捉到 6 位代码并且它没有消除实际上不是十六进制颜色代码的两个标签。
我误会了什么?我查看了其他尝试,但他们没有提供正确的答案。我正在使用 Python 3.7.4 和最新版本的 PyCharm。
森栏
桃花长相依
梵蒂冈之花
相关分类