用于提取标签属性的正则表达式

我正在尝试提取锚标记(<a>)的属性。到目前为止,我有这个表达:


(?<name>\b\w+\b)\s*=\s*("(?<value>[^"]*)"|'(?<value>[^']*)'|(?<value>[^"'<> \s]+)\s*)+

适用于像


<a href="test.html" class="xyz">

和(单引号)


<a href='test.html' class="xyz">

但不适用于不带引号的字符串:


<a href=test.html class=xyz>

如何修改我的正则表达式,使其与不带引号的属性一起使用?还是有更好的方法来做到这一点?


更新: 到目前为止,感谢您的所有宝贵意见和建议。我没有提到一件事:很遗憾,我必须修补/修改不是由我编写的代码。而且没有时间/金钱从头开始重写这些东西。


慕标琳琳
浏览 929回答 3
3回答

慕码人8056858

如果你有一个像<name attribute=value attribute="value" attribute='value'>此正则表达式可用于依次查找每个属性名称和值(\S+)=["']?((?:.(?!["']?\s+(?:\S+)=|[>"']))+.)["']?应用于:<a href=test.html class=xyz><a href="test.html" class="xyz"><a href='test.html' class="xyz">它会产生:'href' => 'test.html''class' => 'xyz'注意:这不适用于数字属性值,例如<div id="1">将不起作用。

慕仙森

您不能对多个捕获使用相同的名称。因此,您不能对带有命名捕获的表达式使用量词。因此,要么不要使用命名捕获:(?:(\b\w+\b)\s*=\s*("[^"]*"|'[^']*'|[^"'<>\s]+)\s+)+或不要在此表达式上使用量词:(?<name>\b\w+\b)\s*=\s*(?<value>"[^"]*"|'[^']*'|[^"'<>\s]+)这也允许属性值,例如bar=' baz='quux:foo="bar=' baz='quux"缺点是您必须在之后删除前导和尾随引号。
打开App,查看更多内容
随时随地看视频慕课网APP