以前后端同事爬了别人家的网站,需要分析文本,他是想要知道如何通过
ClassName
定位,后来尽然是让我写个正则匹配表达式。汗,趁记忆力的热乎劲儿写一篇非常规文章。
正则表达式是什么
正则表达式是一个描述字符模式的对象,按照人的语言习惯,当我们读一段文字的时候第一印象,下面有一段文字,我们可以通过多种方式描述它,而每一种方式描述的都是下面一段文字:
###几种使用情况····处理字符串 ··需要从一段字符串中提取想要的部分 ->match exec ··需要将一段字符串中的一部分替换组成新的字符串 ->replace ··需要将一段字符串处理成想要的数组 ->split ····判断字符串 ··判断字符串是需要的 ->test ··判断字符串是需要的,并确定匹配位置 ->search
###组织正则语言要匹配的字符串str 正则/a(\d+)[abc]rico(?=wang)/ / a (\d+) [abc] rico(?=wang)/ str是否有a no yes 至少要有一个数字 no yes 返回()匹配的结果 括号内容会被`exec` `match`最后返回 有a,或者b,或者c no yes rico后面必须跟上wang no yes 只匹配不返回()匹配的结果var str = 'a1cricowang'str.match(reg) 返回:["a1crico","1"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果var str = 'a121cricowang'str.match(reg) 返回:["a1crico","121"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果reg.test(str) 返回: true
几种匹配符
\d
匹配一个非负整数, 等价于 [0-9]\s
匹配一个空白字符\w
匹配一个英文字母或数字,等价于[0-9a-zA-Z].
匹配除换行符以外的任意字符,等价于[^\n]
量词
*
匹配零个或更多个,即0~n+
匹配一个或更多个,即至少一个,1~n?
匹配一个或零个{}
一般用来表示匹配的长度,比如\d{3}
表示匹配三个数字,\d{1,3}
表示匹配1~3个数字,\d{3,}
表示匹配3个以上数字。
[]
是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字
单字符取一个,比如
[abc]
会匹配a
或b
或c
一个
[]
的内容一次只能匹配一个字符[]
里面的特殊符有五个:-,\,^
,其他字符都是普通字符,包括*
,.
,?
等^
在[^
的首位时候才有特殊意义[a|b|c]
匹配的是a
,|
,b
,|
,c
,五个中的其中任意一个。
()
圆括号()
是组,主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理
示例:
(abc|bcd|cde)
,表示这一段是abc
、bcd
、cde
三者之一均可,顺序也必须一致(abc)?
,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现(?:abc)
表示找到这样abc
这样一组,但不记录,不保存到$
变量中,否则可以通过$x
取第几个括号所匹配到的项,比如:(aaa)(bbb)(ccc)(?:ddd)(eee)
,可以用$1
获取(aaa)
匹配到的内容,而$3
则获取到了(ccc)
匹配到的内容,而$4则获取的是由(eee)
匹配到的内容,因为前一对括号没有保存变量a(?=bbb)
顺序环视 表示a后面必须紧跟3个连续的b
(?i:xxxx)
不区分大小写(?s:.*)
跨行匹配.可以匹配回车符
^
与 $
^
匹配一个字符串的开头,比如(^a)
就是匹配以字母a
开头的字符串$
匹配一个字符串的结尾,比如(b$)
就是匹配以字母b
结尾的字符串^
还有另个一个作用就是取反,比如[^xyz]
表示匹配的字符串不包含xyz
几种需要转义的:( [ { \ ^ $ | ) ? * + .] }
string
方法,接受一个正则对象 string.fn(reg)
match
返回结果:存放匹配结果的数组。该数组的内容依赖于 regexp 是否具有全局标志g
search
返回结果:第一个与regexp
相匹配的子串的起始位置,如果没有找到任何匹配的子串,则返回-1
,search()
方法不执行全局匹配,它将忽略标志g。replace
返回结果:一个新的字符串,是用replacement
替换了regexp
的第一次匹配或所有匹配之后得到的split
返回结果:一个字符串数组,按照正则匹配进行分割而成的数组
RegExp
对象方法,接受一个字符串 reg.fn(string)
test
则是用来检测字符串是否匹配某一个正则表达式,如果匹配就会返回true,反之则返回falseexec
返回一个数组,其中存放匹配的结果。如果未找到匹配,则返回值为 null。
match
和exec
的区别
一个是字符串的方法,一个是正则的方法,接受参数类型不一样
在有
g
参数的全局匹配情况下,返回的结果不一样,match
一次返回所有匹配结果,exec
是使用一次,返回一个匹配结果,下次使用返回下一个匹配结果
贪婪模式和非贪婪模式
其实可以简单的理解,贪婪模式就是尽可能多的匹配,非贪婪模式就是尽可能少的匹配.
贪婪模式量词:
{x,y}
,{x,}
,?
,*
, 和+
,匹配到它需要的第一个满足条件之后,贪婪模式则会继续向右边进行匹配下去非贪婪模式量词:
{x,y}?
,{x,}?
,??
,*?
,和+?
,所以非贪婪模式就是在贪婪模式后面加了一个问号,当它匹配到它需要的第一个满足条件之后,他就会停止了。而。
零宽正向断言和负向断言,只做判断是否符合()
中的规则,并不匹配()
中的规则。
(?=)
零宽正向断言: 括号内表示某个位置右边必须和=
右边匹配上(?!)
负向断言: 括号内表示某个位置右边不和!后的字符匹配。
补 : 发现缺少全面的正则基础知识查找 补一条连接点这里,缺少的可以在这里找,比如说哪个字符是匹配大小写之类的。2018.5.25更新
文章分三次更新,后期不定期更新修改
作者:Rico_wang
链接:https://www.jianshu.com/p/2ebfab2a2958