手记

Js正则常备不忘

以前后端同事爬了别人家的网站,需要分析文本,他是想要知道如何通过ClassName定位,后来尽然是让我写个正则匹配表达式。汗,趁记忆力的热乎劲儿写一篇非常规文章。

正则表达式是什么

   正则表达式是一个描述字符模式的对象,按照人的语言习惯,当我们读一段文字的时候第一印象,下面有一段文字,我们可以通过多种方式描述它,而每一种方式描述的都是下面一段文字:

###几种使用情况····处理字符串
··需要从一段字符串中提取想要的部分                     ->match exec
··需要将一段字符串中的一部分替换组成新的字符串           ->replace
··需要将一段字符串处理成想要的数组                     ->split
····判断字符串
··判断字符串是需要的                                 ->test
··判断字符串是需要的,并确定匹配位置                    ->search
###组织正则语言要匹配的字符串str
正则/a(\d+)[abc]rico(?=wang)/
/   a               (\d+)           [abc]        rico(?=wang)/
 str是否有a
    
no      yes    至少要有一个数字
                       
                  no     yes    返回()匹配的结果   括号内容会被`exec` `match`最后返回
                                        
                                  有a,或者b,或者c
                                          
                                   no      yes    rico后面必须跟上wang
                                                        
                                                 no      yes  只匹配不返回()匹配的结果var str = 'a1cricowang'str.match(reg) 返回:["a1crico","1"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果var str = 'a121cricowang'str.match(reg) 返回:["a1crico","121"] //返回的数组第一项是所有匹配结果,第二项为()匹配的结果reg.test(str) 返回: true
 几种匹配符
  • \d 匹配一个非负整数, 等价于 [0-9]

  • \s 匹配一个空白字符

  • \w 匹配一个英文字母或数字,等价于[0-9a-zA-Z]

  • .   匹配除换行符以外的任意字符,等价于[^\n]

量词
  • * 匹配零个或更多个,即0~n

  • + 匹配一个或更多个,即至少一个,1~n

  • ? 匹配一个或零个

  • {} 一般用来表示匹配的长度,比如\d{3}表示匹配三个数字,\d{1,3} 表示匹配1~3个数字,\d{3,} 表示匹配3个以上数字。

[] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示字符文本要匹配英文字符和数字
  • 单字符取一个,比如[abc]会匹配abc

  • 一个[]的内容一次只能匹配一个字符

  • []里面的特殊符有五个:-,\,^,其他字符都是普通字符,包括*,. ,?

  • ^[^的首位时候才有特殊意义

  • [a|b|c]匹配的是a,|,b,|,c,五个中的其中任意一个。

()圆括号()是组,主要应用在限制多选结构的范围/分组/捕获文本/环视/特殊模式处理

示例:

  • (abc|bcd|cde),表示这一段是abcbcdcde三者之一均可,顺序也必须一致

  • (abc)?,表示这一组要么一起出现,要么不出现,出现则按此组内的顺序出现

  • (?:abc)表示找到这样abc这样一组,但不记录,不保存到$变量中,否则可以通过$x取第几个括号所匹配到的项,比如:(aaa)(bbb)(ccc)(?:ddd)(eee),可以用$1获取(aaa)匹配到的内容,而$3则获取到了(ccc)匹配到的内容,而$4则获取的是由(eee)匹配到的内容,因为前一对括号没有保存变量

  • a(?=bbb) 顺序环视 表示a后面必须紧跟3个连续的b

  • (?i:xxxx) 不区分大小写 (?s:.*) 跨行匹配.可以匹配回车符

^$
  • ^ 匹配一个字符串的开头,比如 (^a) 就是匹配以字母a开头的字符串

  • $ 匹配一个字符串的结尾,比如 (b$) 就是匹配以字母b结尾的字符串

  • ^还有另个一个作用就是取反,比如[^xyz] 表示匹配的字符串不包含xyz

几种需要转义的:( [ { \ ^ $ | ) ? * + .] }
string方法,接受一个正则对象 string.fn(reg)
  • match返回结果:存放匹配结果的数组。该数组的内容依赖于 regexp 是否具有全局标志 g

  • search返回结果:第一个与 regexp 相匹配的子串的起始位置,如果没有找到任何匹配的子串,则返回-1search()方法不执行全局匹配,它将忽略标志g。

  • replace 返回结果:一个新的字符串,是用 replacement 替换了 regexp 的第一次匹配或所有匹配之后得到的

  • split返回结果:一个字符串数组,按照正则匹配进行分割而成的数组

RegExp 对象方法,接受一个字符串 reg.fn(string)
  • test则是用来检测字符串是否匹配某一个正则表达式,如果匹配就会返回true,反之则返回false

  • exec返回一个数组,其中存放匹配的结果。如果未找到匹配,则返回值为 null。

matchexec的区别
  • 一个是字符串的方法,一个是正则的方法,接受参数类型不一样

  • 在有g参数的全局匹配情况下,返回的结果不一样,match一次返回所有匹配结果,exec是使用一次,返回一个匹配结果,下次使用返回下一个匹配结果

贪婪模式和非贪婪模式
  • 其实可以简单的理解,贪婪模式就是尽可能多的匹配,非贪婪模式就是尽可能少的匹配.

  • 贪婪模式量词:{x,y} , {x,} , ? , * , 和 +,匹配到它需要的第一个满足条件之后,贪婪模式则会继续向右边进行匹配下去

  • 非贪婪模式量词: {x,y}?{x,}???*?,和 +?,所以非贪婪模式就是在贪婪模式后面加了一个问号,当它匹配到它需要的第一个满足条件之后,他就会停止了。而。

零宽正向断言和负向断言,只做判断是否符合()中的规则,并不匹配()中的规则。
  • (?=)零宽正向断言: 括号内表示某个位置右边必须和=右边匹配上

  • (?!)负向断言: 括号内表示某个位置右边不和!后的字符匹配。

补 : 发现缺少全面的正则基础知识查找 补一条连接点这里,缺少的可以在这里找,比如说哪个字符是匹配大小写之类的。2018.5.25更新

文章分三次更新,后期不定期更新修改



作者:Rico_wang
链接:https://www.jianshu.com/p/2ebfab2a2958


0人推荐
随时随地看视频
慕课网APP