正则表达式笔记

参考:正则表达式30分钟入门教程

元字符

代码 说明
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
\< 匹配单词的开始
\> 匹配单词的 结束
^ 匹配字符串的开始(行首)
$ 匹配字符串的结束(行尾)

字符转义

如果你想查找元字符本身的话,加\来转义

重复

代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

字符类

代码/语法 说明
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

[]匹配没有预定义元字符的 字符 集合

[aeiou] 就匹配 任何一个英文元音字母
[0-9] 代表的含意与\d 就是完全一致的: 一位数字 ;
同理[a-z0-9A-Z_] 也完全等同于\w

分支条件

|表示或

0\d{2}-\d{8}|0\d{3}-\d{7} 这个表达式能 匹配两种以连字号分隔的电话号码

vim 中使用 \| \&

分组

使用小括号指定子表达式(分组)
分组可以做为一个整体指定重复次数

例:(\d{1,3}\.){3}\d{1,3}粗略匹配IP地址

反义

即不属于某个集合

例子:\S+ 匹配 不包含空白符的字符串。

<a[^>]+> 匹配 用尖括号括起来的以a开头的字符串 。

后向引用

默认情况下,每个分组会自动拥有一个组号,规则是:

从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。

后向引用 用于重复搜索前面某个分组匹配的文本。例如,\1 代表 分组1匹配的文本

例:\b(\w+)\b\s+\1\b 可以用来匹配 重复的单词 ,像 go go

分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里

(?<name>exp) 匹配exp,并捕获文本到名称为name的组里,也可以写成(?’name’exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言(?=exp) 匹配后面是exp的位置
(?<=exp) 匹配前面是exp的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
注释 (?#comment) 这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读

在 vim 中, 零宽断言使用 \@=(类似(?=exp)), 有简便的写法: \zs(匹配现在开始,前面的不算), \ze(匹配现在结束,后面的不算)

贪婪与懒惰

正则表达式默认匹配尽可能多的字符(贪婪),但可以指定懒惰模式
代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

处理选项(.net)

名称 说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下, $ 的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改 . 的含义,使它与每一个字符匹配(包括换行符\n)。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由 # 标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。

平衡组/递归匹配

用来匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构,详见原文

其他

其他语法,详见原文

实用语句

^\s*(?=\r?$)\n 匹配空行

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注