元字符
代码 | 说明 |
---|---|
. |
匹配除换行符以外的任意字符 |
\w |
匹配字母或数字或下划线或汉字 |
\s |
匹配任意的空白符 |
\d |
匹配数字 |
\b |
匹配单词的开始或结束 |
\< |
匹配单词的开始 |
\> |
匹配单词的 结束 |
^ |
匹配字符串的开始(行首) |
$ |
匹配字符串的结束(行尾) |
字符转义
如果你想查找元字符本身的话,加\
来转义
重复
代码/语法 | 说明 |
---|---|
* |
重复零次或更多次 |
+ |
重复一次或更多次 |
? |
重复零次或一次 |
{n} |
重复n次 |
{n,} |
重复n次或更多次 |
{n,m} |
重复n到m次 |
字符类
代码/语法 | 说明 |
---|---|
\W |
匹配任意不是字母,数字,下划线,汉字的字符 |
\S |
匹配任意不是空白符的字符 |
\D |
匹配任意非数字的字符 |
\B |
匹配不是单词开头或结束的位置 |
[^x] |
匹配除了x以外的任意字符 |
[^aeiou] |
匹配除了aeiou这几个字母以外的任意字符 |
[]
匹配没有预定义元字符的 字符 集合
[aeiou]
就匹配 任何一个英文元音字母
[0-9]
代表的含意与\d
就是完全一致的: 一位数字 ;
同理[a-z0-9A-Z_]
也完全等同于\w
分支条件
|
表示或
0\d{2}-\d{8}|0\d{3}-\d{7}
这个表达式能 匹配两种以连字号分隔的电话号码
vim 中使用 \|
\&
分组
使用小括号指定子表达式(分组)
分组可以做为一个整体指定重复次数
例:
(\d{1,3}\.){3}\d{1,3}
粗略匹配IP地址
反义
即不属于某个集合
例子:
\S+
匹配 不包含空白符的字符串。
<a[^>]+>
匹配 用尖括号括起来的以a开头的字符串 。
后向引用
默认情况下,每个分组会自动拥有一个组号,规则是:
从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
后向引用 用于重复搜索前面某个分组匹配的文本。例如,\1
代表 分组1匹配的文本
例:
\b(\w+)\b\s+\1\b
可以用来匹配 重复的单词 ,像 go go
分类 代码/语法 说明
捕获 (exp) 匹配exp,并捕获文本到自动命名的组里
(?<name>exp)
匹配exp,并捕获文本到名称为name的组里,也可以写成(?’name’exp)
(?:exp)
匹配exp,不捕获匹配的文本,也不给此分组分配组号
零宽断言(?=exp)
匹配后面是exp的位置
(?<=exp)
匹配前面是exp的位置
(?!exp)
匹配后面跟的不是exp的位置
(?<!exp)
匹配前面不是exp的位置
注释 (?#comment)
这种类型的分组不对正则表达式的处理产生任何影响,用于提供注释让人阅读
在 vim 中, 零宽断言使用 \@=
(类似(?=exp)
), 有简便的写法: \zs
(匹配现在开始,前面的不算), \ze
(匹配现在结束,后面的不算)
贪婪与懒惰
正则表达式默认匹配尽可能多的字符(贪婪),但可以指定懒惰模式
代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
处理选项(.net)
名称 说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改 ^ 和 $ 的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下, $ 的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改 . 的含义,使它与每一个字符匹配(包括换行符\n)。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由 # 标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。
平衡组/递归匹配
用来匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构,详见原文
其他
其他语法,详见原文
实用语句
^\s*(?=\r?$)\n
匹配空行