正则表达式概述

学习之前，可以暂时把正则表达式理解为功能更高级的通配符（wildcard）。

在Shell里，可以通过通配符来匹配一些具有相似模式的字符串，比如下面的命令：

$ ls *           # 列举所有的文件     
$ ls *.c         # 列举所有以".c"结尾的文件
$ ls 108?.c      # 列举以108开头，后面跟一个任意字符，再以".c"结尾的文件
$ ls 108[56].c   # 列举以108开头，后面跟5或6，再以".c"结尾的文件
$ ls 108[0-8].c  # 列举以108开头，后面跟0~8中的任意一个，再以".c"结尾的文件
$ ls l08[!0].c   # 列举以108开头，后面跟一个不为0的字符，再以".c"结尾的文件

其中，'*'、'?' 等就被称为通配符，因为他们可以匹配一个或多个符合规则的字符，具体的，这些通配符的作用如下：

'*' 用于匹配零个或多个任意字符。
'?' 用于匹配单个任意字符。
'[]' 用于匹配可能出现的单个字符，比如[56]表示该位置可能出现5或6, 也可以使用范围的方式，比如[0-8]表示数字范围0~8，[a-i]表示字符范围a~i。
'!' 用于排除单个字符。

通配符的作用就是用于字符串的匹配，但是在遇到比较复杂的匹配需求时，通配符就无能为力了，比如像“匹配以test开头，后面跟1个或多个数字，再跟3个非数字的字符，再以abcef中的一个或多个字符结尾的字符串”这种需求，或是匹配一个邮箱地址，只使用通配符的话就无法实现，这时，正则表达式就可以派上用场了。

正则表达式是比通配符功能更加强大的用于字符串模式匹配的工具，具体地，正则表达式可以实现以下功能：

字符串模式匹配，即验证字符串是否符合指定特征，比如验证一串字符是否是一个合法的邮箱地址；
在模式匹配的基础上，进行字符串分割，将字符串按规则分割成几个部分，以便于提取字符串，比如从邮箱地址中提取@前面的用户名；

使用正则表达式的最大问题是正则表达式有很多的流派（正则表达式“派别”简述 - Keep Coding），也就是在实现相同功能的情况下，不同流派的正则表达式可能有不同的写法。具体来说，正则表达式可以分为以下几类：

POSIX基础正则表达式（basic regular expression, BRE）
POSIX扩展正则表达式（extended regular expression, ERE）
Perl兼容的正则表达式（Perl compatible reqular expression, PCRE）

关于这几个流派，在编程语言中，一般使用PCRE，比如Perl, Boost.Regex, java.util.regex。BRE和ERE一般用于POSIX程序，比如sed, awk, grep等，其中sed默认使用BRE，awk默认使用ERE，而grep则可以通过选项选择使用哪种流派的正则表达式。关于这几个流派的正则表达式差异可以参考：正则表达式 BRE ERE PCRE 区别 | IT日记，本篇主要介绍PCRE。

使用正则表达式最大的问题在于有不止一种类型的正则表达式。 Linux中的不同应用程序可能会用不同类型的正则表达式。这其中包括编程语言（ Java、 Perl和Python）、 Linux实用工具（比如sed编辑器、 gawk程序和grep工具）以及主流应用（比如MySQL和PostgreSQL数据库服务器）。正则表达式是通过正则表达式引擎（ regular expression engine）实现的。正则表达式引擎是一套底层软件，负责解释正则表达式模式并使用这些模式进行文本匹配。
在Linux中，有两种流行的正则表达式引擎：

区分多种不同的正则表达式类型，搞清楚它们之间的区别和应用场景，以及放在代码中的转义字符处理，特别是C++中构造正则表达式时的反人类的转义写法。

几个实例，

notepad++中替换文本

页面树结构

正则表达式

正则表达式概述