6.8 使用正则表达式查询

正则表达式通常被用来检索或替换那些符合某个模式的文本内容,根据指定的匹配模式匹配文本中符合要求的特殊字符串。例如从一个文本文件中提取电话号码,查找一篇文章中重复的单词或者替换用户输入的某些敏感词语等,这些地方都可以使用正则表达式。正则表达式强大而且灵活,可以应用于非常复杂的查询。

Oracle中使用REGEXP_LIKE()函数指定正则表达式的字符匹配模式,表6-3列出了REGEXP_LIKE函数中常用字符匹配列表。

表6-3 正则表达式常用字符匹配列表

下文将详细介绍在Oracle中如何使用正则表达式。

6.8.1 查询以特定字符或字符串开头的记录

字符“^”匹配以特定字符或者字符串开头的文本。

【例6.67】在fruits表中,查询f_name字段以字母“b”开头的记录,SQL语句如下:

fruits表中有3条记录的f_name字段值是以字母b开头,返回结果有3条记录。

【例6.68】在fruits表中,查询f_name字段以“be”开头的记录,SQL语句如下:

只有berry是以“be”开头,所以查询结果中只有1条记录。

6.8.2 查询以特定字符或字符串结尾的记录

字符“$”匹配以特定字符或者字符串结尾的文本。

【例6.69】在fruits表中,查询f_name字段以字母“y”结尾的记录,SQL语句如下:

fruits表中有4条记录的f_name字段值是以字母“y”结尾,返回结果有4条记录。

【例6.70】在fruits表中,查询f_name字段以字符串“rry”结尾的记录,SQL语句如下:

fruits表中有3条记录的f_name字段值是以字符串“rry”结尾,返回结果有3条记录。

6.8.3 用符号"."来替代字符串中的任意一个字符

字符“.”匹配任意一个字符。

【例6.71】在fruits表中,查询f_name字段值包含字母“a”与“g”且两个字母之间只有一个字母的记录,SQL语句如下:

查询语句中“a.g”指定匹配字符中要有字母a和g,且两个字母之间包含单个字符,并不限定匹配的字符的位置和所在查询字符串的总长度,因此orange和mango都符合匹配条件。

6.8.4 使用"*"和"+"来匹配多个字符

星号“*”匹配前面的字符任意多次,包括0次。加号“+”匹配前面的字符至少一次。

【例6.72】在fruits表中,查询f_name字段值以字母“b”开头,且“b”后面出现字母“a”的记录,SQL语句如下:

星号“*”可以匹配任意多个字符,blackberry和berry中字母b后面并没有出现字母a,但是也满足匹配条件。

【例6.73】在fruits表中,查询f_name字段值以字母“b”开头,且“b”后面出现字母“a”至少一次的记录,SQL语句如下:

“a+”匹配字母“a”至少一次,只有banana满足匹配条件。

6.8.5 匹配指定字符串

正则表达式可以匹配指定字符串,只要这个字符串在查询文本中即可,如要匹配多个字符串,多个字符串之间使用分隔符“|”隔开。

【例6.74】在fruits表中,查询f_name字段值包含字符串“on”的记录,SQL语句如下:

可以看到,f_name字段的melon、lemon和coconut三个值中都包含有字符串“on”,满足匹配条件。

【例6.75】在fruits表中,查询f_name字段值包含字符串“on”或者“ap”的记录,SQL语句如下:

可以看到,f_name字段的melon、lemon和coconut三个值中都包含有字符串“on”,apple和apricot值中包含字符串“ap”,满足匹配条件。

提示

之前介绍过,LIKE运算符也可以匹配指定的字符串,但与REGEXP_LIKE不同,LIKE匹配的字符串如果在文本中间出现,则找不到它,相应的行也不会返回。而REGEXP_LIKE在文本内进行匹配,如果被匹配的字符串在文本中出现,REGEXP_LIKE将会找到它,相应的行也会被返回。对比结果如【例6.77】所示。

【例6.76】在fruits表中,使用LIKE运算符查询f_name字段值为“on”的记录,SQL语句如下:

f_name字段没有值为“on”的记录,返回结果为空。读者可以体会一下两者的区别。

6.8.6 匹配指定字符中的任意一个

方括号“[]”指定一个字符集合,只匹配其中任何一个字符,即为所查找的文本。

【例6.77】在fruits表中,查找f_name字段中包含字母“o”或者“t”的记录,SQL语句如下:

由查询结果可以看到,所有返回的记录的f_name字段的值中都包含有字母o或者t,或者两个都有。

方括号“[]”还可以指定数值集合。

【例6.78】在fruits表,查询s_id字段中数值中包含4、5或者6的记录,SQL语句如下:

查询结果中,s_id字段值中有3个数字中的1个即为匹配记录字段。

匹配集合“[456]”也可以写成“[4-6]”,即指定集合区间。例如,“[a-z]”表示集合区间为a~z的字母,“[0-9]”表示集合区间为所有数字。

6.8.7 匹配指定字符以外的字符

“[^字符集合]”匹配不在指定集合中的任何字符。

【例6.79】在fruits表中,查询f_id字段包含字母a~e、数字1和2以外的字符的记录,SQL语句如下:

返回记录中的f_id字段值中包含了指定字母和数字以外的值,如s、m、o、t等,这些字母均不是a~e与1和2,满足匹配条件。

6.8.8 使用{n,}或者{n,m}来指定字符串连续出现的次数

“字符串{n,}”表示至少匹配n次前面的字符。“字符串{n,m}”表示匹配前面的字符串不少于n次,不多于m次。例如,a{2,}表示字母a至少连续出现2次,也可以大于2次。a{2,4}表示字母a连续出现最少2次,最多不能超过4次。

【例6.80】在fruits表中,查询f_name字段值出现字母“x”至少2次的记录,SQL语句如下:

可以看到,f_name字段的“xxxx”包含了4个字母“x”,“xxtt”包含两个字母“x”,均为满足匹配条件的记录。

【例6.81】在fruits表中,查询f_name字段值出现字符串“ba”最少1次、最多3次的记录,SQL语句如下:

可以看到,f_name字段的xbabay值中“ba”出现了2次,banana中出现了1次,xbababa中出现了3次,都是满足匹配条件的记录。