unix 数字正则表达式_正则表达式unix - CSDN
  • 一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行...

    一个正则表达式就是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

    /
     
    将下一个字符标记为一个特殊字符、或一个原义字符、或一个 后向引用、或一个八进制转义符。例如,'n' 匹配字符 "n"。'/n' 匹配一个换行符。序列 '//' 匹配 "/" 而 "/(" 则匹配 "("。

    ^

    匹配输入字符串的开始位置。

    $

    匹配输入字符串的结束位置。

    *

    匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo"。 * 等价于{0,}。

    +

    匹配前面的子表达式一次或多次。例如,'zo+' 能匹配 "zo" 以及 "zoo",但不能匹配 "z"。+ 等价于 {1,}。

    ?

    匹配前面的子表达式零次或一次。例如,"do(es)?" 可以匹配 "do" 或 "does" 中的"do" 。? 等价于 {0,1}。

    {n}

    n 是一个非负整数。匹配确定的 n 次。例如,'o{2}' 不能匹配 "Bob" 中的 'o',但是能匹配 "food" 中的两个 o。

    {n,}

    n 是一个非负整数。至少匹配n 次。例如,'o{2,}' 不能匹配 "Bob" 中的 'o',但能匹配 "foooood" 中的所有 o。'o{1,}' 等价于 'o+'。'o{0,}' 则等价于 'o*'。

    {n,m}

    m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。 "o{1,3}" 将匹配 "fooooood" 中的前三个 o。'o{0,1}' 等价于 'o?'。请注意在逗号和两个数之间不能有空格。

    ?

    当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串 "oooo",'o+?' 将匹配单个 "o",而 'o+' 将匹配所有 'o'。

    .

    匹配除 "/n" 之外的任何单个字符。要匹配包括 '/n' 在内的任何字符,请使用象 '[./n]' 的模式。

    (pattern)

    匹配pattern 并获取这一匹配。所获取的匹配可以从产生的 Matches 集合得到,在VBScript 中使用 SubMatches 集合,在Visual Basic Scripting Edition 中则使用 $0…$9 属性。要匹配圆括号字符,请使用 '/(' 或 '/)'。

    (?:pattern)

    匹配 pattern 但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储供以后使用。这在使用 "或" 字符 (|) 来组合一个模式的各个部分是很有用。例如, 'industr(?:y|ies) 就是一个比 'industry|industries' 更简略的表达式。

    (?=pattern)

    正向预查,在任何匹配 pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如, 'Windows (?=95|98|NT|2000)' 能匹配 "Windows 2000" 中的 "Windows" ,但不能匹配 "Windows 3.1" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

    (?!pattern)

    负向预查,在任何不匹配Negative lookahead matches the search string at any point where a string not matching pattern 的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如'Windows (?!95|98|NT|2000)' 能匹配 "Windows 3.1" 中的 "Windows",但不能匹配 "Windows 2000" 中的 "Windows"。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

    x|y

    匹配 x 或 y。例如,'z|food' 能匹配 "z" 或 "food"。'(z|f)ood' 则匹配 "zood" 或 "food"。

    [xyz]

    字符集合。匹配所包含的任意一个字符。例如, '[abc]' 可以匹配 "plain" 中的 'a'。

    [^xyz]

    负值字符集合。匹配未包含的任意字符。例如, '[^abc]' 可以匹配 "plain" 中的'p'。

    [a-z]

    字符范围。匹配指定范围内的任意字符。例如,'[a-z]' 可以匹配 'a' 到 'z' 范围内的任意小写字母字符。

    [^a-z]

    负值字符范围。匹配任何不在指定范围内的任意字符。例如,'[^a-z]' 可以匹配任何不在 'a' 到 'z' 范围内的任意字符。

    /b

    匹配一个单词边界,也就是指单词和空格间的位置。例如, 'er/b' 可以匹配"never" 中的 'er',但不能匹配 "verb" 中的 'er'。

    /B

    匹配非单词边界。'er/B' 能匹配 "verb" 中的 'er',但不能匹配 "never" 中的 'er'。

    /cx

    匹配由x指明的控制字符。例如, /cM 匹配一个 Control-M 或回车符。 x 的值必须为 A-Z 或 a-z 之一。否则,将 c 视为一个原义的 'c' 字符。

    /d

    匹配一个数字字符。等价于 [0-9]。

    /D

    匹配一个非数字字符。等价于 [^0-9]。

    /f

    匹配一个换页符。等价于 /x0c 和 /cL。

    /n

    匹配一个换行符。等价于 /x0a 和 /cJ。

    /r

    匹配一个回车符。等价于 /x0d 和 /cM。

    /s

    匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ /f/n/r/t/v]。

    /S

    匹配任何非空白字符。等价于 [^ /f/n/r/t/v]。

    /t

    匹配一个制表符。等价于 /x09 和 /cI。

    /v

    匹配一个垂直制表符。等价于 /x0b 和 /cK。

    /w

    匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。

    /W

    匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

    /xn

    匹配 n,其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如, '/x41' 匹配 "A"。'/x041' 则等价于 '/x04' & "1"。正则表达式中可以使用 ASCII 编码。.

    /num

    匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。例如,'(.)/1' 匹配两个连续的相同字符。

    /n

    标识一个八进制转义值或一个后向引用。如果 /n 之前至少 n 个获取的子表达式,则 n 为后向引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。

    /nm

    标识一个八进制转义值或一个后向引用。如果 /nm 之前至少有is preceded by at least nm 个获取得子表达式,则 nm 为后向引用。如果 /nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的后向引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 /nm 将匹配八进制转义值 nm。

    /nml

    如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。

    /un

    匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, /u00A9 匹配版权符号 (?)。

    /*****************************************************************************************/

    几乎所有重要问题都需要从无用数据中过滤出有用数据。了解大量的 UNIX? 命令行实用工具如何使用正则表达式 来去芜取精。

    非常奇怪,直到今天我仍然能重复周六早上的经典歌曲“Conjunction Junction”。这是好事(看了太多电视)还是坏事(也许是我现在职业的先兆)仍然有待讨论。不管怎样,这首小调在欢快的节奏下传递了基本的信息。

    我还没有为学习 UNIX 构想出与“Conjunction Junction”相似的作品,但是我会在未来的几个月里尝试亲手编写这样的歌曲。与此同时,趁着快乐回忆所带来的好心情,我们继续以 Schoolhouse 摇滚的传统学习方式攻克命令行。

    现在开始上课。吐出嘴里的口香糖,回到您的座位上,然后拿出一根二号铅笔。还有您,Spicoli。

    模仿秀

    您可以将 UNIX 命令行看作是一句话:

    • 可执行命令,如 catls,是动词——操作。
    • 命令的输出是名词——要查阅或使用的数据。
    • Shell 操作符,如 |(管道)或 >(重定向标准输出),是连词——用于连接句子。

    例如,命令行:ls -A | wc -l 用于计算当前目录下的条目数(忽略特殊条目 ...),它包含两个句子。第一个句子 ls -A 是动词结构,列举当前目录下的内容,第二个句子 wc -l 是另一个动词结构,用于计算行数。第一个句子输出的结果作为第二个句子的输入,并由连接词(管道)连接这两个句子。

    在本系列文章以及其他文章中展示的许多您可能已经学习过的命令行句式都具有这种句子结构。

    但是,如果缺少了文法上的修饰语,命令行将显得不专业。当然,基本句子也能完成工作,但是这样显得不优美。(在此对高中英语演唱二人组 Rad 女士和 Perlstein 女士表示歉意。)解决更有趣的问题需要用到形容词

    几乎所有重要问题都需要从无用数据中过滤出有用数据。虽然属性的数量和种类会有所不同,但是每种方案都通过某种方式(形式或格式),隐式或显式地描述了它要查找并处理的信息,从而生成另外一种形式的其他信息。

    在命令行中,正则表达式 的作用相当于形容词——一种描述或限定词。在应用到输出时,正则表达式可辨别相关数据和无关数据。

    标点概述

    让我们看一个示例问题。

    grep 实用工具逐行过滤输入并寻找匹配。grep 的最简单应用是打印那些包含与某个模式匹配的文本的行。grep 可以查找具有固定顺序的字符组合,甚至可以通过使用 -i 选项来忽略大小写。

    因此,假定文件 heroes.txt 包含以下行:

    Catwoman
    Batman
    The Tick
    Spider Man
    Black Cat
    Batgirl
    Danger Girl
    Wonder Woman
    Luke Cage
    The Punisher
    Ant Man
    Dead Girl
    Aquaman
    SCUD
    Spider Woman
    Blackbolt
    Martian Manhunter

    命令行:

    grep -i man heroes.txt

    将生成:

    Catwoman
    Batman
    Spider Man
    Wonder Woman
    Ant Man
    Aquaman
    Martian Manhunter

    其中 grep 扫描 heroes.txt 文件中的每一行并查找字母 m,后面紧跟 a,然后紧跟 n。除了必须保证相邻,这些字母可以出现在行的任何位置,甚至可以位于较大的单词中间。在不考虑大小写的情况下(-i 选项),Catwoman、Batman、Spider Man、Wonder Woman、Ant Man、Aquaman 和 Martian Manhunter 都包含字符串 man

    grep 实用工具包含其他可优化搜索的内置选项。例如,-w 选项限制于匹配整个单词,因此 grep -i -w man排除 Catwoman 和 Batman(举例来说)。

    该工具还有一个优秀的功能,可以排除而不是包括所有匹配的搜索结果。使用 -v 选项来排除 匹配的行。例如:

    grep -v -i 'spider' heroes.txt

    将打印除了包含字符串 spider 之外的所有行。

    Catwoman
    Batman
    The Tick
    Black Cat
    Batgirl
    Danger Girl
    Wonder Woman
    Luke Cage
    The Punisher
    Ant Man
    Dead Girl
    Aquaman
    SCUD
    Blackbolt
    Martian Manhunter

    但是,对于以下这些情况,您该如何处理?只希望得到那些开头为“Bat”的单词;或者以“bat”、“Bat”、“cat”或“Cat”开头的单词?或者希望知道有多少漫画复仇者的名字以“man”结束。在这些实例中,类似于上述三个示例的简单字符串搜索将无法满足要求,因为这些搜索不区分位置。

    位置、位置、位置和备选项

    正则表达式可以 过滤特定的位置,例如行的开始或结束,以及单词的开始和结束。正则表达式(通常简写为 regex)还可以描述:备选项(您可将其称为“this”或“that”);固定长度、可变长度或不定长度的重复;范围(例如,“a-m 之间的任意字母”);还有字符的类别或种类(“可打印字符”或“标点符号”),以及其他技术。

    表 1 显示了一些常用的正则表达式操作符。您可以连接表 1 中显示的元素(以及其他操作符)并加以组合使用,从而构建(非常)复杂的正则表达式。


    表 1. 常用的正则表达式操作符
    操作符 用途
    .(句号) 匹配任意单个字符。
    ^(脱字号) 匹配出现在行首或字符串开始位置的空字符串。
    $(美元符号) 匹配出现在行末的空字符串。
    A 匹配大写字母 A
    a 匹配小写字母 a
    /d 匹配任意一位数字。
    /D 匹配任意单个非数字字符。
    /w 匹配任意单个字母数字字符,同义词是 [:alnum:]
    [A-E] 匹配任意大写的 A、B、C、DE
    [^A-E] 匹配 A、B、C、DE 之外的任意字符。
    X? 匹配出现零次或一次的大写字母 X
    X* 匹配零个或任意个大写 X
    X+ 匹配一个或多个字母 X
    X{n} 精确匹配 n 个字母 X
    X{n,m} 匹配最少 n 个并且不超过 m 个字母 X。如果省略 m,表达式将尝试匹配最少 n 个 X
    (abc|def)+ 匹配一连串的(最少一个) abcdefabcdef 将匹配。

    以下是一些使用 grep 作为搜索工具的正则表达式示例。许多其他 UNIX 工具,包括交互式编辑器 vi 和 Emacs、流编辑器 sedawk,以及所有现代编程语言都支持正则表达式。在您学会正则表达式的语法(也许相当晦涩)之后,就可以将您的专业知识灵活运用到不同的工具、编程语言和操作系统。

    查找以“Bat”开头的名称

    要查找以“Bat”开头的名称,请使用:

    grep -E '^Bat'

    可以使用 -E 选项来指定正则表达式。^(脱字号)字符匹配行首或字符串的开头,这是一个出现在每行或每个字符串开头字符之前的假想字符。字母 Bat 只具有字面含义并且仅匹配那些特定的字符。因此,命令 grep -E '^Bat' 将生成:

    Batman
    Batgirl

    由于许多 regex 操作符也为 Shell 所使用(其中一些具有不同的用途,另外一些则有类似的用途),因此一个好的习惯是使用单引号将命令行中的每个 regex 括起来,以保护 regex 操作符免遭 Shell 的误解。例如,*(星号)和 $(美元符号)都是 regex 操作符,并且对于您的 Shell 具有特殊的含义。

    查找以“man”结尾的名称

    要查找以“man”结尾的名称,可以使用 regex man$ 来匹配序列 man,并且后面紧接与 regex 操作符 $ 匹配的行(字符串)。

    查找空行

    基于 ^$ 的作用,您可以使用 regex ^$ 来查找空行(相当于在开始之后立即结束的行)。

    备选项或集合操作符

    要查找以“bat”、“Bat”、“cat”或“Cat”开头的单词,可以使用以下两个技巧。首先是备选项,如果备选项中的任意 模式匹配,都会产生匹配的结果。例如,命令:

    grep -E '^(bat|Bat|cat|Cat)' heroes.txt

    可实现这一技巧。regex 操作符 |(竖线)表示备选项,因此 this|that 匹配字符串 this 或字符串 that。因此,^(bat|Bat|cat|Cat) 表示“行首紧跟 batBatcatCat之一。”当然,可以使用 grep -i 来简化该 regex,这样可以忽略大小写,从而将命令简化为:

    grep -i -E '^(bat|cat)' heroes.txt

    匹配“bat”、“Bat”、“cat”或“Cat”的另一个方法是使用 [ ](方括号)集合 操作符。如果将一组字符放在一个集合中,则可以匹配那些字符中的任意一个。(您可以将集合 看作是字符备选项的简写法。)

    例如,命令行:

    grep -E '^[bcBC]at' heroes.txt

    与以下命令生成的结果相同:

    grep -E '^(bat|Bat|cat|Cat)' heroes.txt

    您可以再次使用 -i 将 regex 简化为 ^[bc]at

    而且,还可以使用 -(连字符)操作符在集合中指定包含的字符范围。例如,用户名通常以字母开头。假定要在提交给您的服务器的 Web 表格中验证这样的用户名,可以使用类似于 ^[A-Za-z] 的 regex。此 regex 表示“字符串的开头后紧跟任意大写字母 (A-Z) 或任意小写字母 (a-z)。”顺便说明一下,[A-z][A-Za-z] 作用相同。

    还可以在集合中混合使用范围和单个字符。regex [A-MXYZ] 将匹配任意大写的 A-M、X、YZ

    并且,如果希望反转集合(即排除集合中的任意字符),可以使用特殊集合 [^ ] 并包含要排除的范围或字符。以下是反转集合的示例。要查找所有名称中包含 at 的超级英雄,并排除 Dark Knight 和 Batman,请键入:

    grep -i -E '[^b]at' heroes.txt 

    此命令生成:

    Catwoman
    Black Cat

    由于某些集合需要经常使用,所以设计出简化符号以代替大量字符。例如,集合 [A-z0-9_] 十分常用,因此可以简写为 /w。与此类似,操作符 /W 是集合 [^A-z0-9_] 的简写。还可以使用符号 [:alnum:] 代替 /w,使用 [^[:alnum:]] 代替 /W

    顺便说明一下,/w(以及同义词 [:alnum:])是特定于区域的,而 [A-z0-9_] 即表示字母 A-z、数字 0-9 和下划线。如果要开发国际化应用程序,请使用区域特定的格式以使代码可以在许多区域之间移植。

    跟我一起重复:重复,重复,重复

    到目前为止,已经介绍了字面值、位置和两种备选项操作符。仅使用这些内容,就可以匹配大多数具有可预测 长度的模式。现在回到用户名,通过以下 regex 命令可以确保每个用户名以字母开头并紧跟恰好七个字母或数字:

    [a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]

    但是这样有点笨拙。而且,它只匹配恰好八个字符的用户名。它不会匹配三到八个字符之间的名称,这通常也是有效的用户名。

    正则表达式还可以包括重复修饰符。重复修饰符可以指定数量,如没有、一个、多个、一个或多个,零或一个、五到十个,以及恰好三个。重复修饰符必须与其他模式组合,修饰符本身没有含义。

    例如,regex:

    ^[A-z][A-z0-9]{2,7}$

    可以实现前面描述的用户名过滤功能。用户名 是以字母开头,后面紧跟至少两个,但不超过七个字母或数字的字符串,并且紧跟字符串结尾。

    此处的位置定位点非常重要。如果没有两个位置操作符,则会错误地接受任意长度的用户名。为什么呢?请考虑 regex:

    ^[A-z][A-z0-9]{2,7}

    此命令辨别:字符串是否以字母开头并紧跟二到七个字母?但是它未提到终止条件。因此,字符串 samuelclemens 满足条件,但是它的长度显然超出了有效用户名的范围。与此类似,省略开始定位点 ^,或同时省略两个定位点将分别匹配以类似 munster1313 结束或包含该字符串的字符串。如果必须匹配特定的长度,请记得在要求的模式的开头和结尾分别加上分隔符。

    以下是其他一些示例:

    • 可以使用 {2,} 查找两次或多次重复。regex ^G[o]{2,}gle 匹配 GoogleGooogleGoooogle 等等。
    • 重复修饰符 ?+* 分别查找零次或一次、一次或多次,以及零次或多次重复。(例如,您可以将 ? 看作是 {0,1} 的简写法。)

      regex boys? 匹配 boyboys;regex Goo?gle 匹配 GogleGoogle

      regex Goo+gle 匹配 GoogleGooogleGoooogle 等等。

      construct Goo*gle 匹配 GogleGoogleGooogle 等等。

    • 可以将重复修饰符应用到单个字符(如上所示),还可以应用到更复杂的组合。使用 () 圆括号(就像数学中的用法)将修饰符应用到子表达式。下面是一个示例:给定文本文件 test.txt:
      The rain in Spain falls mainly 
      on the the plain.

      It was the best of of times;
      it was the worst of times.

      命令 grep -i -E '(/b(of|the)/W+){2,}' test.txt 将生成:

      on the the plain.
      It was the best of of times;

    • regex 操作符 /b 匹配单词边界(/W/w|/w/W)。该 regex 表示“一连串完整单词‘the’或‘of’后面紧跟非文字字符。”您可能会提出疑问,为什么 /W+ 是必需的:/b 是位于单词开头或结尾的空字符串。在单词之间必须包括这一(或这些)字符,否则该 regex 将无法找到匹配。

    捕获需要注意的内容

    查找文本是常见的问题,但是更常见的问题则是希望在找到文本之后将其提取出来。换句话说,您希望去粗取精。

    正则表达式通过捕获 来提取信息。如果希望将需要的文本与其他内容分开,请使用圆括号将模式括起来。实际上,您已经使用圆括号收集术语;在默认情况下,圆括号自动进行捕获。

    要查看捕获,请切换到 Perl。(grep 实用工具不支持捕获,因为其目标是打印包含模式的行。)

    以下命令:

    perl -n -e '/^The/s+(.*)$/ && print "$1/n"' heroes.txt

    将打印:

    Tick
    Punisher

    使用命令 perl -e 可以直接从命令行运行 Perl 程序。perl -n 命令针对输入文件的每一行运行一次程序。命令的 regex 部分,即位于斜杠之间的文本(/)表示“匹配字符串的开头,然后字母‘T’、‘h’、‘e’后紧跟一个或多个空格字符 /s+,然后捕获直到字符串结尾的所有字符。

    Perl 捕获内容被放在以 $1 开头的特殊 Perl 变量中。Perl 程序的其余部分打印捕获的内容。

    每个嵌套的括号对,从左开始算起,每个左圆括号加一,放在下一个特殊的数字变量中。例如:

    perl -n -e '/^(/w)+-(/w+)$/ && print "$1 $2"' 

    将生成:

    Spider Man
    Ant Man
    Spider Woman

    捕获感兴趣的文本仅仅是隔靴搔痒。如果能够准确确定材料,就可以使用其他材料改变其外观。类似于 vi 和 Emacs 的编辑器将模式匹配与替换组合,从而将查找和替换文本组合成一步操作。还可以使用模式、替换和 sed 从命令行更改文本。

    丰富的主题

    正则表达式非常强大;可供使用的操作符的数量庞大,种类繁多。它包含如此丰富的信息和实践知识,我们在这里所能列举的实属凤毛麟角。

    幸运的是,有以下三种优秀的正则表达式理论来源可供使用:

    • 如果在您的系统上有 Perl,可以参阅 Perl Regular Expression man 页面(键入 perldoc perlre)。它会提供 regex 的精彩介绍,并包含许多有用的示例。许多编程语言都已采用 Perl 兼容的正则表达式 (PCRE),因此您在此 man 页面读到的内容已被直接转换到 PHP、Python、Java? 和 Ruby 编程语言,以及许多其他最新工具。
    • Jeffrey Friedl 编著的《正则表达式》(第三版)被认为是 regex 用法方面的圣经。该书细致、准确、清晰、务实地说明了匹配的工作方式、所有的 regex 操作符、多数优先性(限制 +* 匹配字符的数量),以及更多内容。此外,Friedl 的书还包括一些令人惊叹的正则表达式,可以准确地匹配完全限定的电子邮件地址和其他 Request for Comments (RFC) 特定的字符串。
    • Nathan Good 编著的 Regular Expression Recipes 一书提供了针对许多常见数据处理和过滤问题的有用的解决方案。如果需要提取邮政编码、电话号码或引用的字符串,请尝试 Nathan 的解决方案。

    在命令行中,可以采用许多方法使用正则表达式。几乎每个处理文本的命令都支持某种形式的正则表达式。大多数 Shell 命令语法还或多或少地扩展正则表达式以匹配文件名(尽管操作符的功能可能有所不同)。

    例如,键入 ls [a-c] 以查找名为 a、bc 的文件。键入 ls [a-c]* 以查找以 a、bc 开头的所有文件名。此处的 * 在 Shell 中不像 grep 的解释器那样修饰 [a-c]* 被解释为 .*? 操作符在 Shell 中也可以工作,但是被解释为 .,即匹配任意单个字符。

    查看您最喜欢的实用工具或 Shell 的文档以确定哪些 regex 操作符受支持,以及操作符可能具有的独特性。 

    展开全文
  • 验证数字:^[0-9]*$ 验证n位的数字:^\d{n}$ 验证至少n位数字:^\d{n,}$ 验证m-n位的数字:^\d{m,n}$ 验证零和非零开头的数字:^(0|[1-9][0-9]*)$ 验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$ ...

    验证数字:^[0-9]*$

    验证n位的数字:^\d{n}$

    验证至少n位数字:^\d{n,}$

    验证m-n位的数字:^\d{m,n}$

    验证零和非零开头的数字:^(0|[1-9][0-9]*)$

    验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$

    验证有1-3位小数的正实数:^[0-9]+(.[0-9]{1,3})?$

    验证非零的正整数:^\+?[1-9][0-9]*$

    验证非零的负整数:^\-[1-9][0-9]*$

    验证非负整数(正整数 + 0) ^\d+$

    验证非正整数(负整数 + 0) ^((-\d+)|(0+))$

    验证长度为3的字符:^.{3}$

    验证由26个英文字母组成的字符串:^[A-Za-z]+$

    验证由26个大写英文字母组成的字符串:^[A-Z]+$

    验证由26个小写英文字母组成的字符串:^[a-z]+$

    验证由数字和26个英文字母组成的字符串:^[A-Za-z0-9]+$

    验证由数字、26个英文字母或者下划线组成的字符串:^\w+$

    验证用户密码:^[a-zA-Z]\w{5,17}$ 正确格式为:以字母开头,长度在6-18之间,只能包含字符、数字和下划线。

    验证是否含有 ^%&',;=?$\" 等字符:[^%&',;=?$\x22]+

    验证汉字:^[\u4e00-\u9fa5],{0,}$

    验证Email地址:^\w+[-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

    验证InternetURL:^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$ ;^[a-zA-z]+://(w+(-w+)*)(.(w+(-w+)*))*(?S*)?$

    验证电话号码:^(\(\d{3,4}\)|\d{3,4}-)?\d{7,8}$:--正确格式为:XXXX-XXXXXXX,XXXX-XXXXXXXX,XXX-XXXXXXX,XXX-XXXXXXXX,XXXXXXX,XXXXXXXX。

    验证身份证号(15位或18位数字):^\d{15}|\d{}18$

    验证一年的12个月:^(0?[1-9]|1[0-2])$ 正确格式为:“01”-“09”和“1”“12”

    验证一个月的31天:^((0?[1-9])|((1|2)[0-9])|30|31)$ 正确格式为:01、09和1、31。

    整数:^-?\d+$

    非负浮点数(正浮点数 + 0):^\d+(\.\d+)?$

    正浮点数 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$

    非正浮点数(负浮点数 + 0) ^((-\d+(\.\d+)?)|(0+(\.0+)?))$

    负浮点数 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$

    浮点数 ^(-?\d+)(\.\d+)?$

    展开全文
  • UNIX 正则表达式

    2011-12-22 17:25:09
    ^ 锚定行的开始 如:'^grep'匹配所有以grep开头的行。  $ 锚定行的结束 如:'grep$'匹配所有以grep结尾的行。 . 匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。  * 匹配零个或多个...
    ^                    锚定行的开始 如:'^grep'匹配所有以grep开头的行。  $                   锚定行的结束 如:'grep$'匹配所有以grep结尾的行。  .                    匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。  *                    匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。 .*一起用代表任意字符。 []                   匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。  [^]                  匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头,紧跟rep的行。  /(../)               标记匹配字符,如'/(love/)',love被标记为1。  /<                  锚定单词的开始,如:'/<grep'匹配包含以grep开头的单词的行。  />                  锚定单词的结束,如'grep/>'匹配包含以grep结尾的单词的行。  x/{m/}             重复字符x,m次,如:'0/{5/}'匹配包含5个o的行。  x/{m,/}            重复字符x,至少m次,如:'o/{5,/}'匹配至少有5个o的行。  x/{m,n/}          重复字符x,至少m次,不多于n次,如:'o/{5,10/}'匹配5--10个o的行。 /w                  匹配文字和数字字符,也就是[A-Za-z0-9],如:'G/w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。 /W                 /w的反置形式,匹配一个或多个非单词字符,如点号句号等。 /b                   单词锁定符,如: '/bgrep/b'只匹配grep

     

    展开全文
  • 正则表达式 1.1 正则表达式简介 正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。...正则表达式这个概念最初是由Unix中的工...

    转载请注明:原创作者:ice_software涵;原文链接:https://mp.csdn.net/console/editor/html/105284887,蟹蟹!

    1.1 正则表达式简介

    正则表达式又称规则表达式(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。

    许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式通常缩写成"regex",单数有regexp、regex,复数有regexps、regexes、regexen。(360百科简介:https://baike.so.com/doc/4934015-5154299.html

    <---- 举例 --->

    通配符匹配文件名中的 0 个或 1 个字符,而 * 通配符匹配零个或多个字符。像 data(\w)?\.dat 可查找文件:

    data.dat
    data1.dat
    data2.dat
    datax.dat
    dataN.dat

    使用 * 字符代替 ? 字符扩大了找到的文件的数量。data.*\.dat 匹配下列所有文件:

    data.dat

    data1.dat

    data2.dat

    data12.dat

    datax.dat

    dataXYZ.dat

    虽然这种搜索方法很有用,但它还是有限的。通过理解 * 通配符的工作原理,引入了正则表达式所依赖的概念,但正则表达式功能更强大,而且更加灵活。而正则表达式的使用,可以通过简单的办法来实现强大的功能。

    在写用户注册表单时,只允许用户名包含字符、数字、下划线和连接字符(-),并设置用户名的长度。

    如:匹配以数字开头,并以 abc 结尾的字符串。

    var str = "123abc";

    var patt1 = /^[0-9]+abc$/;

    document.write(str.match(patt1));

    可获得匹配的表达式:

    123abc


    1.2 正则表达式的发展历史

    正则表达式的"祖先"可以一直上溯至对人类神经系统如何工作的早期研究。Warren McCulloch 和 Walter Pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。

    1956 年, 一位叫 Stephen Kleene 的数学家在 McCulloch 和 Pitts 早期工作的基础上,发表了一篇标题为"神经网事件的表示法"的论文,引入了正则表达式的概念。正则表达式就是用来描述他称为"正则集的代数"的表达式,因此采用"正则表达式"这个术语。

    随后,发现可以将这一工作应用于使用 Ken Thompson 的计算搜索算法的一些早期研究,Ken Thompson 是 Unix 的主要发明人。正则表达式的第一个实用应用程序就是 Unix 中的 qed 编辑器

    如他们所说,剩下的就是众所周知的历史了。从那时起直至现在正则表达式都是基于文本的编辑器和搜索工具中的一个重重要部分。


    1.3 为什么使用正则表达式?

         典型的搜索和替换操作要求提供与预期的搜索结果匹配的确切文本。虽然这项技术对对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态文本,即使不是不可能,至少也会变得很困难。

    (1)通过使用正则表达式,可以

    1. 测试字符串内的模式
      (测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证)                                         (正则表达式测试在线工具:https://tool.oschina.net/regex/)
    2. 替换文本
      (识别文档中的特定文本,完全删除该文本或者用其他文本替换它)
    3. 基于模式匹配从字符串中提取子字符串
      (查找文档内或输入域内特定的文本)

    (2)总的来说,正则表达式的特点:

    • 1. 灵活性、逻辑性和功能性非常强;
    • 2.可以迅速地用极简单的方式达到字符串的复杂控制。
    • 3. 对于刚接触的人来说,比较晦涩难懂。

    由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器EditPlus,大到Microsoft Word、Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。

    <---- 举例 --->

              您可能需要搜索整个网站,删除过时的材料,以及替换某些 HTML 格式标记。在这种情况下,可以使用正则表达式来确定在每个文件中是否出现该材料或该 HTML 格式标记。此过程将受影响的文件列表缩小到包含需要删除或更改的材料的文件。然后可以使用正则表达式来删除过时的材料。最后,可以使用正则表达式来搜索和替换标记


    1.4  正则表达式的应用领域

    目前,正则表达式已经在很多软件中得到广泛的应用,包括 *nix(Linux, Unix等)、HP 等操作系统,PHP、C#、Java 等开发环境,以及很多的应用软件中,都可以看到正则表达式的影子。

    (1)正则表达式语法支持情况

    命令或环境 . [ ] ^ $ \( \) \{ \} ? + | ( )
    vi          
    Visual C++          
    awk   awk是支持该语法的,只是要在命令 行加入 --posix or --re-interval参数即可,可见 man awk中的interval expression
    sed        
    delphi  
    python
    java √  √ 
    javascript  
    php          
    perl  
    C#    

    (2)常见命令或环境的知识拓展

    1. C# 正则表达式  详见C# 正则表达式(简介+字符转义+字符类+定位点+...)https://mp.csdn.net/console/editor/html/105287836 有专门介绍。
    2. Java 正则表达式 详见Java正则表达式(简介+捕获组+语法+Matcher 类的方法+..干货!!.)       https://mp.csdn.net/console/editor/html/105291177专门有介绍。
    3. JavaScript RegExp对象  详见JavaScript RegExp 对象(修饰符+方括号+属性&方法....RegExp全集!)https://mp.csdn.net/console/editor/html/105291498有专门介绍。
    4. Python 正则表达式 详见(待更新)有专门介绍。
    5. Ruby 正则表达式  详见Ruby 正则表达式(介绍+语法+模式+实例+....++强烈推荐!!)                                                        https://mp.csdn.net/console/editor/html/105289239有专门介绍。

    以上为介绍正则表达式和不同环境知识拓展的全部内容,希望可以帮助到大家,Thanks♪(・ω・)ノ!!

     

    展开全文
  • Linux正则表达式基础

    2018-09-06 22:13:59
    介绍grep,sed,awk这三个命令,而正则表达式作为这三个命令的一种使用方式(命令输出中可以包含正则表达式)。 概念 正则表达式,又被正规表示式、正规表示法、针对表达式、规格表达式、常规表达法(Regular ...
  • (PS:这篇文章为转载,但都是干货很全很实用)  在Sun的Java JDK 1.40版本中,Java自带了支持正则表达式的包,本文就抛砖引玉地介绍了如何使用java.util.regex包。...在Unix世界里,正则表达式几乎没...
  • 正则总结(转)    元字符 说明  . 匹配任意一个字符 [abc] 匹配方括号中的任意一个字符。可以使用-表示字符范围,  如[a-z0-9]匹配小写字母和阿拉伯数字。 [^abc] 在方括号内开头使用^符号,表示匹配除...
  • vim中使用正则表达式

    2017-09-20 17:25:56
    一、使用正则表达式的命令 使用正则表达式的命令最常见的就是 / (搜索)命令。其格式如下:/正则表达式 另一个很有用的命令就是 :s(替换)命令,将第一个//之间的正则表达式替换成第二个//之间的字符串。:s/正则...
  • 正则表达式  正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。 正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的...
  • 1. 什么是正则表达式 基本说来,正则表达式是一种用来描述一定数量文本的模式。 Regex代表 Regular Express。本文将用>来表示一段具体的正则表达式。 一段文本就是最基本的模式,简单的匹配相同的文本。   2...
  • Shell中的正则表达式

    2019-06-20 22:03:12
    正则表达式 定义 所谓正则表达式,实际上就是用来描述某些字符串匹配规则的工具。由于正则表达式语法简练,功能强大,得到了许多程序设计语言的支持,包括Java、C++、Perl以及Shell等。 一个正则表达式是一个字符串....
  • Java正则表达式总结

    2016-02-22 17:42:38
    可粗略估计一下,除了偶尔用Linux的外,其他Linu x用户都会遇到正则表达式正则表达式是个极端强大工具,而且在字符串模式-匹配和字符串模式-替换方面富有弹性。在Unix世界里,正则表达式几乎没有什么限制,可肯定...
  • 使用正则表达式匹配手机号 文献种类:专题技术文献; 开发工具与关键技术: VS 作者:卢媛媛 ; 撰写时间:2019 年 3月 29 日...正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。正则表达式...
  • 新网站上线 欢迎大家 网站交易中心 在这里你可以购买或者出售你的网站。网站信息发布中心 在这里有各种交易信息的发布。同时提供一些软件的免费使用(附有源码)。网站博客系统 这里你可以注册自己的博客。...
  • 正则表达式是在Unix上开始流行起来的,主要用于字符串的匹配,查找和替换,比如参数传递的识别。在java中,java.lang.String,java.util.regex分别提供了操作正则表达式的方法。 正则表达式的基础语法以及部分特殊...
  • 正则表达式的定义

    2019-07-24 13:59:13
    前言:今天先分享正则表达式的基础元字符,后续会分享正则表达式的子表达式,回溯引用,前后查找,嵌入条件,,全部分享完成之后,会尝试着去分享一些例子与拆分介绍。如果文字描述有问题可以评论指出,如果概念很...
  • 深入正则表达式API

    2018-01-21 13:04:11
    正则表达式作为文本处理的利器,早已成为各大语言的必要装备,但各语言对其的实现程度(功能语法支持程度)和API设计均有所差异,本篇将目光投向java原生类库中提供的正则表达式API—— java.util.regex包 和 java....
  • 我曾经看过无数的正则表达式文章,然而每当我再次需要书写仍然感觉无从下手,一如既往需要百度“IP正则表达式”、“URL正则表达式”。 反思这种现像的原因,一是很多文章都是授之以鱼的比如直接告诉你URL的正则...
  • 1.正则表达式概述 正则表达式又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个...
  • vi中使用正则表达式

    2013-10-21 11:06:59
    一、使用正则表达式的命令 使用正则表达式的命令最常见的就是 / (搜索)命令。其格式如下: /正则表达式 另一个很有用的命令就是 :s(替换)命令,将第一个//之间的正则表达式替换成第二个//之间的字符串...
1 2 3 4 5 ... 20
收藏数 29,265
精华内容 11,706
关键字:

unix 数字正则表达式