2014-05-10 15:13:42 pianzif 阅读数 1020

非常奇怪,直到今天我仍然能重复周六早上的经典歌曲“Conjunction Junction”。这是好事(看了太多电视)还是坏事(也许是我现在职业的先兆)仍然有待讨论。不管怎样,这首小调在欢快的节奏下传递了基本的信息。

我还没有为学习 UNIX 构想出与“Conjunction Junction”相似的作品,但是我会在未来的几个月里尝试亲手编写这样的歌曲。与此同时,趁着快乐回忆所带来的好心情,我们继续以 Schoolhouse 摇滚的传统学习方式攻克命令行。

现在开始上课。吐出嘴里的口香糖,回到您的座位上,然后拿出一根二号铅笔。还有您,Spicoli。

模仿秀

您可以将 UNIX 命令行看作是一句话:

  • 可执行命令,如 cat 或 ls,是动词——操作。
  • 命令的输出是名词——要查阅或使用的数据。
  • Shell 操作符,如 |(管道)或 >(重定向标准输出),是连词——用于连接句子。

例如,命令行:ls -A | wc -l 用于计算当前目录下的条目数(忽略特殊条目 . 和 ..),它包含两个句子。第一个句子 ls -A 是动词结构,列举当前目录下的内容,第二个句子 wc -l 是另一个动词结构,用于计算行数。第一个句子输出的结果作为第二个句子的输入,并由连接词(管道)连接这两个句子。

在本系列文章以及其他文章中展示的许多您可能已经学习过的命令行句式都具有这种句子结构。

但是,如果缺少了文法上的修饰语,命令行将显得不专业。当然,基本句子也能完成工作,但是这样显得不优美。(在此对高中英语演唱二人组 Rad 女士和 Perlstein 女士表示歉意。)解决更有趣的问题需要用到形容词

几乎所有重要问题都需要从无用数据中过滤出有用数据。虽然属性的数量和种类会有所不同,但是每种方案都通过某种方式(形式或格式),隐式或显式地描述了它要查找并处理的信息,从而生成另外一种形式的其他信息。

在命令行中,正则表达式 的作用相当于形容词——一种描述或限定词。在应用到输出时,正则表达式可辨别相关数据和无关数据。

标点概述

让我们看一个示例问题。

grep 实用工具逐行过滤输入并寻找匹配。grep 的最简单应用是打印那些包含与某个模式匹配的文本的行。grep 可以查找具有固定顺序的字符组合,甚至可以通过使用 -i 选项来忽略大小写。

因此,假定文件 heroes.txt 包含以下行:

Catwoman
Batman
The Tick
Spider Man
Black Cat
Batgirl
Danger Girl
Wonder Woman
Luke Cage
The Punisher
Ant Man
Dead Girl
Aquaman
SCUD
Spider Woman
Blackbolt
Martian Manhunter

命令行:

grep -i man heroes.txt

将生成:

Catwoman
Batman
Spider Man
Wonder Woman
Ant Man
Aquaman
Martian Manhunter

其中 grep 扫描 heroes.txt 文件中的每一行并查找字母 m,后面紧跟 a,然后紧跟 n。除了必须保证相邻,这些字母可以出现在行的任何位置,甚至可以位于较大的单词中间。在不考虑大小写的情况下(-i 选项),Catwoman、Batman、Spider Man、Wonder Woman、Ant Man、Aquaman 和 Martian Manhunter 都包含字符串 man

grep 实用工具包含其他可优化搜索的内置选项。例如,-w 选项限制于匹配整个单词,因此 grep -i -w man 将排除 Catwoman 和 Batman(举例来说)。

该工具还有一个优秀的功能,可以排除而不是包括所有匹配的搜索结果。使用 -v 选项来排除 匹配的行。例如:

grep -v -i 'spider' heroes.txt

将打印除了包含字符串 spider 之外的所有行。

Catwoman
Batman
The Tick
Black Cat
Batgirl
Danger Girl
Wonder Woman
Luke Cage
The Punisher
Ant Man
Dead Girl
Aquaman
SCUD
Blackbolt
Martian Manhunter

但是,对于以下这些情况,您该如何处理?只希望得到那些开头为“Bat”的单词;或者以“bat”、“Bat”、“cat”或“Cat”开头的单词?或者希望知道有多少漫画复仇者的名字以“man”结束。在这些实例中,类似于上述三个示例的简单字符串搜索将无法满足要求,因为这些搜索不区分位置。

位置、位置、位置和备选项

正则表达式可以 过滤特定的位置,例如行的开始或结束,以及单词的开始和结束。正则表达式(通常简写为 regex)还可以描述:备选项(您可将其称为“this”或“that”);固定长度、可变长度或不定长度的重复;范围(例如,“a-m 之间的任意字母”);还有字符的类别或种类(“可打印字符”或“标点符号”),以及其他技术。

表 1 显示了一些常用的正则表达式操作符。您可以连接表 1 中显示的元素(以及其他操作符)并加以组合使用,从而构建(非常)复杂的正则表达式。

表 1. 常用的正则表达式操作符
操作符 用途
.(句号) 匹配任意单个字符。
^(脱字号) 匹配出现在行首或字符串开始位置的空字符串。
$(美元符号) 匹配出现在行末的空字符串。
A 匹配大写字母 A
a 匹配小写字母 a
\d 匹配任意一位数字。
\D 匹配任意单个非数字字符。
\w 匹配任意单个字母数字字符,同义词是 [:alnum:]
[A-E] 匹配任意大写的 A、B、C、D 或 E
[^A-E] 匹配除A、B、C、D 和 E 之外的任意字符。
X? 匹配出现零次或一次的大写字母 X
X* 匹配零个或任意个大写 X
X+ 匹配一个或多个字母 X
X{n} 精确匹配 n 个字母 X
X{n,m} 匹配最少 n 个并且不超过 m 个字母 X。如果省略 m,表达式将尝试匹配最少 n 个 X
(abc|def)+ 匹配一连串的(最少一个) abc 或 defabc 和 def 将匹配。

以下是一些使用 grep 作为搜索工具的正则表达式示例。许多其他 UNIX 工具,包括交互式编辑器 vi 和 Emacs、流编辑器 sed 和 awk,以及所有现代编程语言都支持正则表达式。在您学会正则表达式的语法(也许相当晦涩)之后,就可以将您的专业知识灵活运用到不同的工具、编程语言和操作系统。

查找以“Bat”开头的名称

要查找以“Bat”开头的名称,请使用:

grep -E '^Bat'

可以使用 -E 选项来指定正则表达式。^(脱字号)字符匹配行首或字符串的开头,这是一个出现在每行或每个字符串开头字符之前的假想字符。字母 Ba 和 t 只具有字面含义并且仅匹配那些特定的字符。因此,命令 grep -E '^Bat' 将生成:

Batman
Batgirl

由于许多 regex 操作符也为 Shell 所使用(其中一些具有不同的用途,另外一些则有类似的用途),因此一个好的习惯是使用单引号将命令行中的每个 regex 括起来,以保护 regex 操作符免遭 Shell 的误解。例如,*(星号)和 $(美元符号)都是 regex 操作符,并且对于您的 Shell 具有特殊的含义。

查找以“man”结尾的名称

要查找以“man”结尾的名称,可以使用 regex man$ 来匹配序列 ma 和 n,并且后面紧接与 regex 操作符 $ 匹配的行(字符串)。

查找空行

基于 ^ 和 $ 的作用,您可以使用 regex ^$ 来查找空行(相当于在开始之后立即结束的行)。

备选项或集合操作符

要查找以“bat”、“Bat”、“cat”或“Cat”开头的单词,可以使用以下两个技巧。首先是备选项,如果备选项中的任意 模式匹配,都会产生匹配的结果。例如,命令:

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

可实现这一技巧。regex 操作符 |(竖线)表示备选项,因此 this|that 匹配字符串 this 或字符串 that。因此,^(bat|Bat|cat|Cat) 表示“行首紧跟 batBatcat 或 Cat之一。”当然,可以使用 grep -i 来简化该 regex,这样可以忽略大小写,从而将命令简化为:

grep -i -E '^(bat|cat)' heroes.txt

匹配“bat”、“Bat”、“cat”或“Cat”的另一个方法是使用 [ ](方括号)集合 操作符。如果将一组字符放在一个集合中,则可以匹配那些字符中的任意一个。(您可以将集合 看作是字符备选项的简写法。)

例如,命令行:

grep -E '^[bcBC]at' heroes.txt

与以下命令生成的结果相同:

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

您可以再次使用 -i 将 regex 简化为 ^[bc]at

而且,还可以使用 -(连字符)操作符在集合中指定包含的字符范围。例如,用户名通常以字母开头。假定要在提交给您的服务器的 Web 表格中验证这样的用户名,可以使用类似于 ^[A-Za-z] 的 regex。此 regex 表示“字符串的开头后紧跟任意大写字母 (A-Z) 或任意小写字母 (a-z)。”顺便说明一下,[A-z] 与 [A-Za-z] 作用相同。

还可以在集合中混合使用范围和单个字符。regex [A-MXYZ] 将匹配任意大写的 A-M、X、Y 和 Z

并且,如果希望反转集合(即排除集合中的任意字符),可以使用特殊集合 [^ ] 并包含要排除的范围或字符。以下是反转集合的示例。要查找所有名称中包含 at 的超级英雄,并排除 Dark Knight 和 Batman,请键入:

grep -i -E '[^b]at' heroes.txt

此命令生成:

Catwoman
Black Cat

由于某些集合需要经常使用,所以设计出简化符号以代替大量字符。例如,集合 [A-z0-9_] 十分常用,因此可以简写为 \w。与此类似,操作符\W 是集合 [^A-z0-9_] 的简写。还可以使用符号 [:alnum:] 代替 \w,使用 [^[:alnum:]] 代替 \W

顺便说明一下,\w(以及同义词 [:alnum:])是特定于区域的,而 [A-z0-9_] 即表示字母 A-z、数字 0-9 和下划线。如果要开发国际化应用程序,请使用区域特定的格式以使代码可以在许多区域之间移植。

跟我一起重复:重复,重复,重复

到目前为止,已经介绍了字面值、位置和两种备选项操作符。仅使用这些内容,就可以匹配大多数具有可预测 长度的模式。现在回到用户名,通过以下 regex 命令可以确保每个用户名以字母开头并紧跟恰好七个字母或数字:

[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]

但是这样有点笨拙。而且,它只匹配恰好八个字符的用户名。它不会匹配三到八个字符之间的名称,这通常也是有效的用户名。

正则表达式还可以包括重复修饰符。重复修饰符可以指定数量,如没有、一个、多个、一个或多个,零或一个、五到十个,以及恰好三个。重复修饰符必须与其他模式组合,修饰符本身没有含义。

例如,regex:

^[A-z][A-z0-9]{2,7}$

可以实现前面描述的用户名过滤功能。用户名 是以字母开头,后面紧跟至少两个,但不超过七个字母或数字的字符串,并且紧跟字符串结尾。

此处的位置定位点非常重要。如果没有两个位置操作符,则会错误地接受任意长度的用户名。为什么呢?请考虑 regex:

^[A-z][A-z0-9]{2,7}

此命令辨别:字符串是否以字母开头并紧跟二到七个字母?但是它未提到终止条件。因此,字符串 samuelclemens 满足条件,但是它的长度显然超出了有效用户名的范围。与此类似,省略开始定位点 ^,或同时省略两个定位点将分别匹配以类似 munster1313 结束或包含该字符串的字符串。如果必须匹配特定的长度,请记得在要求的模式的开头和结尾分别加上分隔符。

以下是其他一些示例:

  • 可以使用 {2,} 查找两次或多次重复。regex ^G[o]{2,}gle 匹配 GoogleGooogleGoooogle 等等。
  • 重复修饰符 ?+ 和 * 分别查找零次或一次、一次或多次,以及零次或多次重复。(例如,您可以将 ? 看作是 {0,1} 的简写法。)

    regex boys? 匹配 boy 或 boys;regex Goo?gle 匹配 Gogle 或 Google

    regex Goo+gle 匹配 GoogleGooogleGoooogle 等等。

    construct Goo*gle 匹配 GogleGoogleGooogle 等等。

  • 可以将重复修饰符应用到单个字符(如上所示),还可以应用到更复杂的组合。使用 ( 和 ) 圆括号(就像数学中的用法)将修饰符应用到子表达式。下面是一个示例:给定文本文件 test.txt:
    The rain in Spain falls mainly 
    on the the plain.
    
    It was the best of of times;
    it was the worst of times.

    命令 grep -i -E '(\b(of|the)\W+){2,}' test.txt 将生成:

    on the the plain.
    It was the best of of times;
  • regex 操作符 \b 匹配单词边界 或 (\W\w|\w\W)。该 regex 表示“一连串完整单词‘the’或‘of’后面紧跟非文字字符。”您可能会提出疑问,为什么\W+ 是必需的:\b 是位于单词开头或结尾的空字符串。在单词之间必须包括这一(或这些)字符,否则该 regex 将无法找到匹配。

捕获需要注意的内容

查找文本是常见的问题,但是更常见的问题则是希望在找到文本之后将其提取出来。换句话说,您希望去粗取精。

正则表达式通过捕获 来提取信息。如果希望将需要的文本与其他内容分开,请使用圆括号将模式括起来。实际上,您已经使用圆括号收集术语;在默认情况下,圆括号自动进行捕获。

要查看捕获,请切换到 Perl。(grep 实用工具不支持捕获,因为其目标是打印包含模式的行。)

以下命令:

perl -n -e '/^The\s+(.*)$/ && print "$1\n"' heroes.txt

将打印:

Tick
Punisher

使用命令 perl -e 可以直接从命令行运行 Perl 程序。perl -n 命令针对输入文件的每一行运行一次程序。命令的 regex 部分,即位于斜杠之间的文本(/)表示“匹配字符串的开头,然后字母‘T’、‘h’、‘e’后紧跟一个或多个空格字符 \s+,然后捕获直到字符串结尾的所有字符。

Perl 捕获内容被放在以 $1 开头的特殊 Perl 变量中。Perl 程序的其余部分打印捕获的内容。

每个嵌套的括号对,从左开始算起,每个左圆括号加一,放在下一个特殊的数字变量中。例如:

perl -n -e '/^(\w)+-(\w+)$/ && print "$1 $2"'

将生成:

Spider Man
Ant Man
Spider Woman

捕获感兴趣的文本仅仅是隔靴搔痒。如果能够准确确定材料,就可以使用其他材料改变其外观。类似于 vi 和 Emacs 的编辑器将模式匹配与替换组合,从而将查找和替换文本组合成一步操作。还可以使用模式、替换和 sed 从命令行更改文本。

丰富的主题

正则表达式非常强大;可供使用的操作符的数量庞大,种类繁多。它包含如此丰富的信息和实践知识,我们在这里所能列举的实属凤毛麟角。

幸运的是,有以下三种优秀的正则表达式理论来源可供使用:

  • 如果在您的系统上有 Perl,可以参阅 Perl Regular Expression man 页面(键入 perldoc perlre)。它会提供 regex 的精彩介绍,并包含许多有用的示例。许多编程语言都已采用 Perl 兼容的正则表达式 (PCRE),因此您在此 man 页面读到的内容已被直接转换到 PHP、Python、Java™ 和 Ruby 编程语言,以及许多其他最新工具。
  • Jeffrey Friedl 编著的《正则表达式》(第三版)被认为是 regex 用法方面的圣经。该书细致、准确、清晰、务实地说明了匹配的工作方式、所有的 regex 操作符、多数优先性(限制 + 和 * 匹配字符的数量),以及更多内容。此外,Friedl 的书还包括一些令人惊叹的正则表达式,可以准确地匹配完全限定的电子邮件地址和其他 Request for Comments (RFC) 特定的字符串。
  • Nathan Good 编著的 Regular Expression Recipes 一书提供了针对许多常见数据处理和过滤问题的有用的解决方案。如果需要提取邮政编码、电话号码或引用的字符串,请尝试 Nathan 的解决方案。

在命令行中,可以采用许多方法使用正则表达式。几乎每个处理文本的命令都支持某种形式的正则表达式。大多数 Shell 命令语法还或多或少地扩展正则表达式以匹配文件名(尽管操作符的功能可能有所不同)。

例如,键入 ls [a-c] 以查找名为 a、b 或 c 的文件。键入 ls [a-c]* 以查找以 a、b 或 c 开头的所有文件名。此处的 * 在 Shell 中不像 grep的解释器那样修饰 [a-c]* 被解释为 .*? 操作符在 Shell 中也可以工作,但是被解释为 .,即匹配任意单个字符。

查看您最喜欢的实用工具或 Shell 的文档以确定哪些 regex 操作符受支持,以及操作符可能具有的独特性。




http://www.ibm.com/developerworks/cn/aix/library/au-speakingunix9/

2018-07-22 13:15:31 realDonaldTrump 阅读数 199

正则表达式的符号表

序号 符号 匹配对象 示例
1 ^ 字符串起始位置 当^出现在[]内部时,为取反。
2 [0-9] 匹配一个数字,没有数字时,匹配失败 等价\d;[^0-9]等价\D
3 [0-9]? 匹配0或1个数字,没有数字时可以匹配
4 [0-9]+ 匹配1或多个数字,没有数字时匹配失败
5 abc$ 结尾匹配,要求以abc作为结尾
6 * ==可以不出现==,可以出现多次。 X*YZ可以成功匹配YZ
7 \cX 控制字符,匹配Control + X \cA匹配Control + A
8 \f \n \r 换页 换行 回车
9 \s 匹配任何空白字符 等价:[\f\n\r\t\v]
10 \S 匹配任何非空白字符 等价:[^ \f\n\r\t\v]
11 \t \v 匹配水平制表符、垂直制表符
12 () 子表达式,可以将表达式看做一个单元 (abc)*:匹配0到多个abc
13 . ==匹配除换行符以外的任何字符==
14 [^] 位于中括号之内的^,表示拒绝匹配该[]内的内容
15 | 两项之间选择其一进行匹配,逻辑或
16 {} 标记限定符,会用于限定需要对某个模式进行匹配多少次
17 \b 匹配单词的前或后边界(即单词与空格之间的边界、空白指出) \bFoo:匹配以Foo开始的单词
18 \B \b的相反:任何不是边界的都可以匹配 在单词FooBar中执行\BoBa可以成功匹配单词FooBar
19 \num \1 调用子表达式,即调用()的东西
20 \w 匹配字母数字下划线 等价[0-9a-zA-Z_];取反:\W、[^0-9a-zA-Z _]

misc

  1. 注意:* 可以不出现,即abc*可以对ab匹配成功!
  2. 同上,? 也可以不出现,即abc?可以对ab匹配成功。区别在于* 可以匹配多个,而?匹配0或1个。
  3. ==特殊字符出现在[]内时,其功能会转换为普通的字符。如[.]就只表示匹配字符’.’,而’.’的原意是除换行符之外的任何单字符==。
  4. ==[xyz]也是表示范围,表示可以匹配x或y或z中的任意一个字符,并不是表示只能匹配’xyz’==

() [] {} 的理解和区别

{} 限定符

  • 限定符其实就是用来限定模式需要匹配多少次的。
  • 用法:{n,m}匹配n到m次,{n}匹配n次,{n,}匹配最少n次。
  • *:相当于{0,}, +:相当于{1,}, ?:相当于{0,1}。
  • 示例:Class[1-2][0-9]{1}

() 子表达式

  • ()内可以像写其他表达式一样,整个()组成子表达式。
  • 每个()子表达式都根据其位置拥有一个编号,可以使用\number来调用这个子表达式
  • 示例:”(\b[a-z]+) \1\b” # \1调用子表达式

[] 范围表达式

  • 内部可以指定一个匹配范围、匹配序列。
2011-01-02 13:08:00 xiaohongyangOK 阅读数 216

二:字符串和正则表达式_正则表达式

一.正则表达式概述
正则表达式是一种进行文本匹配的工具.在PHP中,正则表达式的创建很简单,只需将模式的内容包含在两个反斜线"/"之间,如"/PHP/".即将要匹配的内容放在定界符之间,其中定界符的使用不局限于"/",也可以使用除数字、字母和斜线以"/"外的任何字符.如:"#","/","!"

二.正则表达式的语法
正则表达式是由普通字符(例如A~Z)和特殊字符(如* 、/等元字符)组成的文字模式,正则表达式作为一个模板,可以将某个字符模式与所搜索的字符串进行匹配.
1.普通字符:是组成正则表达式的基本单位.内容如下:
(1)单字字符,数字:如a~z,A~Z,0~9 
(2)模式单元:如(ASD).即由多个普通字符组成的原子
(3)普通字符,如[ABC]
(4)重新使用的模式单元
(5)普通转义字符
(6)转义元字符
正则表达式的普通转义字符如下:
[ …]  位于括号之内的任意字符
[^…]  不在括号之内的任意字符
.   除换行符和其他Unicode行终止符之外的任意字符
/d            匹配一个数字字符,等价于[0~9]
/D           匹配一个非数字字符,等价于[^0~9]
/w           任何单词字符,包括字母和下划线.等价于"[A-Za-z0-9]"
/W           任何非单词字符,等价于[^A-Za-z0-9]
/s            任何空白字符,包括空格,制表符,分页符等.等价于"[/f/n/t/r/v]"
/S            任何非空白字符,等价于   "[^/f/n/t/r/v]"
/f             分页符.等价于/x0c或cL
/n            换行符.等价于/x0Aa或Cj
/r             回车符,等价于/x0d或cM
/t             制表符,等价于/x09或/cl
/v            垂直制表符,等价于/x0b或cKs
/oNN      匹配八进制数字
/xNN     匹配十六进行数字
/oC          匹配一个控制字符

2.特殊字符:
特殊字符就是一些有特殊含义的字符,如"*.php"中的*,简单地说就是表示任何字符串的意思.如果要查找文件中有"*"的文件,则需要对"*"进行转义,即在前面加上一个反斜械' / '.
(1)原子表:原子表[]存放一组原子,匹配其中的一个原子.对于一组按ASCII码顺序排列的原子可以使用" - "连接.
e.g :
/m[0123456789]/   匹配由一个字母"m"与一个数字组成的字符串.
/m[0-9]/
/0[xX][0-9a-fA-F]/   匹配一个简单的十六进制的数字
/[^0-9a-zA-Z_]/       匹配一个除英文字母数字和下划线以外的任意一个字符等同于//W/

(2)重复匹配:在正则表达式中有一些用于重复匹配其前原子的特殊字符:“*”、“+”、“?”。这些特殊字符实现的功能是相同的,唯一区别是重复匹配的次数不同
"*"表示重复匹配其前面的原子0次或1次或多次
"+"表示重复匹配其前面的原子1次或多次
"?"表示重复匹配其前面的原子0次或1次
上述3个重复匹配的特殊字符实现的是模糊次数的重复匹配,要精确的指定原子重复的次数,可以使用特殊字符{}指定所匹配原子出现的次数
{m}表示重复匹配其前面的原子m次
{m,n}表示重复匹配其前面的原子至少m次,至多n次
{m,}表示重复匹配其前面的原子至少m次
e.g :
/[A-Za-z][A-Za-z0-9]*/           对"*"前的原子进行0次或1次或多次匹配
/co{1,2}m/                               匹配com或coom

(3)边界限制
在应用正则表达式时,有时需要对其匹配的范围进行限制,以此来获取更准确的匹配结果
对匹配范围的边界有两种方法:第一是确保模式的匹配从字符串的末端开始,通过特殊字符"^"或者"/A"实现;第二是确保模式的匹配从字符串的末端开始,通过特殊字符"$"或者"/Z"实现.
e.x :
/^M/   判断首字符是否是大写字母"M"

(4)特殊字符" . "
特殊字符" . "匹配一个除换行符外的任何一个字符.相当于[^/n](Unix系统)或者[^/r/n](Windows系统)

(5)模式选择符" | "
模式选择符" | ",其作用是在正则表达式中对匹配的条件进行选择,可以匹配两个或都更多的选择之一。
e.x :
/^(/d{3}-)(/d{8})$|^(/d{4}-)(/d{7})$|^(/d{4}-)(/d{8})$/        判定是否是一个电话号码

(6)模式单元" () "
特殊字符" () "将其中的表达式变为原子使用,将其中的正则表达式看作一个整体,叫做模式单元.其使用方法与数学表达式中的括号类似。通过使用模式单元,其中的表达式可以被优先处理,如/^(/d{3}-)(/d{8})$|^(/d{4}-)(/d{7})$|^(/d{4}-)(/d{8})$/ 

3.模式匹配顺序:
首先是模式单元" () ",然后是重复匹配" ? " " * " " + " "{m,n}" ,然后是边界限制" ^ " " $ " " /b " " /B " " A " " Z ",最后是模式选择" | "

2017-10-03 12:10:57 SZYF133 阅读数 222

正则表达式介绍,grep、sed和swk命令的使用

随着对UNIX和LINUX熟悉程度的不断加深,需要经常接触到正则表达式这个领域。使用shell时,从一个文件中抽取多于一个字符串将会很麻烦。例如,在一个文本中抽取一个词,它的头两个字符是大写的,后面紧跟四个数字。如果不使用某种正则表达式,在shell中将不能实现这个操作。

本文内容包括:
• 匹配行首与行尾。
• 匹配数据集。
• 只匹配字母和数字。
• 匹配一定范围内的字符串集。
当从一个文件或命令输出中抽取或过滤文本时,可以使用正则表达式(RE),正则表达式是一些特殊或不很特殊的字符串模式的集合。为了抽取或获得信息,我们给出抽取操作应遵守的一些规则。这些规则由一些特殊字符或进行模式匹配操作时使用的元字符组成。也可以使用规则字符作为模式中的一部分进行搜寻。例如,A将查询A,x将查找字母x。系统自带的所有大的文本过滤工具在某种模式下都支持正则表达式的使用,并且还包括一些扩展的元字符集。这里只涉及其中之一,即以字符出现情况进行匹配的表达式,原因是一些系统将这类模式划分为一组形成基本元字符的集合。这是一个好想法,本书也采用这种方式。

基本元字符集及其含义

^ 只匹配行首
$ 只匹配行尾
* 只一个单字符后紧跟*,匹配0个或多个此单字符
[ ] 只匹配[ ]内字符。可以是一个单字符,也可以是字符序列。可以使用-表示[ ]内字符序列范围,如用[ 1-5 ]代替[12345 ]
\ 只用来屏蔽一个元字符的特殊含义。因为有时在shell中一些元字符有特殊含义。\可以使其失去应有意义. 只匹配任意单字符
pattern\ {n\} 只用来匹配前面pattern出现次数。n为次数
pattern\ {n,\ }m 只含义同上,但次数最少为n
pattern\ {n,m\ } 只含义同上,但pattern出现次数在n与m之间

经常使用的正则表达式举例

^ 对行首
$ 对行尾
^ [the ] 对以the开头行
[Ss]igna[lL] 对匹配单词signal、signaL、Signal、SignaL[Ss]igna[lL]\. 对同上,但加一句点
[mayMAY] 对包含may大写或小写字母的行
^USER$ 对只包含USER的行
[tty]$ 对以tty结尾的行
\ . 对带句点的行
^ d..x..x..x 对用户、用户组及其他用户组成员有可执行权限的目录
^[^l] 对排除关联目录的目录列表
[.*0] 对0之前或之后加任意字符
[000*] 对0 0 0或更多个
[iI] 对大写或小写I
[iI][nN] 对大写或小写i或n
[^$] 对空行
[^.*$] 对匹配行中任意字符串
^......$ 对包括6个字符的行
[a-zA-Z] 对任意单字符
[a-z][a-z]* 对至少一个小写字母
[^0-9\$ ] 对非数字或美元标识
[^0-0A-Za-z] 对非数字或字母
[123] 对1到3中一个数字
[Dd]evice 对单词device或Device
De..ce 对前两个字母为De,后跟两个任意字符,最后为c e
\^q 对以^ q开始行
^.$ 对仅有一个字符的行
^\.[0-9][0-9] 对以一个句点和两个数字开始的行
'"Device"' 对单词device
De[Vv]ice\ . 对单词Device或device
[0-9]\{2\}-[0-9]\{2\}-[0-9]\{4\ } 对日期格式dd-mm-yyyy
[0-9]\{3\}\.[0-9]\{3\}\.[0-9]\{3\}\.[0-9]\{3\} 对IP地址格式nnn. nnn.nnn.nnn
[^.*$] 对匹配任意行

grep , sed和awk的使用

1 grep 使用

相信grep是UNIX和LINUX中使用最广泛的命令之一。grep(全局正则表达式版本)允许对文本文件进行模式查找。如果找到匹配模式,grep打印包含模式的所有行。grep支持基本正则表达式,也支持其扩展集。grep有三种变形,即:
Grep:标准grep命令,本文大部分篇幅集中讨论此格式。
Egrep:扩展grep,支持基本及扩展的正则表达式,但不支持\ q模式范围的应用,与之相对应的一些更加规范的模式,这里也不予讨论。
Fgrep:快速grep。允许查找字符串而不是一个模式。不要误解单词fast,实际上它与grep速度相当。

开始讨论之前,先生成一个文件,插入一段文本,并在每列后加入< Tab >键,grep命令示例中绝大多数将以此为例,其命名为data . f。data.f的记录结构如下:
第1列:城市位置编号。
第2列:月份。
第3列:存储代码及出库年份。
第4列:产品代号。
第5列:产品统一标价。
第6列:标识号。
第7列:合格数量。
$pg data.f
48      Dec     3BC1997 LPSX    68.00   LVX2A   138
483     Sept    5AP1996 USP     65.00   LVX2C   189
47      Oct     3ZL1998 LPSX    43.00   KVM9D   512
219     Dec     2CC1999 CAD     23.00   PLV2C   68
484     nov     7PL1996 CAD     49.00   PLV2C   234
483     may     5PA1998 USP     37.00   KVM9D   644
216     sept    3ZL1998 USP     86.00   KVM9E   234

grep 命令格式

grep一般格式为:grep [选项]基本正则表达式[文件],这里的基本正则表达式可为字符串。在grep命令中输入字符串参数时,最好将其用双引号括起来。例如:“mystring”。这样做有两个原因,一是以防被误解为shell命令,二是可以用来查找多个单词组成的字符串,例如:“jet plane”,如果不用双引号将其括起来,那么单词plane将被误认为是一个文件,查询结果将返回“文件不存在”的错误信息。
在调用变量时,也应该使用双引号,诸如: grep“$MYVAR”文件名,如果不这样,将没有返回结果。在调用模式匹配时,应使用单引号。

grep选项

常用的grep选项有:
-c 只输出匹配行的计数。
-i 不区分大小写(只适用于单字符)。
-h 查询多文件时不显示文件名。
-l 查询多文件时只输出包含匹配字符的文件名。
-n 显示匹配行及行号。
-s 不显示不存在或无匹配文本的错误信息。
-v 显示不包含匹配文本的所有行。

查询多个文件

如果要在当前目录下所有. d o c文件中查找字符串“ s o r t”,方法如下:
$ grep "sort"*.doc
或在所有文件中查询单词“ sort it”
$ grep "sort it" *
现在讲述在文本文件中g r e p选项的用法。

行匹配

$ grep -c "48"data.f
$ 4
grep返回数字4,意义是有4行包含字符串“4 8”。现在显示包含“48”字符串的4行文本:
?  ~  grep '48' data.f
48      Dec     3BC1997 LPSX    68.00   LVX2A   138
483     Sept    5AP1996 USP     65.00   LVX2C   189
484     nov     7PL1996 CAD     49.00   PLV2C   234
483     may     5PA1998 USP     37.00   KVM9D   644

行数

显示满足匹配模式的所有行行数:行数在输出第一列,后跟包含48的每一匹配行。
➜  ~  grep -n '48' data.f
1:48      Dec     3BC1997 LPSX    68.00   LVX2A   138
2:483     Sept    5AP1996 USP     65.00   LVX2C   189
5:484     nov     7PL1996 CAD     49.00   PLV2C   234
6:483     may     5PA1998 USP     37.00   KVM9D   644

显示非匹配行
➜  ~  grep -v '48' data.f
47      Oct     3ZL1998 LPSX    43.00   KVM9D   512
219     Dec     2CC1999 CAD     23.00   PLV2C   68
216     sept    3ZL1998 USP     86.00   KVM9E   234

显示所有不包含4 8的各行:
➜  ~  grep -v '^[48]' data.f
219     Dec     2CC1999 CAD     23.00   PLV2C   68
216     sept    3ZL1998 USP     86.00   KVM9E   234


精确匹配
可能大家已注意到,在上一例中,抽取字符串“ 48”,返回结果包含诸如484和483等包含“48”的其他字符串,实际上应精确抽取只包含48的各行。注意在每个匹配模式中抽取字符串
后有一个< Tab >键,所以应操作如下:

➜  ~  grep '48\>' data.f
48      Dec     3BC1997 LPSX    68.00   LVX2A   138
大小写敏感
缺省情况下,grep是大小写敏感的,如要查询大小写不敏感字符串,必须使用- i开关。在data.f文件中有月份字符Sept,既有大写也有小写,要取得此字符串大小写不敏感查询,方法
如下:
➜  ~  grep -i 'sept' data.f
483     Sept    5AP1996 USP     65.00   LVX2C   189
216     sept    3ZL1998 USP     86.00   KVM9E   234


grep和正则表达式

使用正则表达式使模式匹配加入一些规则,因此可以在抽取信息中加入更多选择。使用正则表达式时最好用单引号括起来,这样可以防止grep中使用的专有模式与一些shell命令的特殊方式相混淆。
模式范围
假定要抽取代码为48 和483的城市位置,可以使用[ ]来指定字符串范围,这里用48开始,以3或4结尾,这样抽出484或483。

➜  ~  grep "48[34]" data.f
483     Sept    5AP1996 USP     65.00   LVX2C   189
484     nov     7PL1996 CAD     49.00   PLV2C   234
483     may     5PA1998 USP     37.00   KVM9D   644
不匹配行首
如果要抽出记录,使其行首不是48,可以在方括号中使用^记号,表明查询在行首开始。

➜  ~  grep '^[^48]' data.f
219     Dec     2CC1999 CAD     23.00   PLV2C   68
216     sept    3ZL1998 USP     86.00   KVM9E   234
设置大小写
使用-i开关可以屏蔽月份Sept的大小写敏感,也可以用另一种方式。这里使用[ ]模式抽取各行包含Sep t和sep t的所有信息。

➜  ~  grep '[Ss]ep' data.f
483     Sept    5AP1996 USP     65.00   LVX2C   189
216     sept    3ZL1998 USP     86.00   KVM9E   234
匹配任意字符
如果抽取以K开头,以D结尾的所有代码,可使用下述方法,因为已知代码长度为5个字符:

➜  ~  grep 'K...D' data.f
47      Oct     3ZL1998 LPSX    43.00   KVM9D   512
483     may     5PA1998 USP     37.00   KVM9D   644
日期查询
一个常用的查询模式是日期查询。先查询所有以5开始以1996或1998结尾的所有记录。使用模式5 . . 199[6,8]。这意味着第一个字符为5,后跟两个点,接着是199,剩余两个数字是6或
8。
➜  ~  grep '5..199[68]' data.f
483     Sept    5AP1996 USP     65.00   LVX2C   189
483     may     5PA1998 USP     37.00   KVM9D   644


范围组合

必须学会使用[ ]抽取信息。假定要取得城市代码,第一个字符为任意字符,第二个字符在0到5之间,第三个字符在0到6之间,使用下列模式即可实现。

➜  ~  grep '.[0-5][0-6]' data.f
48      Dec     3BC1997 LPSX    68.00   LVX2A   138
483     Sept    5AP1996 USP     65.00   LVX2C   189
47      Oct     3ZL1998 LPSX    43.00   KVM9D   512
219     Dec     2CC1999 CAD     23.00   PLV2C   68
484     nov     7PL1996 CAD     49.00   PLV2C   234
483     may     5PA1998 USP     37.00   KVM9D   644
216     sept    3ZL1998 USP     86.00   KVM9E   234

模式出现机率

抽取包含数字4至少重复出现两次的所有行,方法如下:

➜  ~  grep '4\{2,\}' data.f
483     may     5PA1998 USP     37.00   KVM9D   644


使用grep匹配“与”或者“或”模式

grep命令加-E参数,这一扩展允许使用扩展模式匹配。例如,要抽取城市代码为219或216,方法如下:

➜  ~  grep -E '219|216' data.f
219     Dec     2CC1999 CAD     23.00   PLV2C   68
216     sept    3ZL1998 USP     86.00   KVM9E   234

匹配特殊字符

查询有特殊含义的字符,诸如$ . ' " * [] ^ | \ + ? ,必须在特定字符前加\。假设要查询包含“.”的所有行,脚本如下:$ grep '\.' myfile

类名

grep允许使用国际字符模式匹配或匹配模式的类名形式。

类名及其等价的正则表达式
等价的正则表达式 等价的正则表达式
[[:upper:]] [A-Z] [[:alnum:]] [0-9a-zA-z]
[[:lower:]] [a-z] [[:space:]] 空格或tab键
[[:digit:]] [0-9] [[:alpha:]] [a-zA-Z]

现举例说明其使用方式。要抽取产品代码,该代码以5开头,后跟至少两个大写字母。使用的脚本如下:
➜  ~  grep -E '5[[:upper:]][[:upper:]]' data.f
483     Sept    5AP1996 USP     65.00   LVX2C   189
483     may     5PA1998 USP     37.00   KVM9D   644

系统grep命令

使用已学过的知识可以很容易通过grep命令获得系统信息。下面几个例子中,将用到管道命令,即符号|,使用它左边命令的输出结果作为它右边命令的输入。
➜  ~  ls -l | grep '^d'
drwxrwxr-x  2 yifeng yifeng      4096 Aug 12 18:22 cpp
drwxr-xr-x  8 yifeng yifeng      4096 Aug 12 09:18 cpp-yifeng
drwxrwxr-x  4 yifeng yifeng      4096 Aug 12 09:52 hwapp
drwxrwxr-x  3 yifeng yifeng      4096 Aug 12 09:18 kjmr
drwxrwxr-x 21 yifeng yifeng      4096 Aug 12 09:19 openssl-1.0.2l
drwxrwxr-x 10 yifeng yifeng      4096 Aug 12 09:19 openssl-fips-2.0.16
drwxr-xr-x  8 yifeng yifeng      4096 Aug 12 09:27 php
drwxrwxr-x  6 yifeng yifeng      4096 Aug 13 07:43 projects
drwxr-xr-x  9 yifeng yifeng      4096 Aug 12 09:27 vmware-tools-distrib
drwxr-xr-x 21 yifeng yifeng      4096 Sep  1 09:48 yifeng-src-2.0.7

egrep

egrep代表expression或extended grep,适情况而定。egrep接受所有的正则表达式, egrep的一个显著特性是可以以一个文件作为保存的字符串,然后将之传给egrep作为参数,为此使用- f开关。如果创建一个名为grepstring s的文件,并输入484和47:
➜  ~  vi grepstring 
➜  ~  pg grepstring
484
47
➜  ~  grep -f grepstring data.f
47      Oct     3ZL1998 LPSX    43.00   KVM9D   512
484     nov     7PL1996 CAD     49.00   PLV2C   234
希望大家已经理解了grep的灵活性,它是一个很强大而流行的工具,像其他许多UNIX工具一样,已经被使用在DOS中。如果要通过文件快速查找字符串或模式, grep是一个很好的选择。
2009-12-24 12:42:00 lcl_8318 阅读数 367

 正则表达式(Regular Expression)是一种功能强大的字符串样式比较技术。正则表达式最早是从UNIX系统被开发出来的。它是由一群特殊符号所组成的字符串,表示特定的文字样式,被用于比较某段字符串或文章里,符合正则表达式所代表的样式文字,例如,一个简单的正则表达式【1-9】,可以用来表示字符串中1-9的数字。.NET根据Perl语言定义了与其完全兼容的一组完整的语法元素。

1.     正则表达式中的元字符

 正则表达式中的元字符代表了表示字符的全部意义。都有哪些常用的元字符呢。

元字符

 

匹配除换行符外的所有字符。

/w

匹配字母、数字、下划线、汉字。

/s

匹配空白符(空格)。

/d

匹配数字。

/b

绝对匹配表达式的开始或结束。表达式中只要包含完全匹配即可。

^

绝对匹配表达式的开始。和$配合表示必须完全匹配。

$

绝对匹配表达式的结束。和^配合必须完全匹配。

关于^$/b的使用区别。

^/w{3}@/w+$:这个正则表达式表示完全匹配。如abc@efg@msn这个表达式不满足此表达式。/b/w{3}@/w+/b:这个正则表达式表示字符串中部分绝对匹配。如上面的表达式结果是abc@efg

 

2.     正则表达式中用于表示重复的字符

元字符

说明

举例

*

0次或多次的字符

/w*0个或多个字母、数字、汉字、下划线

0次或1次字符

/d?0个或1个数字。

+

1次货多次字符

/d+1个或多个数字。

{n}

n次字符。

/b/d{8}/b:决定匹配8个数字,如果没有/b则包含8个数字即可。

{n,M}

nM次字符

/d{2,6}26个数字。

{n, }

n次以上字符

/d{2,}:两个以上的数字。

3.     转义字符

  正则表达式中的转义字符用“/”来完成。例如我们要匹配“”的正则表达式:^/d{3}//w{2}$。那么匹配它的字符串应该是这样的形式:024Ab。因为“”在正则表达式中是元字符代表除换行符外的所有字符,所以需要转义。

4.     范围内字符匹配:[ ]

  正则表达式利用[ ]来匹配范围内的字符串。例如[auio]/d{3}表示开头匹配auio总的任何一个字符,后面是三位数字的字符串。[01]表示匹配01的任何字符。[0-9a-zA-Z]表示所有数字和字母。

5.     分支条件

 利用“|”把规则分开,并从左向右进行匹配。表示匹配的字符串满足其中一个规则即可。例如我们编写正则表达式实现电话号码的匹配形式为:024-23887575 02423887575)或0411-234575904112345759)。我们可以这样来实现:^/d{3}[-]?/d{8}$|^/d{4}[-]?/d{7}$。

6.     分组匹配

   前面我们已经学过怎么重复单个字符(直接在字符后面加上限定符)如:/b[a]{3}/d+/b。表示以aaa开头后面是多个数字。但是如果想要重复多个字符又该怎么办呢。我们可以用小括号来指定子表达式(也叫做分组),然后你就可以指定这个表达式的重复次数了。例如我们编写正则表达式来匹配简单的ip地址。(/d{1,3}/. .{3}/d{1,3}。要理解这个表达式,请按照下列顺序分析它:/d{1,3}匹配1-3位数字,(/d{1,3}/ .{3}匹配三位数字加上一个小数点,作为分组重复3次。

7.     反义元字符

  有时需要查找不属于某个能简单定义的字符类的字符。比如想找除了数字意外其它的任意字符,这时就需要用到反义。在正则表达式中表示反义的元字符有:

元字符(大写)

  

/W

除了字母、数字、下划线、汉字外的所有字符。

/S

除了空格外的所有字符。

/D

除了数字意外的所有字符。

/B

除了开头和结尾外绝对匹配。

[^X]

除了X以外的其它字符。

[^auio]

除了auio外的其它字符。

8.     反向引用

  使用小括号指定一个子表达式后,匹配这个子表达式的文本可以在表达式或其它程序中作进一步的处理。默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以小括号的左括号为标志,第一个出现的分组组号为1,第二个为2,以此类推。

  后向引用用于重复收索前面某个分组匹配的文本。例如/1代表分组1匹配的文本。难以理解?我们看看实例。/b(/w+)/b/s+/1/b这个正则表达式可以用来匹配重复的表达式,如:go go或者Help  Help。这个表达式中的(/w+)被分组并命名组号为1,而后面的/1表示重复前面的表达式的内容。这个重复与前面的重复的字符不同,它代表重复的内容,而重复字符是指重复的形式。

  你也可以自己指定子表达式的组名。语法形式:(?<Word>/w+)。这个语法“?<world>”就把子表达式的组名命名为“wold”了。如果想捕获前面的组中的内容实用这样的语法:“/k<world>”上面的正则表达式可以改为:/b(?<world>/w+)/b/s+/k<world>/b

9.     零宽断言

  零宽断言是指利用表达式来指定一个位置,这个位置应该满足一个条件。如:/b^$。对于零宽断言我们有以下几个形式:

Ø         (?=exp):零宽度正预测先行断言。它表示断言自身出现的位置的后面能匹配表达式exp结果得到前面部分,不包括exp表达式本身的内容。例如:/b/w+(?=ing/b),匹配以ing结尾的单词的前面部分(除了ing以外的部分),如查找I’m singing while you’re dancing。时,它会匹配singdanc。(相当于字符串的后面部分与exp匹配)。断言用来声明一个应该为真的事实。正则表达式中只有当断言为真时才会继续匹配。

Ø         (?!exp):零宽度负预测先行断言。它断言此位置的后面不能匹配表达式exp。例如:/d{3}(?!/d)。它表示匹配三位数字后不能是数字。

Ø         (?<=exp):零宽度正回顾后发言,它断言自身出现的位置的前面能匹配表达式exp,结果得到除了Exp表达式的后半部分。例如:?<=/bre/w+/b。它表示匹配以re开头的单词的后半部分(除了re部分)。如查找字符串reading a book时,它的匹配结果是ading

Ø         (?<!exp):零宽度负预测先行断言:它断言此位置的后面不能匹配表达式exp。例如:(?<![a-z])/d{7}表示匹配前面不是小写字母的7为数字。

一个更为复杂的例子:(?<=<(/w+)>).*(?=<V/1>)它匹配不包含属性的简单HTML标签里的内容。

10. 贪婪与懒惰

  当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,他将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab,它会匹配aabab整个串。这被称为贪婪匹配。有时我们需要匹配尽可能少的串,我们称为懒惰匹配。我们只需将前面的表达式改动一下,加一个“?”即可。a.*?b:匹配最短的,以a开始,以b结束的字符串。结果就是aabab

我们来看一下懒惰限定符:

字符

说明

*?

重复任意次,但尽可能少重复。

+?

重复1次或更多次,但尽可能少重复。

??

重复0次或1次,但尽可能少重复。

{n,m}?

重复n次到m次,但尽可能少重复。

{n,}?

重复n次以上,但尽可能少重复。

Oracle 正则表达式

阅读数 283

正则表达式

阅读数 558

没有更多推荐了,返回首页