文章詳情頁

對(duì)話 UNIX，第 9 部分: 正則表達(dá)式

瀏覽：141日期：2024-06-18 14:23:03

非常奇怪，直到今天我仍然能重復(fù)周六早上的經(jīng)典歌曲“Conjunction Junction。這是好事（看了太多電視）還是壞事（也許是我現(xiàn)在職業(yè)的先兆）仍然有待討論。不管怎樣，這首小調(diào)在歡快的節(jié)奏下傳遞了基本的信息。

我還沒有為學(xué)習(xí) Unix 構(gòu)想出與“Conjunction Junction相似的作品，但是我會(huì)在未來的幾個(gè)月里嘗試親手編寫這樣的歌曲。與此同時(shí)，趁著快樂回憶所帶來的好心情，我們繼續(xù)以 Schoolhouse 搖滾的傳統(tǒng)學(xué)習(xí)方式攻克命令行。

現(xiàn)在開始上課。吐出嘴里的口香糖，回到您的座位上，然后拿出一根二號(hào)鉛筆。還有您，Spicoli。

模仿秀

您可以將 UNIX 命令行看作是一句話：

可執(zhí)行命令，如 cat 或 ls，是動(dòng)詞——操作。

命令的輸出是名詞——要查閱或使用的數(shù)據(jù)。

Shell 操作符，如 |（管道）或 >（重定向標(biāo)準(zhǔn)輸出），是連詞——用于連接句子。

例如，命令行：ls -A | wc -l 用于計(jì)算當(dāng)前目錄下的條目數(shù)（忽略特殊條目 . 和 ..），它包含兩個(gè)句子。第一個(gè)句子 ls -A 是動(dòng)詞結(jié)構(gòu)，列舉當(dāng)前目錄下的內(nèi)容，第二個(gè)句子 wc -l 是另一個(gè)動(dòng)詞結(jié)構(gòu)，用于計(jì)算行數(shù)。第一個(gè)句子輸出的結(jié)果作為第二個(gè)句子的輸入，并由連接詞（管道）連接這兩個(gè)句子。

在本系列文章以及其他文章中展示的許多您可能已經(jīng)學(xué)習(xí)過的命令行句式都具有這種句子結(jié)構(gòu)。

但是，如果缺少了文法上的修飾語，命令行將顯得不專業(yè)。當(dāng)然，基本句子也能完成工作，但是這樣顯得不優(yōu)美。（在此對(duì)高中英語演唱二人組 Rad 女士和 Perlstein 女士表示歉意。）解決更有趣的問題需要用到形容詞。

幾乎所有重要問題都需要從無用數(shù)據(jù)中過濾出有用數(shù)據(jù)。雖然屬性的數(shù)量和種類會(huì)有所不同，但是每種方案都通過某種方式（形式或格式），隱式或顯式地描述了它要查找并處理的信息，從而生成另外一種形式的其他信息。

在命令行中，正則表達(dá)式的作用相當(dāng)于形容詞——一種描述或限定詞。在應(yīng)用到輸出時(shí)，正則表達(dá)式可辨別相關(guān)數(shù)據(jù)和無關(guān)數(shù)據(jù)。

標(biāo)點(diǎn)概述

讓我們看一個(gè)示例問題。

grep 實(shí)用工具逐行過濾輸入并尋找匹配。grep 的最簡(jiǎn)單應(yīng)用是打印那些包含與某個(gè)模式匹配的文本的行。grep 可以查找具有固定順序的字符組合，甚至可以通過使用 -i 選項(xiàng)來忽略大小寫。

因此，假定文件 heroes.txt 包含以下行：

CatwomanBatmanThe TickSpider ManBlack CatBatgirlDanger GirlWonder WomanLuke CageThe PunisherAnt ManDead GirlAquamanSCUDSpider WomanBlackboltMartian Manhunter

命令行：

grep -i man heroes.txt

將生成：

CatwomanBatmanSpider ManWonder WomanAnt ManAquamanMartian Manhunter

其中 grep 掃描 heroes.txt 文件中的每一行并查找字母 m，后面緊跟 a，然后緊跟 n。除了必須保證相鄰，這些字母可以出現(xiàn)在行的任何位置，甚至可以位于較大的單詞中間。在不考慮大小寫的情況下（-i 選項(xiàng)），Catwoman、Batman、Spider Man、Wonder Woman、Ant Man、Aquaman 和 Martian Manhunter 都包含字符串 man。

grep 實(shí)用工具包含其他可優(yōu)化搜索的內(nèi)置選項(xiàng)。例如，-w 選項(xiàng)限制于匹配整個(gè)單詞，因此 grep -i -w man 將排除 Catwoman 和 Batman（舉例來說）。

該工具還有一個(gè)優(yōu)秀的功能，可以排除而不是包括所有匹配的搜索結(jié)果。使用 -v 選項(xiàng)來排除匹配的行。例如：

grep -v -i 'spider' heroes.txt

將打印除了包含字符串 spider 之外的所有行。

CatwomanBatmanThe TickBlack CatBatgirlDanger GirlWonder WomanLuke CageThe PunisherAnt ManDead GirlAquamanSCUDBlackboltMartian Manhunter

但是，對(duì)于以下這些情況，您該如何處理？只希望得到那些開頭為“Bat的單詞；或者以“bat、“Bat、“cat或“Cat開頭的單詞？或者希望知道有多少漫畫復(fù)仇者的名字以“man結(jié)束。在這些實(shí)例中，類似于上述三個(gè)示例的簡(jiǎn)單字符串搜索將無法滿足要求，因?yàn)檫@些搜索不區(qū)分位置。

位置、位置、位置和備選項(xiàng)

正則表達(dá)式可以過濾特定的位置，例如行的開始或結(jié)束，以及單詞的開始和結(jié)束。正則表達(dá)式（通常簡(jiǎn)寫為 regex）還可以描述：備選項(xiàng)（您可將其稱為“this或“that）；固定長(zhǎng)度、可變長(zhǎng)度或不定長(zhǎng)度的重復(fù)；范圍（例如，“a-m 之間的任意字母）；還有字符的類別或種類（“可打印字符或“標(biāo)點(diǎn)符號(hào)），以及其他技術(shù)。

表 1 顯示了一些常用的正則表達(dá)式操作符。您可以連接表 1 中顯示的元素（以及其他操作符）并加以組合使用，從而構(gòu)建（非常）復(fù)雜的正則表達(dá)式。

表 1. 常用的正則表達(dá)式操作符

操作符用途.（句號(hào)）匹配任意單個(gè)字符。^（脫字號(hào)）匹配出現(xiàn)在行首或字符串開始位置的空字符串。$（美元符號(hào)）匹配出現(xiàn)在行末的空字符串。A 匹配大寫字母 A。a 匹配小寫字母 a。d 匹配任意一位數(shù)字。D 匹配任意單個(gè)非數(shù)字字符。w 匹配任意單個(gè)字母數(shù)字字符，同義詞是 [:alnum:]。[A-E] 匹配任意大寫的 A、B、C、D 或 E。[^A-E] 匹配除 A、B、C、D 和 E 之外的任意字符。X? 匹配出現(xiàn)零次或一次的大寫字母 X。X* 匹配零個(gè)或任意個(gè)大寫 X。X+ 匹配一個(gè)或多個(gè)字母 X。X{n} 精確匹配 n 個(gè)字母 X。X{n,m} 匹配最少 n 個(gè)并且不超過 m 個(gè)字母 X。如果省略 m，表達(dá)式將嘗試匹配最少 n 個(gè) X。(abc|def)+ 匹配一連串的（最少一個(gè)） abc 或 def；abc 和 def 將匹配。

以下是一些使用 grep 作為搜索工具的正則表達(dá)式示例。許多其他 UNIX 工具，包括交互式編輯器 vi 和 EMacs、流編輯器 sed 和 awk，以及所有現(xiàn)代編程語言都支持正則表達(dá)式。在您學(xué)會(huì)正則表達(dá)式的語法（也許相當(dāng)晦澀）之后，就可以將您的專業(yè)知識(shí)靈活運(yùn)用到不同的工具、編程語言和操作系統(tǒng)。

查找以“Bat開頭的名稱

要查找以“Bat開頭的名稱，請(qǐng)使用：

grep -E '^Bat'

可以使用 -E 選項(xiàng)來指定正則表達(dá)式。^（脫字號(hào)）字符匹配行首或字符串的開頭，這是一個(gè)出現(xiàn)在每行或每個(gè)字符串開頭字符之前的假想字符。字母 B、a 和 t 只具有字面含義并且僅匹配那些特定的字符。因此，命令 grep -E '^Bat' 將生成：

BatmanBatgirl

由于許多 regex 操作符也為 Shell 所使用（其中一些具有不同的用途，另外一些則有類似的用途），因此一個(gè)好的習(xí)慣是使用單引號(hào)將命令行中的每個(gè) regex 括起來，以保護(hù) regex 操作符免遭 Shell 的誤解。例如，*（星號(hào)）和 $（美元符號(hào)）都是 regex 操作符，并且對(duì)于您的 Shell 具有特殊的含義。

查找以“man結(jié)尾的名稱

要查找以“man結(jié)尾的名稱，可以使用 regex man$ 來匹配序列 m、a 和 n，并且后面緊接與 regex 操作符 $ 匹配的行（字符串）。

查找空行

基于 ^ 和 $ 的作用，您可以使用 regex ^$ 來查找空行（相當(dāng)于在開始之后立即結(jié)束的行）。

備選項(xiàng)或集合操作符

要查找以“bat、“Bat、“cat或“Cat開頭的單詞，可以使用以下兩個(gè)技巧。首先是備選項(xiàng)，如果備選項(xiàng)中的任意模式匹配，都會(huì)產(chǎn)生匹配的結(jié)果。例如，命令：

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

grep -i -E '^(bat|cat)' heroes.txt

匹配“bat、“Bat、“cat或“Cat的另一個(gè)方法是使用 [ ]（方括號(hào)）集合操作符。如果將一組字符放在一個(gè)集合中，則可以匹配那些字符中的任意一個(gè)。（您可以將集合看作是字符備選項(xiàng)的簡(jiǎn)寫法。）

例如，命令行：

grep -E '^[bcBC]at' heroes.txt

與以下命令生成的結(jié)果相同：

grep -E '^(bat|Bat|cat|Cat)' heroes.txt

您可以再次使用 -i 將 regex 簡(jiǎn)化為 ^[bc]at。

而且，還可以使用 -（連字符）操作符在集合中指定包含的字符范圍。例如，用戶名通常以字母開頭。假定要在提交給您的服務(wù)器的 Web 表格中驗(yàn)證這樣的用戶名，可以使用類似于 ^[A-Za-z] 的 regex。此 regex 表示“字符串的開頭后緊跟任意大寫字母 (A-Z) 或任意小寫字母 (a-z)。順便說明一下，[A-z] 與 [A-Za-z] 作用相同。

還可以在集合中混合使用范圍和單個(gè)字符。regex [A-MXYZ] 將匹配任意大寫的 A-M、X、Y 和 Z。

并且，如果希望反轉(zhuǎn)集合（即排除集合中的任意字符），可以使用特殊集合 [^ ] 并包含要排除的范圍或字符。以下是反轉(zhuǎn)集合的示例。要查找所有名稱中包含 at 的超級(jí)英雄，并排除 Dark Knight 和 Batman，請(qǐng)鍵入：

grep -i -E '[^b]at' heroes.txt

此命令生成：

CatwomanBlack Cat

由于某些集合需要經(jīng)常使用，所以設(shè)計(jì)出簡(jiǎn)化符號(hào)以代替大量字符。例如，集合 [A-z0-9_] 十分常用，因此可以簡(jiǎn)寫為 w。與此類似，操作符 W 是集合 [^A-z0-9_] 的簡(jiǎn)寫。還可以使用符號(hào) [:alnum:] 代替 w，使用 [^[:alnum:]] 代替 W。

順便說明一下，w（以及同義詞 [:alnum:]）是特定于區(qū)域的，而 [A-z0-9_] 即表示字母 A-z、數(shù)字 0-9 和下劃線。如果要開發(fā)國際化應(yīng)用程序，請(qǐng)使用區(qū)域特定的格式以使代碼可以在許多區(qū)域之間移植。

跟我一起重復(fù)：重復(fù)，重復(fù)，重復(fù)

到目前為止，已經(jīng)介紹了字面值、位置和兩種備選項(xiàng)操作符。僅使用這些內(nèi)容，就可以匹配大多數(shù)具有可預(yù)測(cè) 長(zhǎng)度的模式。現(xiàn)在回到用戶名，通過以下 regex 命令可以確保每個(gè)用戶名以字母開頭并緊跟恰好七個(gè)字母或數(shù)字：

[a-z][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9][a-z0-9]

但是這樣有點(diǎn)笨拙。而且，它只匹配恰好八個(gè)字符的用戶名。它不會(huì)匹配三到八個(gè)字符之間的名稱，這通常也是有效的用戶名。

正則表達(dá)式還可以包括重復(fù)修飾符。重復(fù)修飾符可以指定數(shù)量，如沒有、一個(gè)、多個(gè)、一個(gè)或多個(gè)，零或一個(gè)、五到十個(gè)，以及恰好三個(gè)。重復(fù)修飾符必須與其他模式組合，修飾符本身沒有含義。

例如，regex：

^[A-z][A-z0-9]{2,7}$

可以實(shí)現(xiàn)前面描述的用戶名過濾功能。用戶名是以字母開頭，后面緊跟至少兩個(gè)，但不超過七個(gè)字母或數(shù)字的字符串，并且緊跟字符串結(jié)尾。

此處的位置定位點(diǎn)非常重要。如果沒有兩個(gè)位置操作符，則會(huì)錯(cuò)誤地接受任意長(zhǎng)度的用戶名。為什么呢？請(qǐng)考慮 regex：

^[A-z][A-z0-9]{2,7}

此命令辨別：字符串是否以字母開頭并緊跟二到七個(gè)字母？但是它未提到終止條件。因此，字符串 samuelclemens 滿足條件，但是它的長(zhǎng)度顯然超出了有效用戶名的范圍。與此類似，省略開始定位點(diǎn) ^，或同時(shí)省略兩個(gè)定位點(diǎn)將分別匹配以類似 munster1313 結(jié)束或包含該字符串的字符串。如果必須匹配特定的長(zhǎng)度，請(qǐng)記得在要求的模式的開頭和結(jié)尾分別加上分隔符。

以下是其他一些示例：

可以使用 {2,} 查找兩次或多次重復(fù)。regex ^G[o]{2,}gle 匹配 Google、Gooogle、Goooogle 等等。

重復(fù)修飾符 ?、+ 和 * 分別查找零次或一次、一次或多次，以及零次或多次重復(fù)。（例如，您可以將 ? 看作是 {0,1} 的簡(jiǎn)寫法。）

regex boys? 匹配 boy 或 boys；regex Goo?gle 匹配 Gogle 或 Google。

regex Goo+gle 匹配 Google、Gooogle、Goooogle 等等。

construct Goo*gle 匹配 Gogle、Google、Gooogle 等等。

可以將重復(fù)修飾符應(yīng)用到單個(gè)字符（如上所示），還可以應(yīng)用到更復(fù)雜的組合。使用 ( 和 ) 圓括號(hào)（就像數(shù)學(xué)中的用法）將修飾符應(yīng)用到子表達(dá)式。下面是一個(gè)示例：給定文本文件 test.txt：The rain in Spain falls mainlyon the the plain.It was the best of of times;it was the worst of times.

命令 grep -i -E '(b(of|the)W+){2,}' test.txt 將生成：

on the the plain.It was the best of of times;

regex 操作符 b 匹配單詞邊界或 (Ww|wW)。該 regex 表示“一連串完整單詞‘the’或‘of’后面緊跟非文字字符。您可能會(huì)提出疑問，為什么 W+ 是必需的：b 是位于單詞開頭或結(jié)尾的空字符串。在單詞之間必須包括這一（或這些）字符，否則該 regex 將無法找到匹配。

捕獲需要注意的內(nèi)容

查找文本是常見的問題，但是更常見的問題則是希望在找到文本之后將其提取出來。換句話說，您希望去粗取精。

正則表達(dá)式通過捕獲來提取信息。如果希望將需要的文本與其他內(nèi)容分開，請(qǐng)使用圓括號(hào)將模式括起來。實(shí)際上，您已經(jīng)使用圓括號(hào)收集術(shù)語；在默認(rèn)情況下，圓括號(hào)自動(dòng)進(jìn)行捕獲。

要查看捕獲，請(qǐng)切換到 Perl。（grep 實(shí)用工具不支持捕獲，因?yàn)槠淠繕?biāo)是打印包含模式的行。）

以下命令：

perl -n -e '/^Thes+(.*)$/ && print "$1n"' heroes.txt

將打印：

TickPunisher

使用命令 perl -e 可以直接從命令行運(yùn)行 Perl 程序。perl -n 命令針對(duì)輸入文件的每一行運(yùn)行一次程序。命令的 regex 部分，即位于斜杠之間的文本（/）表示“匹配字符串的開頭，然后字母‘T’、‘h’、‘e’后緊跟一個(gè)或多個(gè)空格字符 s+，然后捕獲直到字符串結(jié)尾的所有字符。

Perl 捕獲內(nèi)容被放在以 $1 開頭的特殊 Perl 變量中。Perl 程序的其余部分打印捕獲的內(nèi)容。

每個(gè)嵌套的括號(hào)對(duì)，從左開始算起，每個(gè)左圓括號(hào)加一，放在下一個(gè)特殊的數(shù)字變量中。例如：

perl -n -e '/^(w)+-(w+)$/ && print "$1 $2"'

將生成：

Spider ManAnt ManSpider Woman

捕獲感興趣的文本僅僅是隔靴搔癢。如果能夠準(zhǔn)確確定材料，就可以使用其他材料改變其外觀。類似于 vi 和 Emacs 的編輯器將模式匹配與替換組合，從而將查找和替換文本組合成一步操作。還可以使用模式、替換和 sed 從命令行更改文本。

豐富的主題

正則表達(dá)式非常強(qiáng)大；可供使用的操作符的數(shù)量龐大，種類繁多。它包含如此豐富的信息和實(shí)踐知識(shí)，我們?cè)谶@里所能列舉的實(shí)屬鳳毛麟角。

幸運(yùn)的是，有以下三種優(yōu)秀的正則表達(dá)式理論來源可供使用：

如果在您的系統(tǒng)上有 Perl，可以參閱 Perl Regular Expression man 頁面（鍵入 perldoc perlre）。它會(huì)提供 regex 的精彩介紹，并包含許多有用的示例。許多編程語言都已采用 Perl 兼容的正則表達(dá)式 (PCRE)，因此您在此 man 頁面讀到的內(nèi)容已被直接轉(zhuǎn)換到 PHP、Python、Java™ 和 Ruby 編程語言，以及許多其他最新工具。

Jeffrey FrIEdl 編著的《正則表達(dá)式》（第三版）被認(rèn)為是 regex 用法方面的圣經(jīng)。該書細(xì)致、準(zhǔn)確、清晰、務(wù)實(shí)地說明了匹配的工作方式、所有的 regex 操作符、多數(shù)優(yōu)先性（限制 + 和 * 匹配字符的數(shù)量），以及更多內(nèi)容。此外，F(xiàn)riedl 的書還包括一些令人驚嘆的正則表達(dá)式，可以準(zhǔn)確地匹配完全限定的電子郵件地址和其他 Request for Comments (RFC) 特定的字符串。

Nathan Good 編著的 Regular Expression Recipes 一書提供了針對(duì)許多常見數(shù)據(jù)處理和過濾問題的有用的解決方案。如果需要提取郵政編碼、電話號(hào)碼或引用的字符串，請(qǐng)嘗試 Nathan 的解決方案。

在命令行中，可以采用許多方法使用正則表達(dá)式。幾乎每個(gè)處理文本的命令都支持某種形式的正則表達(dá)式。大多數(shù) Shell 命令語法還或多或少地?cái)U(kuò)展正則表達(dá)式以匹配文件名（盡管操作符的功能可能有所不同）。

例如，鍵入 ls [a-c] 以查找名為 a、b 或 c 的文件。鍵入 ls [a-c]* 以查找以 a、b 或 c 開頭的所有文件名。此處的 * 在 Shell 中不像 grep 的解釋器那樣修飾 [a-c]，* 被解釋為 .*。? 操作符在 Shell 中也可以工作，但是被解釋為 .，即匹配任意單個(gè)字符。

查看您最喜歡的實(shí)用工具或 Shell 的文檔以確定哪些 regex 操作符受支持，以及操作符可能具有的獨(dú)特性。

下課了！

這堂課比往常的時(shí)間要長(zhǎng)。但是您現(xiàn)在已了解了正則表達(dá)式的基本知識(shí)。出去放松一下。

在您享受空閑的時(shí)候，我將開始編寫很快會(huì)流行起來的經(jīng)典歌詞“描述 99 個(gè)命令的 99 行代碼。

Unix系統(tǒng)

上一條：對(duì)話 UNIX: 第 10 部分,定制您的 Shell下一條：對(duì)話 UNIX，第 6 部分: 通過腳本實(shí)現(xiàn)操作的自動(dòng)化

相關(guān)文章：

1. 對(duì)話 UNIX: Squirrel--可移植的 shell 和腳本語言2. 對(duì)話 UNIX: 更多 shell 腳本技術(shù)3. 對(duì)話 UNIX: 第 10 部分,定制您的 Shell4. 對(duì)話 UNIX: !$#@*%5. 對(duì)話 UNIX，第 6 部分: 通過腳本實(shí)現(xiàn)操作的自動(dòng)化6. 對(duì)話 UNIX：第 2 部分: 做得多不如做得巧7. 對(duì)話 UNIX，第 12 部分: 自己動(dòng)手完成項(xiàng)目8. 對(duì)話 UNIX，第 8 部分: UNIX 進(jìn)程9. 對(duì)話 UNIX，第 3 部分: 在命令行中完成所有的工作10. 對(duì)話 UNIX，第 7 部分: 命令行慣用語

排行榜

					
					Windows Vista系統(tǒng)用戶非常有必要做的幾個(gè)優(yōu)化
Windows7快捷鍵沖突
win10系統(tǒng)上網(wǎng)慢怎么辦？win10系統(tǒng)上網(wǎng)慢解決方法分享
Win10系統(tǒng)如何關(guān)閉搜狗今日新詞？
Win8系統(tǒng)Apple Computer是什么？Apple Computer文件夾可以刪除嗎？
Win10如何添加信用文件？Win10添加信用文件的方法
win10系統(tǒng)始終以管理員身份運(yùn)行如何設(shè)置
ThinkPad X13如何用U盤重裝系統(tǒng)?ThinkPad X13使用U盤重裝系統(tǒng)方法
在win10中打開掃雷游戲的教程
OS X 10怎么升級(jí)？升級(jí)OS X 10方法
rthdcpl.exe是什么進(jìn)程？rthdcpl.exe進(jìn)程怎么關(guān)閉？
				

熱門標(biāo)簽

亚洲精品久久久中文字幕-亚洲精品久久片久久-亚洲精品久久青草-亚洲精品久久婷婷爱久久婷婷-亚洲精品久久午夜香蕉

對(duì)話 UNIX，第 9 部分: 正則表達(dá)式