如何使用AWK语言在Linux中操作文本

介绍

Linux 实用程序通常遵循 Unix 的设计理念。鼓励工具体积小，使用纯文本文件进行输入和输出，并以模块化方式运行。由于这一传统，我们使用 sed 和 awk 等工具拥有出色的文本处理功能。

awk 是一种编程语言和文本处理器，您可以使用它以非常有用的方式操作文本数据。在本指南中，您将探索如何使用 awk 命令行工具以及如何使用它来处理文本。

启动交互式终端！

基本语法

awk 命令默认包含在所有现代 Linux 系统中，因此您无需安装即可开始使用它。

awk 在处理以可预测方式格式化的文本文件时最有用。例如，它在解析和处理表格数据方面表现出色。它逐行运行并遍历整个文件。

默认情况下，它使用空格（空格、制表符等）来分隔字段。幸运的是，Linux 系统上的许多配置文件都使用这种格式。

awk 命令的基本格式是：

awk '/search_pattern/ { action_to_take_on_matches; another_action; }' file_to_parse

您可以从任何 awk 命令中省略搜索部分或操作部分。默认情况下，如果未给出“action”部分，则执行的操作是“print”。这只是打印所有匹配的行。

如果没有给出搜索部分，awk 将执行每行列出的操作。

如果两者都给出，awk 使用搜索部分来确定当前行是否反映了模式，然后对匹配项执行操作。

在最简单的形式中，您可以使用 awk 像 cat 将文本文件的所有行打印到屏幕上。

创建一个 favorite_food.txt 文件，其中列出了一群朋友最喜欢的食物：

echo "carrot sandy
wasabi luke
sandwich brian
salad ryan
spaghetti jessica" > favorite_food.txt

现在使用 awk 命令将文件打印到屏幕上：

awk '{print}' favorite_food.txt

您将看到文件打印到屏幕上：

Outputcarrot sandy
wasabi luke
sandwich brian
salad ryan
spaghetti jessica

这不是很有用。让我们通过在文件中搜索文本“sand”来试用 awk 的搜索过滤功能：

awk '/sand/' favorite_food.txt

Outputcarrot sandy
sandwich brian

如您所见，awk 现在只打印包含字符“sand”的行。

使用正则表达式，您可以定位文本的特定部分。要仅显示以字母“sand”开头的行，请使用正则表达式 ^sand：

awk '/^sand/' favorite_food.txt

这次只显示一行：

Outputsandwich brian

同样，您可以使用操作部分来指定要打印的信息。例如，要仅打印第一列，请使用以下命令：

awk '/^sand/ {print $1;}' favorite_food.txt

Outputsandwich

您可以通过与其列号关联的变量引用每一列（由空格分隔）。例如，第一列是$1，第二列是$2，可以用$0引用整行。

内部变量和扩展格式

awk 命令在处理文件时使用一些内部变量来分配某些信息。

awk 使用的内部变量是：

FILENAME：引用当前输入文件。
FNR：引用当前记录相对于当前输入文件的编号。例如，如果您有两个输入文件，这将告诉您每个文件的记录号，而不是总数。
FS：当前字段分隔符，用于表示记录中的每个字段。默认情况下，这设置为空白。
NF：当前记录的字段数。
NR：当前记录的编号。
OFS：输出数据的字段分隔符。默认情况下，这设置为空白。
ORS：输出数据的记录分隔符。默认情况下，这是一个换行符。
RS：记录分隔符，用于区分输入文件中的单独记录。默认情况下，这是一个换行符。

您可以随意更改这些变量的值以匹配文件的需要。通常您在处理的初始化阶段执行此操作。

这给我们带来了另一个重要的概念。 awk 语法比您目前使用的稍微复杂一些还有可选的 BEGIN 和 END 块可以包含在文件处理之前和之后执行的命令，分别。

这使得我们的扩展语法看起来像这样：

awk 'BEGIN { action; }
/search/ { action; }
END { action; }' input_file

BEGIN 和 END 关键字是特定的条件集，就像搜索参数一样。它们在文档处理之前和之后匹配。

这意味着您可以更改 BEGIN 部分中的一些内部变量。例如，/etc/passwd 文件用冒号 (:) 而非空格分隔。

要打印出此文件的第一列，请执行以下命令：

awk 'BEGIN { FS=":"; }
{ print $1; }' /etc/passwd

Outputroot
daemon
bin
sys
sync
games
man
. . .

您可以使用 BEGIN 和 END 块来打印有关正在打印的字段的信息。使用以下命令将文件中的数据转换为表格，使用 \t 与制表符很好地隔开：

awk 'BEGIN { FS=":"; print "User\t\tUID\t\tGID\t\tHome\t\tShell\n--------------"; }
{print $1,"\t\t",$3,"\t\t",$4,"\t\t",$6,"\t\t",$7;}
END { print "---------\nFile Complete" }' /etc/passwd

你会看到这个输出：

OutputUser        UID     GID     Home        Shell
--------------
root         0       0       /root       /bin/bash
daemon       1       1       /usr/sbin       /bin/sh
bin          2       2       /bin        /bin/sh
sys          3       3       /dev        /bin/sh
sync         4       65534       /bin        /bin/sync
. . .
---------
File Complete

如您所见，您可以利用 awk 的一些特性很好地格式化内容。

每个扩展部分都是可选的。事实上，如果定义了另一个部分，则主要操作部分本身是可选的。例如，您可以执行以下操作：

awk 'BEGIN { print "We can use awk like the echo command"; }'

你会看到这个输出：

OutputWe can use awk like the echo command

现在让我们看看如何在输出的字段中查找文本。

字段搜索和复合表达式

在前面的一个示例中，您打印了 favorite_food.txt 文件中以“sand”开头的行。这很容易，因为您正在寻找整行的开头。

如果您想查明搜索模式是否在字段的开头匹配，该怎么办？

创建一个新版本的 favorite_food.txt 文件，在每个人的食物前添加一个项目编号：

echo "1 carrot sandy
2 wasabi luke
3 sandwich brian
4 salad ryan
5 spaghetti jessica" > favorite_food.txt

如果你想从这个文件中找到所有以“sa”开头的食物，你可以先尝试这样的事情：

awk '/sa/' favorite_food.txt

这显示了所有包含“sa”的行：

Output1 carrot sandy
2 wasabi luke
3 sandwich brian
4 salad ryan

在这里，您匹配单词中的任何“sa”实例。这最终包括诸如中间有图案的“芥末”或不在您想要的列中的“桑迪”之类的东西。在这种情况下，您只对 second 列中带有“sa”的单词 beginning 感兴趣。

您可以使用以下命令告诉 awk 仅匹配第二列的开头：

awk '$2 ~ /^sa/' favorite_food.txt

如您所见，这允许我们仅在第二列的开头搜索匹配项。

field_num ~ 部分指定 awk 应该只关注第二列。

Output3 sandwich brian
4 salad ryan

您可以通过包含“！”轻松搜索不匹配的内容。波浪号 (~) 之前的字符。此命令将返回所有 not 有以“sa”开头的食物的行：

awk '$2 !~ /^sa/' favorite_food.txt

Output1 carrot sandy
2 wasabi luke
5 spaghetti jessica

如果您稍后决定只对不以“sa”开头且项目编号小于 5 的行感兴趣，则可以使用如下复合表达式：

awk '$2 !~ /^sa/ && $1 < 5' favorite_food.txt

这引入了一些新概念。第一个是使用 && 运算符为要匹配的行添加附加要求的能力。使用它，您可以组合任意数量的条件来匹配行。在本例中，您使用此运算符添加检查第一列的值是否小于 5。

你会看到这个输出：

Output1 carrot sandy
2 wasabi luke

您可以使用 awk 处理文件，但也可以处理其他程序的输出。

处理其他程序的输出

您可以使用 awk 命令解析其他程序的输出，而不是指定文件名。例如，您可以使用 awk 从 ip 命令中解析出 IPv4 地址。

ip a 命令显示您机器上所有网络接口的 IP 地址、广播地址和其他信息。要显示名为 eth0 的接口的信息，请使用以下命令：

ip a s eth0

您将看到以下结果：

Output2571: eth0@if2572: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default
    link/ether 02:42:ac:11:00:0b brd ff:ff:ff:ff:ff:ff link-netnsid 0
    inet 172.17.0.11/16 brd 172.17.255.255 scope global eth0
       valid_lft forever preferred_lft forever

您可以使用 awk 定位 inet 行，然后只打印出 IP 地址：

ip a s eth0 | awk -F '[\/ ]+' '/inet / {print $3}'

-F 标志告诉 awk 使用正则表达式 [\/ ]+ 用正斜杠或空格分隔。这会将 inet 172.17.0.11/16 行拆分为单独的字段。 IP 地址位于第三个字段中，因为行首的空格也算作一个字段，因为您用空格和斜杠分隔。请注意，在这种情况下，awk 将连续空格视为单个空格。

输出显示 IP 地址：

Output172.17.0.11

您会发现很多地方可以使用 awk 来搜索或解析其他命令的输出。

结论

到目前为止，您应该对如何使用 awk 命令来操作、格式化和有选择地打印文本文件和文本流有了基本的了解。不过，Awk 是一个更大的话题，实际上是一门完整的编程语言，包括变量赋值、控制结构、内置函数等等。您可以在自己的脚本中使用它以可靠的方式格式化文本。

要了解有关 awk 的更多信息，您可以阅读其创建者编写的免费公共领域书籍，其中更详细。