Linux 三剑客:awk 入门教程

苦逼的码农

共 3326字,需浏览 7分钟

 ·

2021-04-19 15:26

大家好,我是帅地。

之前在 Linux 服务器上处理一些文件的时候,需要用到 awk,所以就顺便把 awk 学了,也就有了这个入门教程。

grep 大家应该很熟悉,不过单单掌握 grep 可能不够用,如果学会 awk 等于你在 Linux 命令行里,又多了一种处理文本的选择。

awk 与 sed 和 grep,俗称 Linux 下的三剑客,如果你把这三剑客都给收了,那就稳妥了。

这篇文章重点教你如何使用,看完这篇文章,就大致知道如何使用了,力求简单使用,不做深入的探讨。

术语铺垫

在 awk 的文本处理规则里,awk 将文本文件视为由字段和记录组成的文本数据库。默认情况下,awk 将每一行视为一个记录,也就是说记录的分隔符是 \n,记录的分隔符可以通过内置变量 RS 更改。

在每一个记录中,又把记录分为若干个字段,即记录由字段组成,而字段的默认分隔符为空格或制表符。

一、基础用法

和我们平常使用的 Linux 命令一样, awk 也是遵循着某种格式来使用,格式如下:

# 使用格式
awk 执行的事件 文件

#
 例如:
[root@iamshuaidi ~]# awk '{print $0}' test.txt
my first language:Java
second languange:python
third language:C

注:可以左右拉动,苹果系统则不可以,苹果直接换行了,由于时间关系,没来得及解决,这里说声抱歉。

其中,print 表示打印, $0 表示一整个记录,test.txt 表示一个文件,输出的三种是 test.txt 里面的内容。所以

awk '{print $0}' test.txt

表示把 test.txt 文件里面的每行记录都打印出来。

刚才我们说,记录是由字段组成的,且字段的默认分隔符是空格或者制表符。下面我们打印每一个记录的第一个字段,如下:

# 打印每一行的第一个字段
[root@iamshuaidi # awk '{print $1}' test.txt
my
second
third

$0 表示整个记录,不过 $1, $2, $3 …..则表示整个记录中的第一个字段,第二个字段……。

注:awk 将每一行视为一个记录,程序在执行的时候,会遍历所有记录,然后打印出所有的字段

刚才我们说字段的默认分隔符是空格或者制表符这些,默认意味着我们可以自己显式着指定分隔符。下面我们用“:”来作为我们的分隔符吧。

# 打印第二个字段
[root@iamshuaidi ~]# awk -F ':' '{print $2}' test.txt
Java
python
C

上面我们用参数 -F 指定了我们的分隔符,即如果想要指定字段的分隔符,可以用参数 -F 指定分隔符。

二、条件限制

在打印文本的时候,我们可以指定一些条件。格式如下:

awk 参数 条件 要执行的动作 文件

例如我们指定分隔符为“:”,条件为第二个字段为"Java"的记录。

# 打印第二个字段为"Java"的文本
[root@iamshuaidi ~]# awk -F ':''$2 == "Java" {print $2}' test.txt
Java

打印奇数行的的第二个字段:

# 打印奇数行的记录
[root@iamshuaidi ~]# awk -F ':' 'NR % 2 == 1 {print $2}' test.txt
Java
C

其中,NR 是一个内置的变量,表示当前正在处理的记录,即当前的记录是第几个记录。

三、条件语句

和我们平常的编程一样,awk 也提供了 if, else, while 等这些条件语句。

例如,打印第二个及其之后的记录:

root@iamshuaidi ~]# awk '{if(NR > 1) print $2}' test.txt
languange:python
language:C

注意,上面的字段分隔符是空格了,并且 if 语句是在“{}” 里指定的。

再看一个例子:

# 如果第一个字段大于“s",则打印第一个字段,否则打印第二个字段
[root@iamshuaidi ~]# awk '{if($1 < "s") print $1; else print $2}' test.txt
my
languange:python
language:C

上面打印的是:如果第一个字段大于“s",则打印第一个字段,否则打印第二个字段。

四、函数

awk 提供了一些内置函数来供我们使用,一下常用的函数如下:

tolower():字符转为小写。
toupper():字符转为大写
length():返回字符串长度。
substr():返回子字符串。
sqrt():平方根。
rand():随机数。

例如,我们要把打印的字段转化为大小

# 第一个字段转化为大写输出
[root@iamshuaidi ~]# awk '{print toupper($1)}' test.txt
MY
SECOND
THIRD

五、变量

刚才我们说 NR 是一个表示当前正在处理的记录是第几个记录的内置变量,常用的内置变量如下:

NR:表示当前处理的是第几行
NF:表示当前行有多少个字段
FILENAME:当前文件名
FS:字段分隔符,默认是空格和制表符。
RS:行分隔符,用于分割每一行,默认是换行符。
OFS:输出字段的分隔符,用于打印时分隔字段,默认为空格。
ORS:输出记录的分隔符,用于打印时分隔记录,默认为换行符。

例如我们要打印每一个记录的最后一个字段,就可以使用变量 NF 了。

[root@iamshuaidi ~]# awk '{print $NF}' test.txt
language:Java
languange:python
language:C

对了,刚才那个 NR 的变量也是挺好用的,例如:

# 标记当前是第几行,这样看起来好像比较舒服?
[root@iamshuaidi ~]# awk '{print NR ". "  $0}' test.txt
1. my first language:Java
2. second languange:python
3. third language:C

讲到这里就大致结束了,这篇文章算是入门文章,屏蔽了很多细节,大致介绍一下怎么使用,更多具体用法,可以根据自己想要实现的功能去查找相关函数哦。

后续会更新两外两个剑客,到时候这些都会汇总到帅地的个人网站上。

下破站地址:https://www.iamshuaidi.com

点击阅读原文可直达,建议PC打开,手机阅读体验不好,欢迎你们来玩耍呀。

浏览 29
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报