Linux 三剑客是(grep,sed,awk)三者的简称,这三个命令可以和正则表达式结合在一起,功能十分强大!熟练使用这三个工具可以大大提升效率。
- grep 擅长查找
- sed 擅长进行取行和替换操作
- awk 擅长进行取列操作
grep 命令
grep 命令是文本搜索命令,它可以正则表达式搜索文本,也可从一个文件中的内容作为搜索关键字。
grep 的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到标准输出,不影响原文件内容。
grep 命令常用参数
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN]... [-f FILE]... [FILE...]
OPTIONS:
-e #使用正则搜索
-i #不区分大小写
-v #查找不包含指定内容的行
-w #按单词搜索
-c #统计匹配到的次数
-n #显示行号
-r #逐层遍历目录查找
-A #显示匹配行及前面多少行, 如:-A3, 则表示显示匹配行及前3行
-B #显示匹配行及后面多少行, 如:-B3, 则表示显示匹配行及后3行
-C #显示匹配行前后多少行, 如:-C3, 则表示显示批量行前后3行
--color #匹配到的内容高亮显示
--include #指定匹配的文件类型
--exclude #过滤不需要匹配的文件类型
grep 正则表达式元字符
\ #反义字符:如"\"\""表示匹配""
[ - ] #匹配一个范围,[0-9a-zA-Z]匹配所有数字和字母
* #所有字符,长度可为0
+ #前面的字符出现了一次或者多次
^ #匹配行的开始 如:'^grep'匹配所有以grep开头的行。
$ #匹配行的结束 如:'grep$'匹配所有以grep结尾的行。
. #匹配一个非换行符的字符 如:'gr.p'匹配gr后接一个任意字符,然后是p。
* #匹配零个或多个先前字符 如:'*grep'匹配所有一个或多个空格后紧跟grep的行。
.* #一起用代表任意字符。
[] #匹配一个指定范围内的字符,如'[Gg]rep'匹配Grep和grep。
[^] #匹配一个不在指定范围内的字符,如:'[^A-FH-Z]rep'匹配不包含A-R和T-Z的一个字母开头,紧跟rep的行。
\(..\) #标记匹配字符,如'\(love\)',love被标记为1。
\< #到匹配正则表达式的行开始,如:'\<grep'匹配包含以grep开头的单词的行。
\> #到匹配正则表达式的行结束,如'grep\>'匹配包含以grep结尾的单词的行。
x\{m\} #重复字符x,m次,如:'0\{5\}'匹配包含5个o的行。
x\{m,\} #重复字符x,至少m次,如:'o\{5,\}'匹配至少有5个o的行。
x\{m,n\} #重复字符x,至少m次,不多于n次,如:'o\{5,10\}'匹配5--10个o的行。
\w #匹配文字和数字字符,也就是[A-Za-z0-9],如:'G\w*p'匹配以G后跟零个或多个文字或数字字符,然后是p。
\W #\w的反置形式,匹配一个或多个非单词字符,如点号句号等。
\b #单词锁定符,如: '\bgrep\b'只匹配grep。
grep 单引号和双引号
- 单引号:
- 所见即所得:即将单引号中内容原样输出,也就是单引号
''是全引用。
- 双引号:
- 解析式输出:如果双引号的内容中有命令、变量等,会先把变量、命令解析成结果,再将结果输出。双引号
""是部分引用。
- 不加引号:
- 不会将含有空格的字符串视为一个整体输出, 如果内容中有命令、变量等,会先把变量、命令解析出结果,然后在输出最终内容来,如果字符串中带有空格等特殊字符,则不能完整的输出,需要改加双引号,一般连续的字符串,数字,路径等可以用。
使用规则:常量用单引号''括起,而含有变量则用双引号""括起。单双可同时出现,单括住双。
grep 命令操作示例
# 匹配指定字符
# 在 test.txt 文本文件中查找匹配 sgtfz 的行
grep sgtfz test.txt
# 匹配 sgtfz 或 xy 的行,注意引号内不能有空格!
grep 'sgtfz\|xy' test.txt
# 或者
grep -E "sgtfz|xy" test.txt
# 或者
grep -E 'sgtfz|xy' test.txt
# 或者 awk 命令也可以
awk '/sgtfz|xy/'
# 匹配以 sgtfz 开头的行
grep ^sgtfz test.txt
# 在 ls 命令输出文本中查找匹配 sgtfz 的行
ls -lh | grep sgtfz
# 排除指定字符
# 在 test.txt 文本文件中查找不包含 sgtfz 的行
grep -v sgtfz test.txt
sed 命令
sed 是一种在线编辑器,它是文本处理中非常好使的工具,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用 sed 命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有改变,除非你使用重定向存储输出。Sed 主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等。
sed 命令语法
sed [options] 'command' file(s)
sed [options] -f scriptfile file(s)
sed 命令语法说明
[options] #选项
-e #直接在命令行模式上进行sed动作编辑,此为默认选项
-f #将sed的动作写在一个文件内,用–f filename 执行filename内的sed动作
-i #直接修改文件内容
-n #只打印模式匹配的行
-r #支持扩展表达式
-h或--help #显示帮助
-V或--version #显示版本信息
command #指令
file(s) #指定待处理的文本文件列表。
sed 常用编辑指令
a\ #在当前行下面插入文本
i\ #在当前行上面插入文本
c\ #把选定的行改为新的文本
d #删除,删除选择的行
D #删除模板块的第一行
s #替换指定字符
h #拷贝模板块的内容到内存中的缓冲区
H #追加模板块的内容到内存中的缓冲区
g #获得内存缓冲区的内容,并替代当前模板块中的文本
G #获得内存缓冲区的内容,并追加到当前模板块文本的后面
l #列表不能打印字符的清单
n #读取下一个输入行,用下一个命令处理新的行而不是用第一个命令
N #追加下一个输入行到模板块后面并在二者间嵌入一个新行,改变当前行号码
p #打印模板块的行。 P(大写) 打印模板块的第一行
q #退出Sed
b #lable 分支到脚本中带有标记的地方,如果分支不存在则分支到脚本的末尾
r #file 从file中读行
t #label if分支,从最后一行开始,条件一旦满足或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾
T #label 错误分支,从最后一行开始,一旦发生错误或者T,t命令,将导致分支到带有标号的命令处,或者到脚本的末尾
w #file 写并追加模板块到file末尾
W #file 写并追加模板块的第一行到file末尾
! #表示后面的命令对所有没有被选定的行发生作用
= #打印当前行号
# #把注释扩展到下一个换行符以前
sed 替换标记指令
g #表示将匹配到的内容进行全局替换
\1 #表示前面第一个左括号所表示的内容 ,\2表示前面第二个左括号中表示的内容,依次类推
& #表示前面匹配到的内容
sed 正则表达式元字符
^ #匹配行开始,如:/^sed/匹配所有以sed开头的行
$ #匹配行结束,如:/sed$/匹配所有以sed结尾的行
. #匹配一个非换行符的任意字符,如:/s.d/匹配s后接一个任意字符,最后是d
* #匹配0个或多个字符,如:/*sed/匹配所有模板是一个或多个空格后紧跟sed的行
[] #匹配一个指定范围内的字符,如/[ss]ed/匹配sed和Sed
[^] #匹配一个不在指定范围内的字符,如:/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头,紧跟ed的行
\(..\) #匹配子串,保存匹配的字符,如s/\(love\)able/\1rs,loveable被替换成lovers
& #保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**
\< #匹配单词的开始,如:/\
\> #匹配单词的结束,如/love\>/匹配包含以love结尾的单词的行
x\{m\} #重复字符x,m次,如:/0\{5\}/匹配包含5个0的行
x\{m,\} #重复字符x,至少m次,如:/0\{5,\}/匹配至少有5个0的行
x\{m,n\} #重复字符x,至少m次,不多于n次,如:/0\{5,10\}/匹配5~10个0的行
sed 命令操作示例
定界符
# 以上命令中字符 / 在 sed 中作为定界符使用,也可以使用任意的定界符
sed 's:test:TEXT:g'
sed 's|test|TEXT|g'
# 定界符出现在样式内部时,需要进行转义
sed 's/\/bin/\/usr\/local\/bin/g'
组合多个表达式
sed '表达式' | sed '表达式'
# 等价于:
sed '表达式; 表达式'
s 指令 – 替换操作
# 替换文本中的字符串
sed 's/book/books/' file
# -n 选项和 p 命令一起使用表示只打印那些发生替换的行
sed -n 's/test/TEST/p' file
# 直接编辑文件选项 -i ,会匹配 file 文件中每一行的第一个 book 替换为 books
sed -i 's/book/books/g' file
g 指令 – 全面替换标记
# 使用后缀 /g 标记会替换每一行中的所有匹配
sed 's/book/books/g' file
# 当需要从第 N 处匹配开始替换时,可以使用 /Ng
echo sksksksksksk | sed 's/sk/SK/2g'
skSKSKSKSKSK
echo sksksksksksk | sed 's/sk/SK/3g'
skskSKSKSKSK
echo sksksksksksk | sed 's/sk/SK/4g'
skskskSKSKSK
d 指令 – 删除操作
# 删除空白行
sed '/^$/d' file
# 删除文件的第2行
sed '2d' file
# 删除文件的第2行到末尾所有行
sed '2,$d' file
# 删除文件最后一行
sed '$d' file
# 删除文件中所有开头是test的行
sed '/^test/'d file
& 指令 – 已匹配字符串标记
# 正则表达式 \w\+ 匹配每一个单词,使用 [&] 替换它,& 对应于之前所匹配到的单词
echo this is a test line | sed 's/\w\+/[&]/g'
[this] [is] [a] [test] [line]
# 所有以 192.168.0.1 开头的行都会被替换成它自已加 localhost
sed 's/^192.168.0.1/&localhost/' file 192.168.0.1localhost
\1 指令 – 子串匹配标记
# 匹配给定样式的其中一部分
echo this is digit 7 in a number | sed 's/digit \([0-9]\)/\1/'
this is 7 in a number
# 命令中 digit 7,被替换成了 7。样式匹配到的子串是 7,\(..\) 用于匹配子串,对于匹配到的第一个子串就标记为 \1,依此类推匹配到的第二个结果就是 \2,例如
echo aaa BBB | sed 's/\([a-z]\+\) \([A-Z]\+\)/\2 \1/'
BBB aaa
# love 被标记为 1,所有loveable会被替换成 lovers,并打印出来
sed -n 's/\(love\)able/\1rs/p' file
, 指令 – 选定的行范围
# 所有在模板 test 和 check 所确定的范围内的行都被打印
sed -n '/test/,/check/p' file
# 打印从第 5 行开始到第一个包含以 test 开始的行之间的所有行
sed -n '5,/^test/p' file
# 对于模板 test 和 west 之间的行,每行的末尾用字符串 aaa bbb 替换
sed '/test/,/west/s/$/aaa bbb/' file
e 指令 – 多点编辑
# -e选项允许在同一行里执行多条命令
sed -e '1,5d' -e 's/test/check/' file
# 上面 sed 表达式的第一条命令删除 1 至 5 行,第二条命令用 check 替换 test 。命令的执行顺序对结果有影响。如果两个命令都是替换命令,那么第一个替换命令将影响第二个替换命令的结果。
# 和 -e 等价的命令是 --expression
sed --expression='s/test/check/' --expression='/love/d' file
r 指令 – 从文件读入
# file 里的内容被读进来,显示在与 test 匹配的行后面,如果匹配多行,则 file 的内容将显示在所有匹配行的下面
sed '/test/r file' filename
w 指令 – 写入文件
# 在 example 中所有包含 test 的行都被写入file里
sed -n '/test/w file' example
a\ 指令 – 在行下追加
将 this is a test line 追加到 以 test 开头的行后面
sed '/^test/a\this is a test line' file
# 在 test.conf 文件第 2 行之后插入 this is a test line
sed -i '2a\this is a test line' test.conf
i\ 指令 – 在行上追加
# 将 this is a test line 追加到以test开头的行前面
sed '/^test/i\this is a test line' file
# 在 test.conf 文件第 5 行之前插入 this is a test line
sed -i '5i\this is a test line' test.conf
n 指令 – 下一个
# 如果 test 被匹配,则移动到匹配行的下一行,替换这一行的 aa,变为 bb,并打印该行,然后继续
sed '/test/{ n; s/aa/bb/; }' file
y 指令 – 变形
把 1~10 行内所有 abcde 转变为大写,注意,正则表达式元字符不能使用这个命令
sed '1,10y/abcde/ABCDE/' file
q 指令 – 退出
# 打印完第10行后,退出 sed sed '10q' file 保持和获取:h 命令和 G 命令 在 sed 处理文件的时候,每一行都被保存在一个叫模式空间的临时缓冲区中,除非行被删除或者输出被取消,否则所有被处理的行都将打印在屏幕上。接着模式空间被清空,并存入新的一行等待处理。
sed -e '/test/h' -e '$G' file
# 在这个例子里,匹配 test 的行被找到后,将存入模式空间,h 命令将其复制并存入一个称为保持缓存区的特殊缓冲区内。第二条语句的意思是,当到达最后一行后,G 命令取出保持缓冲区的行,然后把它放回模式空间中,且追加到现在已经存在于模式空间中的行的末尾。在这个例子中就是追加到最后一行。简单来说,任何包含 test 的行都被复制并追加到该文件的末尾。
h 和 x 指令 – 保持和互换
# 互换模式空间和保持缓冲区的内容。也就是把包含test与check的行互换
sed -e '/test/h' -e '/check/x' file
scriptfile 脚本指令
# sed 脚本是一个 sed 的命令清单,启动 Sed 时以 -f 选项引导脚本文件名。Sed 对于脚本中输入的命令非常挑剔,在命令的末尾不能有任何空白或文本,如果在一行中有多个命令,要用分号分隔。以 # 开头的行为注释行,且不能跨行。
sed [options] -f scriptfile file(s)
打印奇数行或偶数行
#奇数行
sed -n 'p;n' test.txt
# 偶数行
sed -n 'n;p' test.txt
#奇数行
sed -n '1~2p' test.txt
# 偶数行
sed -n '2~2p' test.txt
打印匹配字符串的下一行
grep -A 1 SCC URFILE
sed -n '/SCC/{n;p}' URFILE
awk '/SCC/{getline; print}' URFILE
awk 命令
awk 是一个强大的文本分析工具,相对于 grep 的查找,sed 的编辑,awk 在其对数据分析并生成报告时,显得尤为强大。简单来说 awk 就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。
awk 有 3 个不同版本: awk、nawk 和 gawk,未作特别说明,一般指 gawk,gawk 是 AWK 的 GNU 版本。
awk 其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。
参考资料来源 https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html
awk 是一种编程语言,用于在 linux/unix 下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是 linux/unix 下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。 awk 有很多内建的功能,比如数组、函数等,这是它和 C 语言的相同之处,灵活性是 awk 最大的优势。
awk 命令语法
尽管操作可能会很复杂,但语法总是这样,其中 pattern 表示 AWK 在数据中查找的内容,而 action 是在找到匹配内容时所执行的一系列命令。花括号({})不需要在程序中始终出现,但它们用于根据特定的模式对一系列指令进行分组。 pattern 就是要表示的正则表达式,用斜杠括起来。
awk 语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk 抽取信息后,才能进行其他文本操作。完整的 awk 脚本通常用来格式化文本文件中的信息。
通常,awk 是以文件的一行为处理单位的。awk 每接收文件的一行,然后执行相应的命令,来处理文本。
# awk 语法
awk '{pattern + action}' {filenames}
# 有三种方式调用awk
# 1.命令行方式
awk [-F field-separator] 'commands' input-file(s)
# 其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。
# 在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。
# 2.shell脚本方式
# 将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。
# 相当于shell脚本首行的:#!/bin/sh
# 可以换成:#!/bin/awk
# 3.将所有的awk命令插入一个单独文件,然后调用:
awk -f awk-script-file input-file(s)
# 其中,-f选项加载awk-script-file中的awk脚本,input-file(s)跟上面的是一样的。
awk 命令操作示例
awk 命令太复杂,这里仅列出一些常用的操作示例吧。
# 截取列元素
# 获取当前目录列表每行的第1、2、3列元素,并以空格隔开
ls -l | awk '{print $1 ,$2 ,$3 }'
# 以空字符 '' 隔开
ls -l | awk '{print $1 $2 $3 }'
# 以特定字符+++++、******隔开
ls -l | awk '{print $1"+++++"$2"*****"$3 }'
# 获取最后一列或倒数第几列
# 获取最后一列
awk '{ print $NF }'
# 获取倒数第二列
awk '{ print $(NF-1) }'