数据处理天下无敌

Thursday, March 12, 2020

grep

grep xx filename
grep "ur sb" 2.txt

grep [-cinvrABC] 'word' filename

  • -c 行数
  • -i 不区分大小写
  • -n 显示行号
  • -v 取反
  • -r 遍历所有子目录
  • -A 后面跟数字,过滤出符合要求的行以及下面n行
  • -B 同上,过滤出符合要求的行以及上面n行
  • -C 同上,同时过滤出符合要求的行以及上下各n行

sort

sort 1.txt //将1.txt文件中的行按首字母顺序排序,不区分大小写
sort -o 1.txt 2.txt //将排序后的内容重新写入新文件
sort -r 1.txt //倒序排列
sort -R 1.txt //随机排序,每次都不一样
sort -n 3.txt //对3.txt中的数字按照1-9的顺序排序。不加-n,会把数字当成字符串。

wc

统计行数,字符数,字节数,单词数。

# wc 1.txt
9 9 50 1.txt 

9 9 50 分别表示:

  • 行数:newline counts,就是统计换行符的数目。
  • 单词数
  • 字节数:byte counts

字符和字节的联系与区别:

  • 字节(Byte或Octet)是计量单位,表示数据量多少,是计算机存储容量的单位。
  • 字符(character)计算机使用的文字和符号。 字符在不同的编码中所占的字节数是不一样的。

wc -l 1.txt //只统计行数
wc -w 1.txt //统计单词数
wc -c 1.txt //统计字节数
wc -m 1.txt //统计字符数

file 1.txt //确定1.txt的文件类型

uniq

删除文件中的重复内容

uniq 1.txt 2.txt //把处理后的内容存储到一个新文件中。
uniq -c 1.txt //统计重复的行数
uniq -d 2.txt //只显示重复行的内容

cut

cut -c 2-4 1.txt //让1.txt的每一行只保留第2到第4个字符。
cut -d , -f 1,3 notes.csv //指定分隔符,剪切下用分隔符分隔的第一块和第三块区域
cut -d , -f 2- notes,csv //第二块到最后

LinuxShell

流和输出重定向

find文件无所遁形

comments powered by Disqus