連続して重複した行を1つにまとめるコマンド。
foo.txt
が以下の内容の場合、
$ cat foo.txt3333444411111111333333334444
uniq
を使うと以下のようになる。
$ cat foo.txt | uniq33334444111133334444
連続していない離れた重複行も削除したければ、sort
コマンドコマンドで予めソートする必要がある。その代わり順番は保存されない。
$ cat foo.txt | sort | uniq111133334444
Coreutilsというパッケージに入っているので、CentOSにもUbuntuにも始めから入っている。
-c
-d
-D
-u
--help
--version
--
というパラメータを渡すとそれ以降のパラメータをオプションではなくファイル名とみなしてくれるので、-
で始まるファイル名を扱いたい場合に使うとよい。
-c
オプションの例2015/09/25-c
オプションは行数を各行の先頭に付けてくれる。自分の環境では各行がインデントされているがなぜだろう?
$ cat foo.txt3333444411111111333333334444$ cat foo.txt | uniq -c 1 3333 1 4444 2 1111 2 3333 1 4444
-d
,-D
オプションの例2015/09/25-d
オプションは重複していた行のみを出力する。-c
オプションで2以上になる行のみだ。重複行は1行にまとめられる。
-D
オプションは重複していた行を、重複したまま出力する。
$ cat foo.txt3333444411111111333333334444$ cat foo.txt | uniq -d11113333$ cat foo.txt | uniq -D1111111133333333
-u
オプションの例2015/09/25-u
オプションは-d
オプションとは逆に重複していない行のみを出力する。-c
オプションで1になる行のみだ。
$ cat foo.txt3333444411111111333333334444$ cat foo.txt | uniq -u333344444444
漢字やひらがな/カタカナなどが含まれる日本語テキストは、うまくユニーク判定できない場合があるみたいで、その場合は環境変数LC_ALL=C
またはLANG=ja_JP.UTF-8
を設定するとよいみたい。
例
cat foo.txt | LC_ALL=C uniq
これはsort
コマンドでも事情が同じ。
foo.txt
というファイルが以下の内容だったとして、
aaabbbaaacccaaabbbaaa
次のコマンドを実行すると
cat foo.txt | sort | uniq -c | sort -k1 -n -r
次のような結果が表示される。
4 aaa2 bbb1 ccc
sort
コマンドを2回使っている。
foo.txt
に日本語が含まれている場合は、以下のようにLC_ALL=C
という環境変数を設定したほうがよい。
cat foo.txt | LC_ALL=C sort | LC_ALL=C uniq -c | sort -k1 -n -r