uniq コマンド2015/09/25

連続して重複した行を1つにまとめるコマンド。

foo.txt が以下の内容の場合、

$ cat foo.txt3333444411111111333333334444

uniq を使うと以下のようになる。

$ cat foo.txt | uniq33334444111133334444

連続していない離れた重複行も削除したければ、sortコマンドコマンドで予めソートする必要がある。その代わり順番は保存されない。

$ cat foo.txt | sort | uniq111133334444

インストール2016/03/17

Coreutilsというパッケージに入っているので、CentOSにもUbuntuにも始めから入っている。

-- というパラメータを渡すとそれ以降のパラメータをオプションではなくファイル名とみなしてくれるので、- で始まるファイル名を扱いたい場合に使うとよい。

-c オプションは行数を各行の先頭に付けてくれる。自分の環境では各行がインデントされているがなぜだろう？

$ cat foo.txt3333444411111111333333334444$ cat foo.txt | uniq -c      1 3333      1 4444      2 1111      2 3333      1 4444

-d オプションは重複していた行のみを出力する。-c オプションで2以上になる行のみだ。重複行は1行にまとめられる。

-D オプションは重複していた行を、重複したまま出力する。

$ cat foo.txt3333444411111111333333334444$ cat foo.txt | uniq -d11113333$ cat foo.txt | uniq -D1111111133333333

-u オプションは-d オプションとは逆に重複していない行のみを出力する。-c オプションで1になる行のみだ。

$ cat foo.txt3333444411111111333333334444$ cat foo.txt | uniq -u333344444444

漢字やひらがな/カタカナなどが含まれる日本語テキストは、うまくユニーク判定できない場合があるみたいで、その場合は環境変数LC_ALL=C またはLANG=ja_JP.UTF-8 を設定するとよいみたい。

例

cat foo.txt | LC_ALL=C uniq

これはsortコマンドでも事情が同じ。

foo.txt というファイルが以下の内容だったとして、

aaabbbaaacccaaabbbaaa

次のコマンドを実行すると

cat foo.txt | sort | uniq -c | sort -k1 -n -r

次のような結果が表示される。

4 aaa2 bbb1 ccc

sortコマンドを2回使っている。

foo.txt に日本語が含まれている場合は、以下のようにLC_ALL=C という環境変数を設定したほうがよい。

cat foo.txt | LC_ALL=C sort | LC_ALL=C uniq -c | sort -k1 -n -r