スポンサーリンク

このドキュメントの内容は、以下の通りです。

ログファイルなどのを分析しているときに、差分を調査したいことがあります。そういったときに Unixコマンドで2つのファイルの共通部分を抽出する方法について紹介します。

2つのファイルの共通部分を抽出する


やり方
  • 2つのファイルをソートする(結果をユニーク処理してはいけません)
  • uniqコマンドを使って、繰り返されている行だけを抽出します。
sort a b | uniq -d

重複行をカウントする方法


重複行をカウントするには、sortコマンドとuniqコマンドの結果を wc コマンドでカウントするだけです。
sort a b | uniq -d |wc -l
これで、2つのファイルの共通する行の個数を調べることができます。

注意事項


それぞれのファイルがユニークなデータでないといけません。
a(またはb)に重複があるとそれも重複部分としてみなされてしまいます。

つまり
sort -u a > a2
sort -u b > b2
sort a2 b2 | uniq -d |wc -l
と処理しなければなりません。

スポンサーリンク
スポンサーリンク
 
いつもシェア、ありがとうございます!


もっと情報を探しませんか?

関連記事

最近の記事

人気のページ

スポンサーリンク
 

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12

サイト

Vim入門

C言語入門

C++入門

JavaScript/Node.js入門

Python入門

FreeBSD入門

Ubuntu入門

セキュリティ入門

パソコン自作入門

ブログ

トップ


プライバシーポリシー