bash - bash、Linux: 2 つのテキストファイルの違いを設定する

Question

A-nodes_to_deleteとB-の 2 つのファイルがありますnodes_to_keep。各ファイルには、数値 ID を持つ多くの行があります。

nodes_to_deleteにあるが含まれていない数値IDのリストが必要nodes_to_keepです。

PostgreSQL データベース内でこれを行うと、非常に遅くなります。Linux CLI ツールを使用して bash でそれを行う適切な方法はありますか?

更新:これは Python の仕事のように見えますが、ファイルは非常に大きいです。uniq、sortおよびいくつかの集合論手法を使用して、いくつかの同様の問題を解決しました。これは、同等のデータベースよりも約 2 ～ 3 桁高速でした。

score 116 · Accepted Answer

116

commコマンドはそれを行います。

于 2010-03-24T16:45:38.510 に答える

score 52 · Accepted Answer

誰かが数ヶ月前にshでこれを正確に行う方法を教えてくれましたが、しばらくの間それを見つけることができませんでした...そして見ている間、私はあなたの質問に出くわしました。ここにあります：

set_union () {
   sort $1 $2 | uniq
}

set_difference () {
   sort $1 $2 $2 | uniq -u
}

set_symmetric_difference() {
   sort $1 $2 | uniq -u
}

score 1 · Accepted Answer

Postgres でそれを行うためのより良い方法が必要かもしれませんが、フラットファイルを使用してそれを行うためのより高速な方法が見つからないことはほぼ間違いありません。単純な内部結合を実行できるはずであり、両方の id 列が非常に高速にインデックス化されていると仮定します。

bash - bash、Linux: 2 つのテキスト ファイルの違いを設定する