A
-nodes_to_delete
とB
-の 2 つのファイルがありますnodes_to_keep
。各ファイルには、数値 ID を持つ多くの行があります。
nodes_to_delete
にあるが含まれていない数値IDのリストが必要nodes_to_keep
です
。
PostgreSQL データベース内でこれを行うと、非常に遅くなります。Linux CLI ツールを使用して bash でそれを行う適切な方法はありますか?
更新:これは Python の仕事のように見えますが、ファイルは非常に大きいです。uniq
、sort
およびいくつかの集合論手法を使用して、いくつかの同様の問題を解決しました。これは、同等のデータベースよりも約 2 ~ 3 桁高速でした。