ドキュメント情報とファイルシステム上のファイルを指すファイルパスを含むかなり大きなテーブルが1つあります。数年後、DBテーブルで参照されていないファイルがディスク上にあることに気付きました。その逆も同様です。
現在Clojureを学んでいるので、dbとファイルシステムの違いを見つけることができる小さなユーティリティを作成するといいと思いました。当然のことながら、私は初心者なので、600 000を超えるドキュメントがあり、明らかにパフォーマンスが高く、メモリ消費の少ないソリューションが必要なため、行き詰まりました:)
私の最初のアイデアは、すべてのファイルでフラット化されたファイルシステムツリーリストを生成し、それをdbのリストと比較することでした。ファイルが存在しない場合は、別のリスト「存在しない」に入れ、ファイルがHDDに存在し、DBに存在しない場合は、移動します。いくつかのダンプディレクトリにそれを。
何か案は?