画像の大規模なライブラリで重複を削除するスクリプトをまとめています。現時点では、最初に同じサイズのファイルを見つけてから、ファイルの 10240 バイトの部分で sha256 を実行して、同じサイズのファイルのフィンガープリントを取得する 2 パス フィルターを実行しています (コードはこちら)。
うまく動作しますが、sha256 を実行する代わりに使用できるチェックサムが jpeg 形式に組み込まれているのではないかと思います。
チェックサム/フィンガープリントとして機能するチェックサムまたはその他のコンポーネントがあるかどうかは誰にもわかりませんか? もしそうなら、それらにアクセスする効率的な方法はありますか?