チェックサムを計算して他のファイルと比較し、重複ファイルを見つけますが、オフィス ファイルの場合、共有ポイントのプロパティが含まれます。たとえば、場所が異なるファイルのチェックサムは同じではありません。
私の考えは、このファイルをメモリストリームで開き、xml (ワード word/document.xml) を解凍し、それを使用してチェックサムを計算するか、zip ライブラリの crc プロパティを使用することです。このようにして、ドキュメントのプロパティは含めず、コンテンツ (一部) のみを含めます
うまく機能しますが、ExcelまたはPowerPointの場合、ドキュメントのコンテンツを表すフォルダーにいくつかのファイルがあります。
まず、それが正しい方法だと思いますか。次に、ファイルの crc プロパティを組み合わせて、コンテンツ フォルダーを表す CRC を作成する方法を教えてください。
word の場合 /word
Excel の場合 /xl/worksheets
パワーポイントの場合 ppt/slides