9

重複の可能性:
多数のPDFファイルを比較するためのツール?

私は、ビジネスが新年の新しいpdfフォームの束を提供し、改訂メモがまったくないという古典的なシナリオにあり、あなたは前年のものと何が違うのかを理解することになっています。

ここではたくさんのフォームについて話しているので、PDFを比較して違いの概要を説明する方法を見つけようとしています。そのため、人がすべてのフォームを手動で確認する必要はありません。

私の考えは、PDFからすべてのテキストを抽出し、それを.txtにダンプしてから、テキストファイルで違いを実行することでしたが、それは恐ろしいことのように聞こえます。

私の質問はプログラムで言っていますが、PDFを比較し、主に人々の経験からアイデアを得るための信頼できるツールがあれば満足しています。また、プログラムによるソリューションを喜んで受け入れます(C#が望ましいですが、plsはアイデアを出します)。

4

4 に答える 4

8

PDFの差分を主張するソフトウェア製品はかなりあります。私はこれを使用する必要はありませんでしたが、これが繰り返し発生するプロセスになる場合は、あなたの会社がそれらの1つに投資するのが賢明だと思います。潜在的なアプリケーションの束のためのちょうどグーグル「pdfdiff」。

さらに、あなたの状況はこの質問に非常に似ています:多数のPDFファイルを比較するためのツール?その議論が役立つと思います。

于 2010-09-30T21:43:50.860 に答える
8

私はDocotic.Pdfライブラリの開発者です。単体テストではPDF比較を使用して、テストで期待どおりにPDFが生成されることを確認します。PDFは特別なオブジェクトのコレクションであり、予告編IDや作成者情報などの一部のプロパティを無視してすべてのPDFオブジェクトを比較します。この実装は正常に機能します。

メソッドPdfDocument.DocumentsAreEqualを試すことができます。この方法は、特定の違いがなく、ドキュメントが等しいことを示します。より多くの機能が必要な場合は、お問い合わせください。

于 2010-10-02T03:47:10.297 に答える
4

PDFから生データを取得し、Word、TortiseSVN、WinMergeなどを使用して比較部分を処理するというアプローチを採用しました。私の例では、C#のRichTextBoxで比較を行いました...違いの色付けなど...すべてアプリ内で必要だったためです。

これが私がしたことです... 私が混合文書、WordとPDFを比較しようとしていたときのPDF比較。

ただし、解析にはPDFBoxをお勧めします。もう少しエレガントです...iTextSharpは問題なく機能しましたが...

于 2010-09-30T21:50:31.523 に答える
2

https://blog.idrsolutions.com/2010/09/comparing-2-pdf-files/でPDFファイルを比較するためのいくつかのアプローチを提案するブログを書きました

于 2010-10-01T07:10:32.873 に答える