image - デジタル化された FAX である 2 つの PDF ドキュメントの比較

Question

ここに投稿する前にボードをかなり見回しましたが、私がやりたいことを捉えたものは何もありませんでした.

多数のインバウンド FAX (500 ページ以上/日) が個別のドキュメント (約 100 以上のドキュメント/日) として受信されます。送信者 (病院) は、最初の試行から数時間後に同じ文書を再送信することがよくあります。2 番目の送信を「潜在的なクローン」としてフラグを立てて、適切にルーティングしてフラグを立てることができるようにしたいと思います。

到着する各ファックス (PDF/TIFF) を計算し、何らかのハッシュまたは ID でタグ付けする方法を知りたいです。次に、ドキュメント DB をすばやくスキャンして、一意かどうかを確認します。

明らかに、100% 確実であると見なさない限り方法はありませんが、頭のてっぺんから、次の場合、あるファックスは別のファックスと同じになると考えています。

同じページ数
元の 24 時間以内に送信
ハッシュコードが似ている（閾値内）

しかし、私は画像の比較に少し行き詰まっています。しきい値のハッシュコードまたは「各ファックスの p4 の画像は 95% の可能性が同じ」と言う方法を探しています。たとえば、元のファックスの p4 が歪んでいて、再送信されたファックスの p4 がまっすぐである可能性があります。最初に、Inlite Research の ClearImage Repair のような方法ですべてのファックスページを実行して、すべてのページをまっすぐにし、回転させ、調整することを考えていました。

誰かがこのようなことをしましたか？

score 2 · Accepted Answer

OCRがオプションでない場合は、画像ベースのアプローチを取ることができます。1つの可能性は、ファックス画像をダウンサンプリング/フィルタリングして（高周波ノイズを除去するため）、2つのダウンサンプリングされた画像のピクセル間の正規化された相関を計算することです。明らかに、はるかに堅牢なアプローチがありますが、これは手動検査のために2つのFAXにフラグを立てるのに十分かもしれません。特に、あなたが言及した画像修復ソフトウェアが各ページを自動的に方向付けて拡大縮小できる場合。

score 2 · Accepted Answer

問題は、送信された 2 番目の FAX が新しいスキャンの結果である場合、2 つのファイルのハッシュ値が異なることです。

ドキュメント間の類似性 (もっともらしい重複) を測定するには、OCR を実行するか、(ファジーな方法の場合) 画像の内容を (つまり、解凍後に) 比較する必要があります。

編集：重複検出のためのハッシュコードへの提案

非常に暫定的に、ドキュメントの次の属性は、もっともらしい重複を適切に示す可能性のあるハッシュ値に組み合わせることができます。

これらの属性は個々のページごとに取得する必要があります。その理由は、ページが明確な制限であるためです。これらの制限を「厳しく」することで、ページコンテンツ内でよりソフトな (あいまいな) 測定を許可できます。
以下のすべての属性が必要なわけではありません。これらは一般に、より簡単に入手できるものから、より多くのプログラミングを必要とするものまでリストされています。

PDF レベルでのオブジェクトの特性
(ページごとに!)
- サイズ、つまりオクテット数
- 寸法 (幅と高さ。同じ「文字」形式が使用されていても、実際のスキャンでは画像サイズが異なります。
OCR テキスト
画像の特徴（白黒比率など）

「ハッシュ」に関しては、可能な限り広くする必要があります。理想的には、たとえば 32 ビットまたは 64 ビットのハッシュをページごとに 1 つ追加して作成される可変長のハッシュです。

score 1 · Accepted Answer

ドキュメントの大部分がテキストである場合は、それらを OCR 処理することをお勧めします。テキストの比較は簡単です。

「距離」の計算はできると思いますが、2 回目に上下逆さまに送信された場合はどうなるでしょうか。それとも、読みやすくするために拡大しましたか？

一般的なアルゴリズムを適用するのではなく、遭遇する可能性が高いドキュメントのサブセットに取り組むことをお勧めします。太陽の下ですべてを検索するわけではないため、より良い結果が得られます。

score 0 · Accepted Answer

OpenCVライブラリはあなたが探しているものだと思います。正しく思い出せば、画像類似性ツールがあります。ランドマーク認識と周波数領域技術のいずれかによる。画像のわずかな違いにそれほど問題を起こすことなく、周波数領域で近似ハッシュを行うことが可能です。

image - デジタル化された FAX である 2 つの PDF ドキュメントの比較

4 に答える 4

Related

Reference