ここに投稿する前にボードをかなり見回しましたが、私がやりたいことを捉えたものは何もありませんでした.
多数のインバウンド FAX (500 ページ以上/日) が個別のドキュメント (約 100 以上のドキュメント/日) として受信されます。送信者 (病院) は、最初の試行から数時間後に同じ文書を再送信することがよくあります。2 番目の送信を「潜在的なクローン」としてフラグを立てて、適切にルーティングしてフラグを立てることができるようにしたいと思います。
到着する各ファックス (PDF/TIFF) を計算し、何らかのハッシュまたは ID でタグ付けする方法を知りたいです。次に、ドキュメント DB をすばやくスキャンして、一意かどうかを確認します。
明らかに、100% 確実であると見なさない限り方法はありませんが、頭のてっぺんから、次の場合、あるファックスは別のファックスと同じになると考えています。
- 同じページ数
- 元の 24 時間以内に送信
- ハッシュコードが似ている(閾値内)
しかし、私は画像の比較に少し行き詰まっています。しきい値のハッシュ コードまたは「各ファックスの p4 の画像は 95% の可能性が同じ」と言う方法を探しています。たとえば、元のファックスの p4 が歪んでいて、再送信されたファックスの p4 がまっすぐである可能性があります。最初に、Inlite Research の ClearImage Repair のような方法ですべてのファックス ページを実行して、すべてのページをまっすぐにし、回転させ、調整することを考えていました。
誰かがこのようなことをしましたか?