スキャンしたドキュメントのスマートなトリミング
最近、古書・写本の保存プロジェクトを引き継ぎました。それらは膨大な量で、ほぼ10,000ページです。自動ブックスキャナーでスキャンできる状態ではなかったので、ポータブルスキャナーで手動でスキャンする必要がありました。
Photoshopで編集を開始すると、実際の問題が発生します。それらはすべて基本的にドキュメント(JPG形式)であり、これらのドキュメントには画像がまったく含まれていないことに注意してください。それらは異なる言語(オリヤー語)であり、近い将来利用できるOCRソフトウェアはないと確信しています。(ある場合はお知らせください。)
これらの画像(ドキュメント)をきれいでエレガントに見せるために、トリミング、配置、コントラストの少し上げ、消しゴムなどで不要な部分をきれいにする必要があります。Photoshopでこれらのプロセスのほとんどを自動化することができましたが、トリミングが行き詰まっています。ソフトウェアがそのimg(doc)の特定の領域にあるテキストまたはコンテンツの存在を調整できないため、トリミングを自動化できません。与えられた値をトリミングに適用するだけです。
このトリミングプロセスを自動化するソリューションが必要です。私はこれについてのアイデアを考え出しました。それが実装するのに十分実用的であるかどうかはわかりません。私が知る限り、この種のことを行うソフトウェアは市場に存在しません。
これに対する可能な解決策:これは、ツールが画像内のテキストの存在を認識し(すべてが通常のドキュメント画像であり、画像がなく、パターンが単なる長方形であるため、それほど重要ではありません)、それをトリミングできる場合に可能になる可能性があります余白なしでドキュメント画像を出力できるように、各側からそれらのテキストの境界から右に出ます。この後、余白に空白を追加したり、コントラストと色を微調整して読みやすくしたりするなど、Photoshopを使用して残りのタスクを自動化できます。
こちらがギャラリーへのアルバムリンクです。役立つ場合は、さらにサンプル画像を投稿できます。お知らせください。
上記のリンクから入手できる画像のより大きなサンプルからの一例を次に示します。