私の現在のプロジェクトでは、pdf のテキストをテキスト ファイルに書き写す必要があります。まず、画像ファイルを OCR プログラム (tesseract) に直接入れようとしましたが、うまくいきませんでした。元の画像ファイルは基本的に古い新聞であり、背景ノイズがいくつかありますが、これは tesseract に問題があると確信しています。そのため、tesseractに供給する前に、画像の前処理を使用しようとしています。この状況にうまく適合するオープンソースの画像前処理エンジンの提案はありますか??? そして、それを使用する方法についての指示はさらに高く評価されます!
質問する
10539 次
3 に答える
4
@karlphillipが述べたように、前処理技術は目的の結果によって大きく異なるため、目的に合わせてすぐに利用できる前処理エンジンがあるとは思えません。
ノイズの多い画像内のテキストをクリアするための一般的なアプローチには、次のようなものがあります。元の画像 (折り目、汚れ、手書きメモなどの大きなノイズを除去するため)。
OpenCV には、これらのフィルター/バイナリ化メソッドの実装があります。公開された文献にアクセスできる場合は、ノイズの多いドキュメントの 2 値化に関するかなりの作業があります。
于 2013-03-22T14:24:00.373 に答える
0
ScanTailorをチェックしてください。かなり印象的な前処理機能を備えており、オープン ソースです。
于 2014-03-10T06:05:19.760 に答える