3

私の現在のプロジェクトでは、pdf のテキストをテキスト ファイルに書き写す必要があります。まず、画像ファイルを OCR プログラム (tesseract) に直接入れようとしましたが、うまくいきませんでした。元の画像ファイルは基本的に古い新聞であり、背景ノイズがいくつかありますが、これは tesseract に問題があると確信しています。そのため、tesseractに供給する前に、画像の前処理を使用しようとしています。この状況にうまく適合するオープンソースの画像前処理エンジンの提案はありますか??? そして、それを使用する方法についての指示はさらに高く評価されます!

4

3 に答える 3

5

そのための「画像前処理エンジン」は聞いたことがありませんが、 OpenCV (Open Source Computer Vision Library) を見て、独自の「前処理エンジン」を実装できます。OpenCVは、画像処理を実行するための多くの機能を提供するコンピューター ビジョン ライブラリです。

前処理ステップとしてテストしたい興味深いことの 1 つは、画像にしきい値を適用してノイズなどを除去することです。とにかく、私はこの種のことについてこのスレッドで話しました。

于 2013-03-21T21:38:38.713 に答える
4

@karlphillipが述べたように、前処理技術は目的の結果によって大きく異なるため、目的に合わせてすぐに利用できる前処理エンジンがあるとは思えません。

ノイズの多い画像内のテキストをクリアするための一般的なアプローチには、次のようなものがあります。元の画像 (折り目、汚れ、手書きメモなどの大きなノイズを除去するため)。

OpenCV には、これらのフィルター/バイナリ化メソッドの実装があります。公開された文献にアクセスできる場合は、ノイズの多いドキュメントの 2 値化に関するかなりの作業があります。

于 2013-03-22T14:24:00.373 に答える
0

ScanTailorをチェックしてください。かなり印象的な前処理機能を備えており、オープン ソースです。

于 2014-03-10T06:05:19.760 に答える