2

現在、Java を使用してコマンドライン経由で Tesseract を呼び出しています。出力モードは hOCR に設定されています。Cプログラミングに関連することはほとんど知りませんが、ソースコードを読むことはできますが、それだけです。

hOCR ファイルで単語の信頼度情報を取得できるようにしたいと考えています。私はネット上でいくつかの「答え」を見つけました。設定ファイルに値を設定することから、ソースを変更して再コンパイルすることまでさまざまです。

最新バージョンの Tesseract を使用していますが、Java 内から信頼 (x_wconf) という単語を取得するにはどうすればよいですか?

4

1 に答える 1

0

hOCR は HTML であるため、必要な属性を抽出するには HTML パーサーが必要です。jsoupHtmlCleaner、またはHTML Parserを試してください。

于 2013-09-23T23:35:24.960 に答える