tesseract - tika-server から hocr 出力を取得する

Question

Apache TIKA サーバーを使用して PDF ファイルに OCR を実行しています。

hOCRの出力に興味がありますが、出力をプレーンテキスト形式でしか取得できません。

wikiとコードに従って、X-Tika-OCR...HTTP ヘッダーを使用して Tesseract を構成しようとしています。この場合、X-Tika-OCRoutputType: hocrHTTP ヘッダーを使用していますが、プレーンテキスト出力または HOCR タグのない html 出力が得られます。

/tikaと/rmetaエンドポイントの両方を試しました。

私が使用するcurlコマンド：

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

また、Acceptヘッダーを text/plain、text/html、text/xhtml、text/hocr に設定してみました。どれも機能しません。最後のものはエラーになります。

私は使っている：

アパッチティカ 1.22
テセラクト 4.1.0-3.1.x86_64
レッドハット 7

score 3 · Accepted Answer

の統合テストコードを調べるとTikaResourceTest、HTTP ヘッダーが欠落していることに気付きました。正しいコマンドには、X-Tika-PDFOcrStrategy: ocr_onlyHTTP ヘッダーが含まれている必要があります。ocr & pdf パーサーのドキュメントで詳細を参照してください。

したがって、コマンドは次のようになります。

curl -v -X PUT \
     --data-binary @file.pdf \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-PDFOcrStrategy: ocr_only" \
     -H "X-Tika-OCROutputType: hocr" \
     "http://tika-server:8081/tika"

tesseract - tika-server から hocr 出力を取得する

1 に答える 1

Related

Reference