2

Apache TIKA サーバーを使用して PDF ファイルに OCR を実行しています。

hOCRの出力に興味がありますが、出力をプレーン テキスト形式でしか取得できません。

wikiコードに従って、X-Tika-OCR...HTTP ヘッダーを使用して Tesseract を構成しようとしています。この場合、X-Tika-OCRoutputType: hocrHTTP ヘッダーを使用していますが、プレーン テキスト出力または HOCR タグのない html 出力が得られます。

/tika/rmetaエンドポイントの両方を試しました。

私が使用するcurlコマンド:

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

また、Acceptヘッダーを text/plain、text/html、text/xhtml、text/hocr に設定してみました。どれも機能しません。最後のものはエラーになります。

私は使っている:

  • アパッチティカ 1.22
  • テセラクト 4.1.0-3.1.x86_64
  • レッドハット 7
4

1 に答える 1

3

の統合テスト コードを調べるとTikaResourceTest、HTTP ヘッダーが欠落していることに気付きました。正しいコマンドには、X-Tika-PDFOcrStrategy: ocr_onlyHTTP ヘッダーが含まれている必要があります。ocr & pdf パーサーのドキュメントで詳細を参照してください。

したがって、コマンドは次のようになります。

curl -v -X PUT \
     --data-binary @file.pdf \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-PDFOcrStrategy: ocr_only" \
     -H "X-Tika-OCROutputType: hocr" \
     "http://tika-server:8081/tika"

于 2020-02-06T07:08:36.877 に答える