Apache TIKA サーバーを使用して PDF ファイルに OCR を実行しています。
hOCRの出力に興味がありますが、出力をプレーン テキスト形式でしか取得できません。
wikiとコードに従って、X-Tika-OCR...
HTTP ヘッダーを使用して Tesseract を構成しようとしています。この場合、X-Tika-OCRoutputType: hocr
HTTP ヘッダーを使用していますが、プレーン テキスト出力または HOCR タグのない html 出力が得られます。
/tika
と/rmeta
エンドポイントの両方を試しました。
私が使用するcurl
コマンド:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
また、Accept
ヘッダーを text/plain、text/html、text/xhtml、text/hocr に設定してみました。どれも機能しません。最後のものはエラーになります。
私は使っている:
- アパッチティカ 1.22
- テセラクト 4.1.0-3.1.x86_64
- レッドハット 7