unix - ラジオボタンフィールドの値を PDF からテキストにエクスポートする

翻译自：https://stackoverflow.com/questions/24652142 2014-07-09T11:11:32.960

213 次

一連の PDF ファイルに対していくつかの自然言語処理操作を実行するには、OCR でスキャンされた PDF ファイルからいくつかのラジオボタンフィールドの値をテキストに自動的に抽出する必要があります。pdftotext を使用すると、2 つの選択肢のラジオボタン (女性、男性) が次のようなテキストにエクスポートされます。

セックス

女性

男

私が必要としているのは、どのラジオボタンが選択されているかを示すある種の注釈です。つまり、次のようなものです。

セックス

×女性

男

これを行うことができる UNIX ツールはありますか? pdftotext のマニュアルを読み、-raw や -layout などのスイッチを試しましたが、成功しませんでした。

前もって感謝します。

TL;DR pdftotext などの UNIX ツールを使用して、OCR でスキャンした PDF ドキュメントからラジオボタンの値を抽出できますか?

unix - ラジオ ボタン フィールドの値を PDF からテキストにエクスポートする

0 に答える 0

Related

Reference

unix - ラジオボタンフィールドの値を PDF からテキストにエクスポートする