1

一連の PDF ファイルに対していくつかの自然言語処理操作を実行するには、OCR でスキャンされた PDF ファイルからいくつかのラジオ ボタン フィールドの値をテキストに自動的に抽出する必要があります。pdftotext を使用すると、2 つの選択肢のラジオ ボタン (女性、男性) が次のようなテキストにエクスポートされます。

セックス

女性

私が必要としているのは、どのラジオボタンが選択されているかを示すある種の注釈です。つまり、次のようなものです。

セックス

×女性

これを行うことができる UNIX ツールはありますか? pdftotext のマニュアルを読み、-raw や -layout などのスイッチを試しましたが、成功しませんでした。

前もって感謝します。

TL;DR pdftotext などの UNIX ツールを使用して、OCR でスキャンした PDF ドキュメントからラジオ ボタンの値を抽出できますか?

4

0 に答える 0