一連の PDF ファイルに対していくつかの自然言語処理操作を実行するには、OCR でスキャンされた PDF ファイルからいくつかのラジオ ボタン フィールドの値をテキストに自動的に抽出する必要があります。pdftotext を使用すると、2 つの選択肢のラジオ ボタン (女性、男性) が次のようなテキストにエクスポートされます。
セックス
女性
男
私が必要としているのは、どのラジオボタンが選択されているかを示すある種の注釈です。つまり、次のようなものです。
セックス
×女性
男
これを行うことができる UNIX ツールはありますか? pdftotext のマニュアルを読み、-raw や -layout などのスイッチを試しましたが、成功しませんでした。
前もって感謝します。
TL;DR pdftotext などの UNIX ツールを使用して、OCR でスキャンした PDF ドキュメントからラジオ ボタンの値を抽出できますか?