iTextSharpC#を使用してPDFファイルを読み取るために使用しています。関数を使用したテキスト抽出PdfTextExtractor.GetTextFromPage()は、期待どおりにすべてのテキストを返します。
ただし、目次、索引、およびページ番号を含む PDF の場合は、削除する必要があります。そして、テキストの段落を取得したいだけです。
を調べて、オプションの利用可能性を確認しましたITextExtractionStrategy。
私は本当に無知で、どんな指針も役に立ちます。
を使用してフィールドを分離することを検討しましたAcroFieldsが、それはロング ショットのように見えます。
ありがとうございました。
よろしく、~Mayur