iTextSharp
C#を使用してPDFファイルを読み取るために使用しています。関数を使用したテキスト抽出PdfTextExtractor.GetTextFromPage()
は、期待どおりにすべてのテキストを返します。
ただし、目次、索引、およびページ番号を含む PDF の場合は、削除する必要があります。そして、テキストの段落を取得したいだけです。
を調べて、オプションの利用可能性を確認しましたITextExtractionStrategy
。
私は本当に無知で、どんな指針も役に立ちます。
を使用してフィールドを分離することを検討しましたAcroFields
が、それはロング ショットのように見えます。
ありがとうございました。
よろしく、~Mayur