私のC#コードでは、pdfからテキストを抽出しています.2つの方法があります。ただし、1 つの方法は 1 つのタイプの PDF ドキュメントで機能し、もう 1 つの方法は別のタイプの PDF ドキュメントで機能します。
方法 1 が失敗すると、テキストは取得されますが、空白はありません。方法 2 が失敗すると、\r\n のみが取得されます。
方法 1 ( http://www.codeproject.com/Articles/14170/Extract-Text-from-PDF-in-C-100-NETのクラス)
PDFParser pdf_parser = new PDFParser();
currentText = pdf_parser.ExtractTextFromPDFBytes(pdfReader.GetPageContent(page)) + " ";
方法 2
StringWriter output = new StringWriter();
for (int i = 1; i <= reader.NumberOfPages; i++)
output.WriteLine(PdfTextExtractor.GetTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
currentText = output.ToString();
常に機能するように両方の機能を組み合わせる方法はありますか?