6

PDFファイルから表を読み取る際に問題があります。これは、いくつかのテキストと表を含む非常に単純な pdf ファイルです。私が使用しているツールは itextsharp です。PDFにはテーブルの概念がないことを知っています。グーグルで調べた後、itextsharp + カスタム ITextExtractionStrategy を使用してそれを達成できる可能性があると誰かが言いました。しかし、私はそれを開始する方法がわかりません。誰かヒントを教えてください。またはサンプルコードの小さな部分ですか?

乾杯

4

3 に答える 3

1

このコードは、必要な PDF ファイルを読むためのものです。

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

dll itextsharp.dll から

var pdfReader = new PdfReader(_filePath);

for (int i = 0; i < pdfReader.NumberOfPages; i++)
{
   var locationTextExtractionStrategy = new LocationTextExtractionStrategy();

   string textFromPage = PdfTextExtractor.GetTextFromPage(pdfReader, i + 1, locationTextExtractionStrategy);

   textFromPage = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(textFromPage)));

   //Do Something with the text
}
于 2013-09-11T15:29:28.793 に答える