pdf - .netを使用してpdfから座標で単語を抽出するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/32799696 2015-09-26T17:05:18.373

2921 次

私は分音記号付きのヘブライ語でpdfを扱っています。すべての単語をその座標で抽出したい。ITextSharp と pdfClown を使用しようとしましたが、どちらも私が望むものを与えてくれませんでした。

pdfClown では、ITextSharp に文字\文字がありません。単語の座標を取得できません。

それを行う方法はありますか？(無料のフレームワーク\コードを探しています)

編集：

PDFClown コード:

    File file = new File(PDFFilePath);
    TextExtractor te = new TextExtractor();
    IDictionary<RectangleF?, IList<ITextString>> strs = te.Extract(file.Document.Pages[0].Contents);

    List<string> correctText = new List<string>();
    foreach (var key in strs.Keys)
    {
        foreach (var value in strs[key])
        {
            string reversedText = new string(value.Text.Reverse().ToArray());
            string cleanText = RemoveDiacritics(reversedText);
            correctText.Add(cleanText);
        }
    }

pdf - .netを使用してpdfから座標で単語を抽出するにはどうすればよいですか?

1 に答える 1

Related

Reference