3

私は分音記号付きのヘブライ語でpdfを扱っています。すべての単語をその座標で抽出したい。ITextSharp と pdfClown を使用しようとしましたが、どちらも私が望むものを与えてくれませんでした。

pdfClown では、ITextSharp に文字\文字がありません。単語の座標を取得できません。

それを行う方法はありますか?(無料のフレームワーク\コードを探しています)

編集:

PDFClown コード:

    File file = new File(PDFFilePath);
    TextExtractor te = new TextExtractor();
    IDictionary<RectangleF?, IList<ITextString>> strs = te.Extract(file.Document.Pages[0].Contents);

    List<string> correctText = new List<string>();
    foreach (var key in strs.Keys)
    {
        foreach (var value in strs[key])
        {
            string reversedText = new string(value.Text.Reverse().ToArray());
            string cleanText = RemoveDiacritics(reversedText);
            correctText.Add(cleanText);
        }
    }
4

1 に答える 1