私は分音記号付きのヘブライ語でpdfを扱っています。すべての単語をその座標で抽出したい。ITextSharp と pdfClown を使用しようとしましたが、どちらも私が望むものを与えてくれませんでした。
pdfClown では、ITextSharp に文字\文字がありません。単語の座標を取得できません。
それを行う方法はありますか?(無料のフレームワーク\コードを探しています)
編集:
PDFClown コード:
File file = new File(PDFFilePath);
TextExtractor te = new TextExtractor();
IDictionary<RectangleF?, IList<ITextString>> strs = te.Extract(file.Document.Pages[0].Contents);
List<string> correctText = new List<string>();
foreach (var key in strs.Keys)
{
foreach (var value in strs[key])
{
string reversedText = new string(value.Text.Reverse().ToArray());
string cleanText = RemoveDiacritics(reversedText);
correctText.Add(cleanText);
}
}