itextsharp - TextChunk を単語に分割する

Question

PDFドキュメントをTextChunksに分割するこの例を見つけました

どちらかありますか

a) 各 TextChunk を各 TextChunk から単語/文字にさらに分割し、その場所を見つけることができる方法は?

また

b）PDFをチャンクではなく単語/文字に解析して場所を見つける方法は？

score 2 · Accepted Answer

各TextChunkをさらに各TextChunkの単語/文字に分割し、それでもその場所を見つけることができる方法はありますか？

このクラスはごく少量の情報を転送するヘルパークラスにすぎないTextChunkため、これらのオブジェクトをさらに分割することはできません。TextChunkそのコンストラクター引数String str, Vector startLocation, Vector endLocation, float charSpaceWidth,は、特に、個々の文字幅、または個々の文字幅を導出するための関連するテキストサイズとフォントに関する情報がありません。

ただし、もちろん方法を変更することもできますRenderText（着信するより完全なTextRenderInfoインスタンスがインスタンスに削減されTextChunkます）。

public virtual void RenderText(TextRenderInfo renderInfo) {
  LineSegment segment = renderInfo.GetBaseline();
  TextChunk location = new TextChunk(renderInfo.GetText(), segment.GetStartPoint(), segment.GetEndPoint(), renderInfo.GetSingleSpaceWidth());
  locationalResult.Add(location);        
}

特に、最初にTextRenderInfoそのGetCharacterRenderInfos()メソッドを使用してインスタンスを単一の文字TextRenderInfoインスタンスに分割し、これらをループしてTextChunk、それぞれに個別のインスタンスを作成できます。

iTextSharpがすでに新しいSourceForgeバージョン管理インフラストラクチャに切り替えているため、探しているリポジトリにそのメソッドが表示されない可能性があります。したがって、現在のiTextSharpリポジトリに切り替える必要があります。

PDFをチャンクではなく単語/文字に解析して場所を見つける方法はありますか？

もちろんIRenderListener、必要なことを正確に実行する抽出戦略を作成するために実装することもできます。iTextおよびiTextSharpのstackoverflowで、そのトピックに関するいくつかの議論を見つけることができます。たとえば、 ITextSharp PDFで特定のテキストの座標を検索、PDFで正確な文字列位置を取得、itextsharpなどを使用してページ上のすべての単語のそれぞれの座標を取得します。

itextsharp - TextChunk を単語に分割する

1 に答える 1

Related

Reference