PDFドキュメントをTextChunksに分割するこの例を見つけました
どちらかありますか
a) 各 TextChunk を各 TextChunk から単語/文字にさらに分割し、その場所を見つけることができる方法は?
また
b)PDFをチャンクではなく単語/文字に解析して場所を見つける方法は?
PDFドキュメントをTextChunksに分割するこの例を見つけました
どちらかありますか
a) 各 TextChunk を各 TextChunk から単語/文字にさらに分割し、その場所を見つけることができる方法は?
また
b)PDFをチャンクではなく単語/文字に解析して場所を見つける方法は?
各TextChunkをさらに各TextChunkの単語/文字に分割し、それでもその場所を見つけることができる方法はありますか?
このクラスはごく少量の情報を転送するヘルパークラスにすぎないTextChunk
ため、これらのオブジェクトをさらに分割することはできません。TextChunk
そのコンストラクター引数String str, Vector startLocation, Vector endLocation, float charSpaceWidth,
は、特に、個々の文字幅、または個々の文字幅を導出するための関連するテキストサイズとフォントに関する情報がありません。
ただし、もちろん方法を変更することもできますRenderText
(着信するより完全なTextRenderInfo
インスタンスがインスタンスに削減されTextChunk
ます)。
public virtual void RenderText(TextRenderInfo renderInfo) {
LineSegment segment = renderInfo.GetBaseline();
TextChunk location = new TextChunk(renderInfo.GetText(), segment.GetStartPoint(), segment.GetEndPoint(), renderInfo.GetSingleSpaceWidth());
locationalResult.Add(location);
}
特に、最初にTextRenderInfo
そのGetCharacterRenderInfos()
メソッドを使用してインスタンスを単一の文字TextRenderInfo
インスタンスに分割し、これらをループしてTextChunk
、それぞれに個別のインスタンスを作成できます。
iTextSharpがすでに新しいSourceForgeバージョン管理インフラストラクチャに切り替えているため、探しているリポジトリにそのメソッドが表示されない可能性があります。したがって、現在のiTextSharpリポジトリに切り替える必要があります。
PDFをチャンクではなく単語/文字に解析して場所を見つける方法はありますか?
もちろんIRenderListener
、必要なことを正確に実行する抽出戦略を作成するために実装することもできます。iTextおよびiTextSharpのstackoverflowで、そのトピックに関するいくつかの議論を見つけることができます。たとえば、 ITextSharp PDFで特定のテキストの座標を検索、PDFで正確な文字列位置を取得、itextsharpなどを使用してページ上のすべての単語のそれぞれの座標を取得します。