c# - c# pdf itextsharpテキストは、抽出中に散らばって繰り返されます

Question

itextsharp を使用して、ac# アプリケーションで PDF からテキストを抽出する必要があります。一部の PDF ファイルを抽出しようとすると、一部の単語が散らばって繰り返されます (たとえば、スタックオーバーフロー - s st ta ac ck ko ov ve er rf flow w)。誰かがこれを完璧にする方法を提案したり、これを修正するように提案したりできますか. 上記の場合のサンプル画像を添付しました。ここに画像の説明を入力

score 2 · Accepted Answer

これを引き起こしているテキストが PDF ファイルで太字になっていると推測できますか? PostScript と PDF でテキストを太字に見せる方法 (非常に悪い方法ですが...) は、同じ文字を 2 回レンダリングし、テキストの位置をわずかに変換 (シフト) することは珍しくありません。

それが実際にこれを引き起こしている場合、それを回避する唯一の方法は、おそらく各文字の位置を計算し、同じで非常に近い文字を破棄することです。

c# - c# pdf itextsharpテキストは、抽出中に散らばって繰り返されます

1 に答える 1

Related

Reference