-1

itextsharp を使用して、ac# アプリケーションで PDF からテキストを抽出する必要があります。一部の PDF ファイルを抽出しようとすると、一部の単語が散らばって繰り返されます (たとえば、スタック オーバーフロー - s st ta ac ck ko ov ve er rf flow w)。誰かがこれを完璧にする方法を提案したり、これを修正するように提案したりできますか. 上記の場合のサンプル画像を添付しました。 ここに画像の説明を入力

4

1 に答える 1

2

これを引き起こしているテキストが PDF ファイルで太字になっていると推測できますか? PostScript と PDF でテキストを太字に見せる方法 (非常に悪い方法ですが...) は、同じ文字を 2 回レンダリングし、テキストの位置をわずかに変換 (シフト) することは珍しくありません。

それが実際にこれを引き起こしている場合、それを回避する唯一の方法は、おそらく各文字の位置を計算し、同じで非常に近い文字を破棄することです。

于 2012-11-30T15:53:33.660 に答える