1

最近、VB2010 アプリで iTextSharp を使用して、PDF ドキュメントからテキスト データを解析する実験を行っています。ドキュメントには、画像やその他の装飾的な要素は含まれず、テキストのみが含まれます。私はいくつかの記事を読み、いくつかのコード スニペットを使用しましたが、有望に見えます。ただし、私がやろうとしているのは、ヘッダーまたはフッターを除いて、各ページの本文を解析することです。その特定の機能に関するガイダンスは見つかりませんでした。

現在、VB.NET または C# で itextsharp dll を使用して PDF コンテンツを読み込んでいるスニペットを使用していますが、ページ内のすべてのテキストを解析します。体を手に入れる方法があるに違いない。または、少なくとも私はそう願っています。

4

1 に答える 1

2

通常、PDF には、含まれるテキストの論理構造に関する情報は含まれません。

そのため、PDF にはヘッダー、フッター、本文、段落などはありません。「このグリフをここに描画する」、「この位置に移動して、そのグリフのグループをそこに描画する」などの操作の束しかありません。PDFには読み取り可能なテキストを含める必要がないため、文字ではなくグリフを書きました。指定する必要があるのは外観のみです。

1 つの例外はタグ付き PDF ですが、実際に使用されているほとんどの PDF にはタグが付けられていません。

上記のすべてを考えると、おそらく次のアプローチが残されます。

  1. 各ページからすべてのテキストを抽出する
  2. テキストを分析し、各ページの最初/最後で類似部分を見つけます
  3. 類似部品を削除

これはヒューリスティック ベースの検出であるため、常に優れた結果が得られるとは限りません。

于 2012-07-10T06:43:42.013 に答える