vb.net - PDF から本文テキストを解析する

Question

最近、VB2010 アプリで iTextSharp を使用して、PDF ドキュメントからテキストデータを解析する実験を行っています。ドキュメントには、画像やその他の装飾的な要素は含まれず、テキストのみが含まれます。私はいくつかの記事を読み、いくつかのコードスニペットを使用しましたが、有望に見えます。ただし、私がやろうとしているのは、ヘッダーまたはフッターを除いて、各ページの本文を解析することです。その特定の機能に関するガイダンスは見つかりませんでした。

現在、VB.NET または C# で itextsharp dll を使用して PDF コンテンツを読み込んでいるスニペットを使用していますが、ページ内のすべてのテキストを解析します。体を手に入れる方法があるに違いない。または、少なくとも私はそう願っています。

score 2 · Accepted Answer

通常、PDF には、含まれるテキストの論理構造に関する情報は含まれません。

そのため、PDF にはヘッダー、フッター、本文、段落などはありません。「このグリフをここに描画する」、「この位置に移動して、そのグリフのグループをそこに描画する」などの操作の束しかありません。PDFには読み取り可能なテキストを含める必要がないため、文字ではなくグリフを書きました。指定する必要があるのは外観のみです。

1 つの例外はタグ付き PDF ですが、実際に使用されているほとんどの PDF にはタグが付けられていません。

上記のすべてを考えると、おそらく次のアプローチが残されます。

各ページからすべてのテキストを抽出する
テキストを分析し、各ページの最初/最後で類似部分を見つけます
類似部品を削除

これはヒューリスティックベースの検出であるため、常に優れた結果が得られるとは限りません。

vb.net - PDF から本文テキストを解析する

1 に答える 1

Related

Reference