2

私はプロジェクトSIGGRAPH Image Wallに取り組んでいます。

私の最初の課題は、 PDF、SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)の各ページのタイトルを抽出する方法を理解することです。このPDFは、各論文の最初のページをまとめたものです。そのため、従来の学術論文とは少し異なり、ページごとに論文タイトルが付けられています。誰にもこれについて何か考えがありますか?

4

1 に答える 1

2

これは、多くのテキスト抽出アプローチのいずれかを使用して達成できると思いますが、100% の精度を達成するのは難しいことに注意してください...

使用可能ないくつかのツール:

  • pdftotextまたはpdf2txt - シンプルで簡単なクロスプラットフォーム抽出ユーティリティ.
  • PDFNet - PDF を掘り下げて必要なデータを正確に引き出すための堅牢な SDK.
  • Perl モジュール: PDF::API2、CAM::PDF - 私は Perl 派なので、この方法を使用しますが、同様のライブラリが Python や Ruby などに存在すると確信しています。

ソース ページはかなり一貫しているように見えます。コンテンツがページのどこにあり、どのように表示されるかについて、賢明な推測ができるようになると思います。私はこれを試してみます:

  1. PDF を手動で調べて、タイトルのフォント名とサイズを確認します。
  2. ページの上部 (上部 150 ピクセルなど) のテキスト情報を抽出します。必ずフォント情報を抽出してください。
  3. これにより、すべてのタイトル テキストと、場合によってはいくつかの著者名が取得されるはずです。このデータを (作成したスクリプト内、または pdftotext からの XML 出力ファイルなどで) 解析し、タイトルのフォント情報に一致する単語のみを保持します。

タイトル フォントが異なる場合は、各ページのタイトル フォントを推測し、著者名 (ページの上部から取得する必要がある他の唯一のコンテンツ) と区別する必要があります。これは、フォントを比較するだけでおそらく行うことができます。サイズ。

于 2013-08-06T03:29:35.593 に答える