pdf - PDF の各ページからタイトルを抽出しますか?

Question

私はプロジェクトSIGGRAPH Image Wallに取り組んでいます。

私の最初の課題は、 PDF、SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)の各ページのタイトルを抽出する方法を理解することです。このPDFは、各論文の最初のページをまとめたものです。そのため、従来の学術論文とは少し異なり、ページごとに論文タイトルが付けられています。誰にもこれについて何か考えがありますか？

score 2 · Accepted Answer

これは、多くのテキスト抽出アプローチのいずれかを使用して達成できると思いますが、100% の精度を達成するのは難しいことに注意してください...

使用可能ないくつかのツール:

pdftotextまたはpdf2txt - シンプルで簡単なクロスプラットフォーム抽出ユーティリティ.
PDFNet - PDF を掘り下げて必要なデータを正確に引き出すための堅牢な SDK.
Perl モジュール: PDF::API2、CAM::PDF - 私は Perl 派なので、この方法を使用しますが、同様のライブラリが Python や Ruby などに存在すると確信しています。

ソースページはかなり一貫しているように見えます。コンテンツがページのどこにあり、どのように表示されるかについて、賢明な推測ができるようになると思います。私はこれを試してみます：

PDF を手動で調べて、タイトルのフォント名とサイズを確認します。
ページの上部 (上部 150 ピクセルなど) のテキスト情報を抽出します。必ずフォント情報を抽出してください。
これにより、すべてのタイトルテキストと、場合によってはいくつかの著者名が取得されるはずです。このデータを (作成したスクリプト内、または pdftotext からの XML 出力ファイルなどで) 解析し、タイトルのフォント情報に一致する単語のみを保持します。

タイトルフォントが異なる場合は、各ページのタイトルフォントを推測し、著者名 (ページの上部から取得する必要がある他の唯一のコンテンツ) と区別する必要があります。これは、フォントを比較するだけでおそらく行うことができます。サイズ。

pdf - PDF の各ページからタイトルを抽出しますか?

1 に答える 1

Related

Reference