私はプロジェクトSIGGRAPH Image Wallに取り組んでいます。
私の最初の課題は、 PDF、SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)の各ページのタイトルを抽出する方法を理解することです。このPDFは、各論文の最初のページをまとめたものです。そのため、従来の学術論文とは少し異なり、ページごとに論文タイトルが付けられています。誰にもこれについて何か考えがありますか?
私はプロジェクトSIGGRAPH Image Wallに取り組んでいます。
私の最初の課題は、 PDF、SIGGRAPH 2013 Technical Papers First Pages (44 MB PDF)の各ページのタイトルを抽出する方法を理解することです。このPDFは、各論文の最初のページをまとめたものです。そのため、従来の学術論文とは少し異なり、ページごとに論文タイトルが付けられています。誰にもこれについて何か考えがありますか?
これは、多くのテキスト抽出アプローチのいずれかを使用して達成できると思いますが、100% の精度を達成するのは難しいことに注意してください...
使用可能ないくつかのツール:
ソース ページはかなり一貫しているように見えます。コンテンツがページのどこにあり、どのように表示されるかについて、賢明な推測ができるようになると思います。私はこれを試してみます:
タイトル フォントが異なる場合は、各ページのタイトル フォントを推測し、著者名 (ページの上部から取得する必要がある他の唯一のコンテンツ) と区別する必要があります。これは、フォントを比較するだけでおそらく行うことができます。サイズ。