java - PDFドキュメントページからヘッダー情報を抽出

翻译自：https://stackoverflow.com/questions/16572425 2013-05-15T18:26:43.707

969 次

Java 1.6 と iText の使用:

PDF ドキュメントからヘッダー情報を抽出しようとしています。「ヘッダー」とは、具体的には、ファイルヘッダーではなく、MS Word ドキュメントで表示されるヘッダーに似たものを指します。このドキュメントには、1 ページから多数のページを含めることができます。各ページには、ページのコンテンツを識別する一意のヘッダーがあります。最終的には、ページを個々の PDF ドキュメントに分割し、ヘッダーを抽出してドキュメントのタイトルを決定する必要があります。ヘッダーテキストは表示されない可能性がありますが、存在します。

ページの区切りは問題ありませんが、ヘッダーの抽出が不足しています。私が見たすべてのドキュメントは、PDF ドキュメントのヘッダーの作成について述べていますが、ヘッダーの読み取り/抽出に関する情報はまだ見ていません。

java - PDFドキュメントページからヘッダー情報を抽出

0 に答える 0

Related

Reference