pdf - GETリクエストを介してPDFドキュメントから1ページを取得することは可能ですか？

Question

デジタルリポジトリを新しいプラットフォームに移行する必要がありますが、古いプラットフォームにアクセスできないため、Web経由でオブジェクトを取得することにしました。

一部のオブジェクトには他のオブジェクトが含まれています。このタイプのほとんどのオブジェクトでは、コンポーネントとそのメタデータの識別/取得は簡単なプロセスです。ただし、一部のPDFファイルでは、参照されるコンポーネントは、実際には、個別のページではなく、単一のファイル内の個々のページへの参照であるように見えます。

たとえば、http：//content.wwu.edu/cdm4/document.php？CISOROOT = / wfront＆CISOPTR = 2711は、4ページのオブジェクトを提供します。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711&CISOMODE=printを使用すると、ドキュメント全体を取得できます。http://content.wwu.edu/cgi-bin/showfile.exe?CISOROOT=/wfront&CISOPTR=2711は、コンポーネントページの識別子を示すXMLドキュメントを取得しますが、それらをカールしようとすると、長さがゼロになります。ドキュメント。しかし、PDF以外のドキュメントが関係している場合に同じ方法を使用すると、実際のファイルが取得されます。これが、個々のページのみが取得されていると思う理由です。

新しいプラットフォームに個別のオブジェクトとして保存する必要があるため、個別のページを取得するにはどうすればよいですか？ありがとう

score 0 · Accepted Answer

結論として、これはサーバー上に個々のページを抽出する何かがある場合にのみ可能であるように見えます。

Wiresharkをオンにすると、ユーザーインターフェイスのアクションが、次の構文を使用してサーバー側のPDFアプリケーションへの呼び出しを呼び出していることがわかりました。

http://content.wwu.edu/cgi-bin/showpdf.exe?CISOROOT=/wfront&CISOPTR=2711&CISOPAGE=3

ここで、2711はオブジェクトの名前であり、3は問題のファイルのページです。さらなる実験により、私が識別できる任意のPDFの任意のページをプルアップできることが明らかになりました。

同様の問題を抱えている他の人にとって、wiresharkはあなたの友達です。

pdf - GETリクエストを介してPDFドキュメントから1ページを取得することは可能ですか？

1 に答える 1

Related

Reference