0

heritrix を使用して、いくつかの PDF ファイルを含むサイトをクロールしました。クロール ログは、pdf リンクのコンテンツ タイプが「application/pdf」であることを示していますが、.warc ファイルの応答 (クロール出力) は、コンテンツ タイプが「application/http」および「application/pdf」であることを示しています (以下の例を参照してください:)。

WARC/1.0^M
WARC-Type: response^M
WARC-Target-URI: `http://example.com/b/c/files/abc.pdf`^M
WARC-Date: 2014-05-29T10:48:03Z^M
WARC-Payload-Digest: sha1:JMRPMGSNIPHBPSBNPD2VJ2NIOGD75UUK^M
WARC-IP-Address: 86.36.67.50^M
WARC-Record-ID: <urn:uuid:00c8b80f-2851-42a1-a449-3cd9e238bfe9>^M
**Content-Type: application/http; msgtype=response^M**
Content-Length: 592173^M
WARC-Block-Digest: sha256:0a56d251257dbcbd6a54e19a528a56aae3e0c9e92a6702f4048e3b69bb3e0920^M
^M
HTTP/1.1 200 OK^M
Date: Thu, 29 May 2014 10:48:04 GMT^M
Server: Apache/2.4.4 (Unix) OpenSSL/0.9.7d PHP/5.3.12 mod_jk/1.2.35^M
Last-Modified: Wed, 20 Nov 2013 08:13:50 GMT^M
ETag: "90805-4eb975c6bcb80"^M
Accept-Ranges: bytes^M
Content-Length: 591877^M
Connection: close^M
**Content-Type: application/pdf^M** 
followed by the content of the PDF file

これがどのように起こっているのかわかりません。誰でも説明できますか?

4

1 に答える 1

0

WARC ファイルには以下が含まれます。

最初にWARC-Header-Metadata、先頭から最初の空行まで。このヘッダーは、次の内容を説明します。ヘッダーとコンテンツを含む完全な http 応答。したがって、content-type は application/http になります。

次に、が来ますHTTP-Response-Metadata。このヘッダーは実際の HTTP ヘッダーであり、次の内容を説明しています。PDF ドキュメント。

于 2015-03-18T13:45:49.883 に答える