date - Web サイト (ドメインではない) の年齢を取得する方法

Question

堅牢で普遍的な方法で Web サイトの年齢 (ホスト/ドメイン登録の年齢ではない) を判断する方法を知りたいです。

例として、このサイトを取り上げます。

ほとんどの場合、年齢/日付 (この場合は 2011 年 12 月 21 日) がサイトに表示されますが、ページからこの情報を取得する一般的な方法はありません (ページの META タグにある可能性があります)。、ヘッダー...)

見出しをググると、Google は年齢を表示します (最初の結果; 灰色; したがって、Google はこの情報を何らかの方法で抽出しました)。

http://i.stack.imgur.com/BcXwo.png [これを画像として埋め込む権限がありません]

横に、同じニュースを掲載した他のサイトがあり (報道機関からのものだと思います)、Google はそれらのサイトの年齢も表示しますが、テキストでの出現にもかかわらず、最後のサイトの年齢は表示しません (最初の行; 12 月 21 日水曜日) 、2011）。

Q1)普遍的な方法で年齢を決定する方法は?

Q2) Google はどのようにそれを行うのですか? URL がインデックスに表示されたのはちょうどその時ですか? では、最終結果の日付がないのはなぜですか?

Q3)実際にGoogleから取得する以外に方法がない場合、いくつかのドメインに対してどのように自動的に取得できますか? 多数の自動化されたリクエストの後、Google はそれ以上のリクエストの送信をブロックまたは防止します。Google カスタム検索 API を調べましたが、データが結果に表示されません。

ありがとう！

score 0 · Accepted Answer

サーバーがサポートしている場合は、HTTP 要求の Last-Modified ヘッダー部分を使用できます。

試す：curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html

Reply の HTTP-Header のみを取得し、出力を確認します。

HTTP/1.1 200 OK
Date: Wed, 09 May 2012 12:40:10 GMT
Server: Apache/2.2.15 (CentOS)
...
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT
Last-Modified: Wed, 09 May 2012 12:40:10 GMT
Content-Type: text/html; charset=UTF-8

score 0 · Accepted Answer

実際、URL から日付を取得する適切な方法が見つかりませんでした。そのため、別のアプローチを取りました。その URL をアイテムとして含むフィードを (サイト自体から、または Google を通じて) 見つけようとしました。

次に、発行日を含むpubDateまたはdc:dateを取得する可能性が高くなります。これで使用可能になります。

すべての入力に感謝します。

date - Web サイト (ドメインではない) の年齢を取得する方法

2 に答える 2

Related

Reference