私が取り組んでいるこのプロジェクトについて、いくつかのアドバイスが必要です。
私は現在、ヘッダーを要求するプロジェクトに取り組んでいます。削られたヘッダーの例を、Mongoドキュメントスタイルで以下に示します。
{
"url": "google.com",
"statusCode": 301,
"headers": {
"location": "http://www.google.com/",
"content-type": "text/html; charset=UTF-8",
"date": "Mon, 25 Mar 2013 13:50:31 GMT",
"expires": "Wed, 24 Apr 2013 13:50:31 GMT",
"cache-control": "public, max-age=2592000",
"server": "gws",
"content-length": "219",
"x-xss-protection": "1; mode=block",
"x-frame-options": "SAMEORIGIN"
}
}
このプロジェクトでは、Node.JS、Javascript、およびMongoDBを使用します。現在、これらの応答の数千がMongoDBに保存されており、プラットフォームの変更を検出するためにitems
inの一部を使用することに興味があります。、、headers
のようなヘッダーはすべて、私の意見では将来相互参照するために使用できるヘッダーです。たとえば、「今日」のWebサイトが、このスクレーパーを2か月後に再度実行したときにアップグレードされた場合、このWebサイトでアップグレードが行われたと考える理由があります。server
x-powered-by
x-aspnet-version
Microsoft-IIS/7.0
Microsoft-IIS/7.5
私の質問は-これを行うための最良の方法は何ですか?
2つのコレクションを作成する必要があります-collectionToday
とcollectionInTwoMonths
?
次に、、、および?ごとに整数の変更/増分の正規表現検索を実行しserver
ます。x-powered-by
x-aspnet-version
この実装はどのように機能しますか?
任意の提案をいただければ幸いです。