1

ホストされているサイトの出席者を分析するために要約したい、不適切に構成された Web サーバーのログ ファイルに苦労しています。私にとって残念なことに、サイトのアーキテクチャは乱雑であるため、ホストされているオブジェクト (html ページ、jpg 画像、pdf ドキュメントなど) のインデックスはありませんが、複数の URI が同じページを参照できます。例えば ​​:

  • http://www.site.fr/main.asp?page=foo.htm
  • http://www.site.fr/storage-tree/foo.htm
  • http://www.site.fr/specific.asp?id=200
  • http://www.site.fr/specific.asp?path=/storage-tree/foo.htm

など、重複する URI 間に明らかな規則性はありません。

概念的および実践的に、ページを効率的に特定するにはどうすればよいですか? 私が問題を理解しているように、アイデアは、ログの URI を http 要求から構築された一意のオブジェクト識別子にリンクするインデックスを構築することです。3 つの緩い制約があります。

  • 私は統計部分に R を使用しているため、http 処理にも使用したいと考えています。
  • ログは数十万の異なる URI (フォーム、検索、データベース クエリなど) で構成されているため、速度が問題になる場合があります。
  • この新しい URI が以前に識別された既知のページであることを 3 日または 1 か月で確認できるようにしたい場合は、2 つの URI が同じページを参照していることを評価するために使用する機能を保存しました。それから、収納スペースが問題です。
4

1 に答える 1

0

これは、httr を使用すると非常に簡単です。

library(httr)
HEAD("http://gmail.com")$url

status_code多くの場合、失敗はリダイレクトされないため、HEAD によって返されるも確認する必要があります。

(ここで RCurl よりも httr を使用する利点の 1 つは、同じサイトへの複数の http 呼び出し間で接続が自動的に保持されることです。これにより、かなり高速になります)

于 2013-04-08T16:01:15.897 に答える