ホストされているサイトの出席者を分析するために要約したい、不適切に構成された Web サーバーのログ ファイルに苦労しています。私にとって残念なことに、サイトのアーキテクチャは乱雑であるため、ホストされているオブジェクト (html ページ、jpg 画像、pdf ドキュメントなど) のインデックスはありませんが、複数の URI が同じページを参照できます。例えば :
http://www.site.fr/main.asp?page=foo.htm
http://www.site.fr/storage-tree/foo.htm
http://www.site.fr/specific.asp?id=200
http://www.site.fr/specific.asp?path=/storage-tree/foo.htm
など、重複する URI 間に明らかな規則性はありません。
概念的および実践的に、ページを効率的に特定するにはどうすればよいですか? 私が問題を理解しているように、アイデアは、ログの URI を http 要求から構築された一意のオブジェクト識別子にリンクするインデックスを構築することです。3 つの緩い制約があります。
- 私は統計部分に R を使用しているため、http 処理にも使用したいと考えています。
- ログは数十万の異なる URI (フォーム、検索、データベース クエリなど) で構成されているため、速度が問題になる場合があります。
- この新しい URI が以前に識別された既知のページであることを 3 日または 1 か月で確認できるようにしたい場合は、2 つの URI が同じページを参照していることを評価するために使用する機能を保存しました。それから、収納スペースが問題です。