たとえば、myspace.com のようなウェブサイトは多くのヒットを受け取ります。これらすべてのリクエストをログに記録するには多くのスペースが必要になると想像できます。彼らはこれを処理しますか?
7 に答える
MySpace ページでソースを表示すると、答えが得られます。
<script type="text/javascript">
var pageTracker = _gat._getTracker("UA-6293770-1");
pageTracker._setDomainName(".myspace.com");
pageTracker._setSampleRate("1"); //sets sampling rate to 1 percent
pageTracker._trackPageview();
</script>
このスクリプトは、Google アナリティクスを使用していることを意味します。
IIS ログを使用してトラフィックを測定することはできません。サード パーティに広告を販売する可能性があるためです。彼らは別の会社から独立した数値を求めており、そこで Google アナリティクスの出番です。
今後の参考のために、Web サイトがどのように機能しているかについて質問がある場合は、ソースを表示してみてください。目の前にあるものに驚かれることでしょう。
何百人もの人々が使用しているイントラネットでも同様の問題がありました。ディスク アクティビティが大量に発生し、パフォーマンスが低下していました。
簡単な答えは、非同期ノンブロッキング ロギングです。
おそらくGoogleアナリティクスが好きです。
Javascript を使用して、別のサーバーなどにページをロードします。
はい、すべてのリクエストをログに記録しなかった場合は非常に驚きます。トラフィック量が特に多い操作では、通常、何らかの形で、場合によっては単純なバッチとして、生のサーバーログに対して独自のログ管理ソリューションをロールします。 -タイプのプロセス、場合によっては完全なサブシステムとして。
私が働いていたある会社は、ドットコム全盛期に戻って、1日あたり2,000万ページビューを超えました。そのサイト(実際には、それらのセットで、全部で数十台のマシンで実行されています)について、私たちの運用チームは、解析、変換(リレーショナルストレージへの変換)、圧縮、および配布を行う、非常に洗練されたクラスター化されたソリューションをCで作成しました。毎日ログに記録します。ログファイル、特に冗長なファイルはすぐに蓄積され、当時利用可能な商用ソリューションではそれを削減できませんでした。
ロギングによってサーバー関連の情報(要求と応答時間、要求ごとのdbとcpuの使用量など)を収集することを意味する場合、トラフィックの10%または1%のみをサンプリングすると思います。これにより、ディスクを埋めたりサイトの速度を低下させたりすることなく、同じ結果が得られます(開発者に監査情報を提供します)。
ここでの経験から言えば、 ZXTMトラフィック シェーピングとロギング