問題は、マイニングにはログ ファイルが大きすぎることです。(毎日のリクエストがほぼ 100m であると仮定します)
リクエスト行を簡素化する方法があるのではないかと思っています。すべてのバケット フィールド値は必要ありません。
例:
314423094967345b38a76d76d78c678b4 bucket_name [14/Nov/2010:13:53:59 +0000] 11.22.33.44 Anonymous 3E43423453A12F47 REST.GET.OBJECT s3browser/2.4.5/s3browser-portable-2-4-5.exe "GET /s3browser/2.4.5/s3browser-portable-2-4-5.exe HTTP/1.1" 200 - 289897 289897 50 44 "http://s3browser.com/download.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.517.44 Safari/534.7" -
バケット形式のファイル数を減らすことに関する情報は見つかりませんでした。
Time、Remote IP、Key、Referrer、Bytes Sent、Object Size、User-Agent だけが必要です。
誰もそれについて何か考えましたか?
これらの大きなファイルを短期間でマイニングするための他のアイデアも歓迎します。
ありがとう。