これがプログラミングに関連していないことはわかっていますが、悲惨な状況から抜け出すのに役立つフィードバックを期待しています.
私たちは実際には、何年も前にさかのぼる、Web アプリケーションからのさまざまなデータをたくさん持っています。
たとえば、
- Apache ログファイル
- 追跡ソフトウェア (CSV) からの毎日の統計ファイル
- 全国広告ランキングの日別統計(CSV)
- ..そして、おそらく他のソースからも新しいデータを生成できます。
2005 年に開始されたデータ レコードもあれば、2006 年に開始されたデータ レコードもあります。
私が夢に見ているのは^H^H^H^H検索は、すべてのデータを理解するためのアプリケーションであり、それらを読み込んで、個々のデータセットとタイムラインを (グラフで) 比較し、同じ期間内の異なるデータセットを比較します。フィルタリングする (特に Apache ログファイル); もちろん、これはすべてインタラクティブにする必要があります。
BZ2 で圧縮された Apache ログファイルだけですでに合計 21GB になり、毎週増加しています。
awstats、Nihu Web Log Analyzer、または同様のツールなどで実際に成功したことはありません。それらは静的な情報を生成するだけですが、情報をインタラクティブにクエリしたり、フィルターを適用したり、他のデータに重ねたりする必要があります。
また、RapidMiner などのデータ マイニング ツールも試してみましたが、うまくいきませんでした (つまり、頭がいっぱいです)。
念のため言っておきますが、これは商用アプリケーションになる可能性があります。しかし、本当に役立つものを見つけなければなりません。
どういうわけか、存在しないものを探しているか、アプローチが間違っているという印象を受けます。どんなヒントでも大歓迎です。
アップデート:
結局、私はそれが次のことの混合物でした:
- 多くのフィルタリング機能を含む、ログファイルの解析と解析を管理するためのbashおよびPHPスクリプトを作成しました
- Excel に読み込むプレーンな古い CSV ファイルを生成しました。私は幸運にも Excel 2007 を使用できました。固定されたデータ セットを操作しているにもかかわらず、Excel 2007 のグラフィカルな機能は非常に役に立ちました。
- Amazon EC2 を使用してスクリプトを実行し、CSV をメールで送信しました。約 200 GB のデータをクロールする必要があったため、大きなインスタンスの 1 つを使用して解析を並列化しました。データを正しく取得するために多数の解析試行を実行する必要があり、全体の処理時間は 45 分でした。Amazon EC2 がなければ何ができたのかわかりません。それは私が支払ったすべての価値がありました。