3

これがプログラミングに関連していないことはわかっていますが、悲惨な状況から抜け出すのに役立つフィードバックを期待しています.

私たちは実際には、何年も前にさかのぼる、Web アプリケーションからのさまざまなデータをたくさん持っています。

たとえば、

  • Apache ログファイル
  • 追跡ソフトウェア (CSV) からの毎日の統計ファイル
  • 全国広告ランキングの日別統計(CSV)
  • ..そして、おそらく他のソースからも新しいデータを生成できます。

2005 年に開始されたデータ レコードもあれば、2006 年に開始されたデータ レコードもあります。

私が夢に見ているのは^H^H^H^H検索は、すべてのデータを理解するためのアプリケーションであり、それらを読み込んで、個々のデータセットとタイムラインを (グラフで) 比較し、同じ期間内の異なるデータセットを比較します。フィルタリングする (特に Apache ログファイル); もちろん、これはすべてインタラクティブにする必要があります。

BZ2 で圧縮された Apache ログファイルだけですでに合計 21GB になり、毎週増加しています。

awstats、Nihu Web Log Analyzer、または同様のツールなどで実際に成功したことはありません。それらは静的な情報を生成するだけですが、情報をインタラクティブにクエリしたり、フィルターを適用したり、他のデータに重ねたりする必要があります。

また、RapidMiner などのデータ マイニング ツールも試してみましたが、うまくいきませんでした (つまり、頭がいっぱいです)。

念のため言っておきますが、これは商用アプリケーションになる可能性があります。しかし、本当に役立つものを見つけなければなりません。

どういうわけか、存在しないものを探しているか、アプローチが間違っているという印象を受けます。どんなヒントでも大歓迎です。

アップデート:

結局、私はそれが次のことの混合物でした:

  • 多くのフィルタリング機能を含む、ログファイルの解析と解析を管理するためのbashおよびPHPスクリプトを作成しました
  • Excel に読み込むプレーンな古い CSV ファイルを生成しました。私は幸運にも Excel 2007 を使用できました。固定されたデータ セットを操作しているにもかかわらず、Excel 2007 のグラフィカルな機能は非常に役に立ちました。
  • Amazon EC2 を使用してスクリプトを実行し、CSV をメールで送信しました。約 200 GB のデータをクロールする必要があったため、大きなインスタンスの 1 つを使用して解析を並列化しました。データを正しく取得するために多数の解析試行を実行する必要があり、全体の処理時間は 45 分でした。Amazon EC2 がなければ何ができたのかわかりません。それは私が支払ったすべての価値がありました。
4

4 に答える 4

1

Splunk は、この種の製品です。私はそれを自分で使用したことはありません。 http://www.splunk.com/

于 2009-04-14T23:03:40.413 に答える
0

完全に開示するために、私はあなたの説明に商用ツールを使用していません。

LogParserを見たことがありますか?探しているものよりも手動である可能性がありますが、さまざまな構造化された形式を照会できます。

グラフィックの側面に関しては、いくつかの基本的なグラフ作成機能が組み込まれていますが、ログパーサーの出力を表形式/区切り形式にパイプしてExcelにロードすると、はるかに多くのマイレージが得られる可能性があります。そこから、ほぼすべてのチャート/グラフを作成できます。

さまざまなデータソースを相互結合する場合は、いつでもすべてのデータをデータベースに送り込むことができます。データベースでは、データをクエリするためのより豊富な言語を使用できます。

于 2009-04-15T02:12:41.207 に答える
0

あなたが探しているのは「データマイニングフレームワーク」です。つまり、ギガバイトのややランダムなデータを喜んで食べ、それをまだ未知の方法でスライスして、静的な内部に埋もれている金塊を見つけることができるものです。 。

いくつかのリンク:

  • CloudBase:「CloudBaseはMap-Reduceアーキテクチャ上に構築された高性能データウェアハウスシステムです。これにより、ANSI SQLを使用するビジネスアナリストは、Webサイト、通信、またはIT運用で発生する大規模なログファイルを直接クエリできます。」

  • RapidMiner:「RapidMineraleadyは、完全なデータマイニングおよびビジネスインテリジェンスエンジンであり、分析からレポートまで、ETL(抽出、変換、読み込み)に至るまでの多くの関連する側面もカバーしています。」

于 2009-04-27T14:18:45.573 に答える