graph - 大量の Web 関連データをグラフ化するためのアプリケーション

Question

これがプログラミングに関連していないことはわかっていますが、悲惨な状況から抜け出すのに役立つフィードバックを期待しています.

私たちは実際には、何年も前にさかのぼる、Web アプリケーションからのさまざまなデータをたくさん持っています。

たとえば、

Apache ログファイル
追跡ソフトウェア (CSV) からの毎日の統計ファイル
全国広告ランキングの日別統計（CSV）
..そして、おそらく他のソースからも新しいデータを生成できます。

2005 年に開始されたデータレコードもあれば、2006 年に開始されたデータレコードもあります。

私が夢に見ているのは^H^H^H^H検索は、すべてのデータを理解するためのアプリケーションであり、それらを読み込んで、個々のデータセットとタイムラインを (グラフで) 比較し、同じ期間内の異なるデータセットを比較します。フィルタリングする (特に Apache ログファイル); もちろん、これはすべてインタラクティブにする必要があります。

BZ2 で圧縮された Apache ログファイルだけですでに合計 21GB になり、毎週増加しています。

awstats、Nihu Web Log Analyzer、または同様のツールなどで実際に成功したことはありません。それらは静的な情報を生成するだけですが、情報をインタラクティブにクエリしたり、フィルターを適用したり、他のデータに重ねたりする必要があります。

また、RapidMiner などのデータマイニングツールも試してみましたが、うまくいきませんでした (つまり、頭がいっぱいです)。

念のため言っておきますが、これは商用アプリケーションになる可能性があります。しかし、本当に役立つものを見つけなければなりません。

どういうわけか、存在しないものを探しているか、アプローチが間違っているという印象を受けます。どんなヒントでも大歓迎です。

アップデート：

結局、私はそれが次のことの混合物でした：

多くのフィルタリング機能を含む、ログファイルの解析と解析を管理するためのbashおよびPHPスクリプトを作成しました
Excel に読み込むプレーンな古い CSV ファイルを生成しました。私は幸運にも Excel 2007 を使用できました。固定されたデータセットを操作しているにもかかわらず、Excel 2007 のグラフィカルな機能は非常に役に立ちました。
Amazon EC2 を使用してスクリプトを実行し、CSV をメールで送信しました。約 200 GB のデータをクロールする必要があったため、大きなインスタンスの 1 つを使用して解析を並列化しました。データを正しく取得するために多数の解析試行を実行する必要があり、全体の処理時間は 45 分でした。Amazon EC2 がなければ何ができたのかわかりません。それは私が支払ったすべての価値がありました。

score 1 · Accepted Answer

Splunk は、この種の製品です。私はそれを自分で使用したことはありません。 http://www.splunk.com/

score 0 · Accepted Answer

完全に開示するために、私はあなたの説明に商用ツールを使用していません。

LogParserを見たことがありますか？探しているものよりも手動である可能性がありますが、さまざまな構造化された形式を照会できます。

グラフィックの側面に関しては、いくつかの基本的なグラフ作成機能が組み込まれていますが、ログパーサーの出力を表形式/区切り形式にパイプしてExcelにロードすると、はるかに多くのマイレージが得られる可能性があります。そこから、ほぼすべてのチャート/グラフを作成できます。

さまざまなデータソースを相互結合する場合は、いつでもすべてのデータをデータベースに送り込むことができます。データベースでは、データをクエリするためのより豊富な言語を使用できます。

score 0 · Accepted Answer

あなたが探しているのは「データマイニングフレームワーク」です。つまり、ギガバイトのややランダムなデータを喜んで食べ、それをまだ未知の方法でスライスして、静的な内部に埋もれている金塊を見つけることができるものです。。

いくつかのリンク：

CloudBase：「CloudBaseはMap-Reduceアーキテクチャ上に構築された高性能データウェアハウスシステムです。これにより、ANSI SQLを使用するビジネスアナリストは、Webサイト、通信、またはIT運用で発生する大規模なログファイルを直接クエリできます。」
RapidMiner：「RapidMineraleadyは、完全なデータマイニングおよびビジネスインテリジェンスエンジンであり、分析からレポートまで、ETL（抽出、変換、読み込み）に至るまでの多くの関連する側面もカバーしています。」

graph - 大量の Web 関連データをグラフ化するためのアプリケーション

4 に答える 4

Related

Reference