0

さまざまな種類のログ ファイルから大量のデータを収集して保存する必要がありますが、必要な情報だけを抽出するために特定のフィールドをフィルター処理する必要があります。そのため、ETL ツールを使用してダート サービスを実行する可能性について考えています。私の考えは、ファイル コネクタに基づいてソリューションを構築し、変換プロセスをプログラミングまたはカスタマイズし、最終的にこのソリューションを Linux マシンに展開して、その場でファイルを監視し、必要な情報を抽出してデータベースに保存することです。

だから私の質問はです。この仕事に適していて、柔軟性があり、より KISS しやすいオープンソース ツールはどれですか?

Scriptella、Kettle、Talent など?

繰り返しますが、デファクト ツールとしてログ/テキスト ファイルを操作するにはどうすればよいですか?

男らしい意図と目的は、ログを監視、抽出し、地区のログ形式からデータを保存するための効率的なソリューションを作成することです。

どうも!

4

1 に答える 1

1

私が最良の組み合わせであると信じているのは、apache hadoop または gridgain または JPPF (大規模なデータセットの処理用) +データ マイニング用のjdmp + クエリと検索用の NoSQL db (neo4j または bigtable など) などの map-reduce 実装です。正確なユースケースが何であるかはまだ明確ではありません;-)

詳細については、このリンクも参照してください: Hadoop用のバッチ ログ処理ツール (zohmg の代替手段) を知っていますか?

于 2010-11-11T03:17:07.513 に答える