7

複数のノードのログ ファイル (私の場合は apache アクセスとエラー ログ) からエクスポートし、そのデータをスケジュールされたジョブとしてバッチで集計したいと考えています。私は、ストリーミング データで動作する複数のソリューションを見てきました (つまり、スクライブを考えてください)。目的地を柔軟に定義できるツールが欲しい。この要件は、宛先として HDFS を使用したいという事実から来ています。

これをバッチでサポートするツールを見つけることができませんでした。ホイールを再作成する前に、StackOverflow コミュニティに意見を求めたいと思いました。

解決策が既に Python に存在する場合は、さらに良いでしょう。

4

4 に答える 4

1

http://mergelog.sourceforge.net/を使用 して、すべての apache ログをマージします。

于 2010-07-30T20:15:28.143 に答える
0

Hbase と Hdfs を使用したログ ファイルの集計/レポート システムである Zomhg をご覧ください: http://github.com/zohmg/zohmg

于 2010-03-31T20:21:03.110 に答える
0

Scribe は要件を満たすことができます。複数のソースからログを集約できるバージョン (リンク) の scribe があり、特定のしきい値に達すると、すべてを HDFS に保存します。私はそれを使用しましたが、非常にうまく機能します。コンパイルはかなり複雑なので、問題がある場合は質問してください。

于 2010-06-23T19:24:02.830 に答える
-1

PiCloudが役立つ場合があります。

PiCloud プラットフォームを使用すると、サーバーのプロビジョニング、管理、および保守に伴うすべての配管に時間を費やすことなく、アルゴリズムとソフトウェアを自由に開発できます。

于 2010-03-06T02:12:52.387 に答える