複数のノードのログ ファイル (私の場合は apache アクセスとエラー ログ) からエクスポートし、そのデータをスケジュールされたジョブとしてバッチで集計したいと考えています。私は、ストリーミング データで動作する複数のソリューションを見てきました (つまり、スクライブを考えてください)。目的地を柔軟に定義できるツールが欲しい。この要件は、宛先として HDFS を使用したいという事実から来ています。
これをバッチでサポートするツールを見つけることができませんでした。ホイールを再作成する前に、StackOverflow コミュニティに意見を求めたいと思いました。
解決策が既に Python に存在する場合は、さらに良いでしょう。