hadoop - Hadoop を使用したログ分析により、エラーシナリオと頻繁に繰り返されるトランザクションを見つけます

Question

アプリケーションサーバーのログが必要なビジネスシナリオがあり、以下のタスクを実行したい -

ログに記録されたエラーシナリオを調べて、エラーコード [ログ内]、発生した例外、時間を見つけます。
セキュリティ違反の可能性があるユーザーによって行われた反復トランザクション。
上記の 2 つが発生した場合、管理者に警告します。

バッチ処理を備えたマルチスレッドの基本的なJavaアプリケーションを使用してそれを行うことができますが、ビッグデータテクノロジーを使用してそれを行い、さらにアプリケーションの動作をグラフィカルに表現したいと考えています。

これを非常に高速でスケーラブルに実現するために使用するのに最適な技術を誰かが提案できますか? 可能であれば、それを行う方法のアーキテクチャは?

誰かがそれを助けてくれたら素晴らしいだろう

score 0 · Accepted Answer

ビッグデータソリューションの実装について考えたことはありますか? 同様の要件があります。私のデータソースは weblogic ドメインアプリケーションログです。これが私のアプローチです。1. Flume またはその他のストリーミングツールを使用して、weblogic アプリケーションエラーログを hadoop にストリーミングします。2. データを Spark Dataframe にロードします。3. エラーデータを分析するための Spark SQL クエリを作成する

DB エラーログテーブルがあります。これを別のデータソースとして使用して、Web ロジック DB の例外を関連付けます。weblogic エラーデータは、2 つのパイプ記号 ("||") で区切られた CSV 形式です。ただし、入力データの問題は、以下に示すように、最後の列データが複数の行にまたがっていることです。Spark は、次の行の最後の列の継続を「新しい行」として扱うため、読み込みが失敗します。この問題に対処する方法について誰かが考えている場合は感謝します。

||20160704||01:58:32,294||396c0a8e2470e7a21467611910768||com.seic.dataservices.impl.InstrumentSearchDoImpl||[アクティブ] ExecuteThread: '9' for queue: 0) ....INSTRUMENT_ID(1004915) PRICE_DATE(01 -JUL-16) はテーブル TABEL_NAME に存在しません。価格データが見つかりません。

hadoop - Hadoop を使用したログ分析により、エラー シナリオと頻繁に繰り返されるトランザクションを見つけます

1 に答える 1

Related

Reference

hadoop - Hadoop を使用したログ分析により、エラーシナリオと頻繁に繰り返されるトランザクションを見つけます