2

大きなログ ファイルを分析するシステムが必要です。先日、友人から Hadoop を使うように指示されましたが、これは私のニーズにぴったりのようです。私の質問は、データを Hadoop に取り込むことに関するものです。

HDFS にデータを取得する際に、クラスター上のノードにデータをストリーミングさせることは可能ですか? それとも、各ノードがローカルの一時ファイルに書き込み、特定のサイズに達した後に一時ファイルを送信する必要がありますか? HDFS のファイルに追加すると同時に、同じファイルに対してクエリ/ジョブを実行することは可能ですか?

4

4 に答える 4

2

Fluentdログコレクターは、ユーザーがデータをHDFSに即座にストリーミングできるWebHDFSプラグインをリリースしました。管理が簡単で、インストールは本当に簡単です。

ここに画像の説明を入力してください

もちろん、アプリケーションから直接データをインポートすることもできます。Fluentdに対してログを投稿するJavaの例を次に示します。

于 2012-11-17T05:05:00.713 に答える
1

Hadoop ジョブは複数の入力ファイルに対して実行できるため、すべてのデータを 1 つのファイルとして保持する必要はありません。ただし、ファイル ハンドルが適切に閉じられるまで、ファイルを処理することはできません。

于 2009-07-21T04:51:07.913 に答える
0

Flumeを使用して、サーバーから HDFS にログ ファイルを収集することをお勧めします。

于 2010-10-04T11:54:48.530 に答える