hadoop - Hadoop との間でデータを取得する

Question

大きなログファイルを分析するシステムが必要です。先日、友人から Hadoop を使うように指示されましたが、これは私のニーズにぴったりのようです。私の質問は、データを Hadoop に取り込むことに関するものです。

HDFS にデータを取得する際に、クラスター上のノードにデータをストリーミングさせることは可能ですか? それとも、各ノードがローカルの一時ファイルに書き込み、特定のサイズに達した後に一時ファイルを送信する必要がありますか? HDFS のファイルに追加すると同時に、同じファイルに対してクエリ/ジョブを実行することは可能ですか?

score 2 · Accepted Answer

Fluentdログコレクターは、ユーザーがデータをHDFSに即座にストリーミングできるWebHDFSプラグインをリリースしました。管理が簡単で、インストールは本当に簡単です。

ここに画像の説明を入力してください

Fluentd + Hadoop：インスタントビッグデータコレクション

もちろん、アプリケーションから直接データをインポートすることもできます。Fluentdに対してログを投稿するJavaの例を次に示します。

Fluentd：Javaアプリケーションからのデータインポート

score 1 · Accepted Answer

Hadoop ジョブは複数の入力ファイルに対して実行できるため、すべてのデータを 1 つのファイルとして保持する必要はありません。ただし、ファイルハンドルが適切に閉じられるまで、ファイルを処理することはできません。

score 0 · Accepted Answer

Flumeを使用して、サーバーから HDFS にログファイルを収集することをお勧めします。

hadoop - Hadoop との間でデータを取得する

4 に答える 4

Related

Reference