-1

API経由で膨大な量のXMLデータを受信して​​います。この大規模なデータ セットを処理するために、Hadoop で処理することを計画していました。

Hadoop にデータを効率的に取り込む方法を理解するために、あなたの助けが必要でした。利用可能なツールは何ですか? このデータをリアルタイムにする可能性はありますか?

入力してください。

ご協力いただきありがとうございます。

4

4 に答える 4

0

データを HDFS に格納することが唯一の目的である場合は、data-2013-08-05-01.xml などの規則に従って XML 応答をディスクに書き込み続け、毎日 (または毎時 cron) を作成してインポートすることができます。 HDFS の XML データ。ストリーミング機能が必要ない場合、Flume を実行するのはやり過ぎです。あなたの質問から、なぜ Hadoop が必要なのかすぐにはわかりませんか? MR ジョブを実行する必要がありますか?

于 2013-09-05T19:47:17.937 に答える