0

Hadoop を使い始めたばかりで、ファイルではない他の入力ソースを使用する方法を理解するのに苦労しています。つまり、AWS SimpleDB からすべての行を読み取るか、別のシステムの REST API からすべてのレコードを読み取ります。オンラインのすべてのものは、ファイルまたはいくつかの選択されたデータベースの処理方法のみを示しています。

InputFormat の API は非常に複雑に見えるので、Amazon の Elastic MapReduce (Hadoop ベース) を使用して MapReduced できる、ファイル以外のデータ ソースからデータを読み込む最も簡単な方法を見つけようとしています。コードの記述にはJAVAを使用しています。

ありがとう!

4

1 に答える 1

3

「最も速い」方法は、FlumeChukwaなどのデータ集約ツールを使用することです。Twitter API を使用して Flume から Twitter データを収集する方法の非常に良い例をここで見つけることができます。これは、Flume を使用して Twitter データを Hadoop クラスターに読み取り、Hive を使用して処理する方法を示しています。必要に応じて、独自の MR ジョブを作成してそれを行うことができます。これらのちょっとしたことのためにカスタム InputFormat を考案しようとすると、実際にはいくつかの作業が必要であり、これについてはあまり助けにはならないと思います (誰かがこれを行い、それをあなたと共有する準備ができていない限り)。

HTH

于 2013-04-23T16:11:05.537 に答える